Katakanlah saya memiliki sampel nilai yang besar di . Saya ingin memperkirakan yang mendasarinyadistribusi. Mayoritas sampel berasal dari asumsi ini distribusi, sedangkan sisanya adalah outlier yang ingin saya abaikan dalam estimasi dan .
Apa cara yang baik untuk melanjutkan ini?
Apakah standar: rumus yang digunakan dalam boxplots menjadi perkiraan yang buruk?
Apa cara yang lebih berprinsip untuk menyelesaikan ini? Apakah ada prior tertentu pada dan itu akan bekerja dengan baik dalam masalah jenis ini?
outliers
pymc
beta-distribution
Amelio Vazquez-Reina
sumber
sumber
Jawaban:
Cara yang lebih sistematis untuk menangani masalah ini adalah dengan menggunakan model campuran eksplisit, dengan spesifikasi distribusi 'outlier'. Bentuk sederhana adalah menggunakan campuran distribusi beta (untuk poin yang Anda minati) dan distribusi seragam (untuk 'pencilan'). Dengan memodelkan data sebagai distribusi campuran Anda bisa mendapatkan perkiraanα dan β yang secara otomatis memperhitungkan fakta bahwa beberapa poin mungkin outlier.
Untuk mengatasi masalah ini menggunakan model campuran, biarkanϕ menjadi probabilitas 'pencilan' dan menganggap Anda memiliki nilai IID X1, . . . ,Xn∼ ϕ ⋅ U ( 0 , 1 ) + ( 1 - ϕ ) ⋅ Beta ( α , β) . Fungsi kemungkinan untuk data yang diamati adalah:
Anda dapat melanjutkan dari sini menggunakan estimasi MLE atau Bayesian klasik. Baik akan membutuhkan teknik numerik. Setelah memperkirakan tiga parameter dalam model, Anda kemudian akan memiliki estimasiα dan β yang secara otomatis menggabungkan kemungkinan outlier. Anda juga akan memiliki perkiraan proporsi pencilan dari model campuran.
sumber