Saya memiliki apa yang saya anggap naif sebagai masalah yang cukup lurus ke depan yang melibatkan deteksi outlier untuk banyak set data penghitungan yang berbeda. Secara khusus, saya ingin menentukan apakah satu atau lebih nilai dalam serangkaian data jumlah lebih tinggi atau lebih rendah dari yang diharapkan relatif terhadap sisa jumlah dalam distribusi.
Faktor perancu adalah bahwa saya perlu melakukan ini untuk 3.500 distribusi dan kemungkinan beberapa dari mereka akan cocok dengan poisson overdispersed nol yang meningkat, sementara yang lain mungkin paling cocok dengan binomial negatif atau ZINB, sementara yang lain mungkin terdistribusi secara normal. Karena alasan ini, skor-Z sederhana atau plot distribusi tidak sesuai untuk sebagian besar dataset. Berikut ini adalah contoh data penghitungan yang ingin saya deteksi outlier.
counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0
0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0
2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14
15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15
15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.
Awalnya saya pikir saya perlu menulis loop dengan Python atau R yang akan menerapkan satu set model untuk setiap distribusi dan memilih model pas terbaik menurut AIC atau yang lain (mungkin fitdistrplus dalam R?). Saya kemudian bisa bertanya apa yang ekstrem untuk distribusi yang diberikan (jumlah yang jatuh di ekor misalnya akankah jumlah "4" menjadi pencilan dalam distribusi jumlah1 di atas?). Namun, saya tidak yakin ini adalah strategi yang valid, dan terpikir oleh saya mungkin ada metodologi sederhana untuk menentukan pencilan dalam data jumlah yang saya tidak sadari. Saya telah mencari secara luas dan tidak menemukan apa pun yang tampaknya sesuai untuk masalah saya mengingat jumlah distribusi yang ingin saya lihat.
Tujuan utama saya adalah untuk mendeteksi kenaikan atau penurunan yang signifikan dalam hitungan untuk setiap distribusi jumlah, menggunakan metodologi yang paling sesuai secara statistik.
sumber