Saya memiliki kumpulan data berukuran 40-50 poin. Tanpa berasumsi bahwa data terdistribusi normal, saya ingin mencari tahu outlier dengan kepercayaan setidaknya 90%. Saya pikir boxplot bisa menjadi cara yang baik untuk melakukan itu tetapi saya tidak yakin.
Setiap bantuan dihargai.
Juga dengan implementasi boxplot saya tidak dapat menemukan implementasi yang selain menggambar plot secara eksplisit meludahkan outlier.
Jawaban:
Itu karena algoritma seperti itu tidak ada. Anda memerlukan distribusi yang diasumsikan untuk dapat mengklasifikasikan sesuatu sebagai berada di luar kisaran nilai yang diharapkan.
Bahkan jika Anda berasumsi distribusi normal, menyatakan titik data sebagai pencilan adalah bisnis yang penuh. Secara umum, Anda tidak hanya memerlukan estimasi yang baik dari distribusi yang sebenarnya, yang sering kali tidak tersedia, tetapi juga alasan yang didukung secara teoritis untuk membuat keputusan Anda (yaitu subjek yang entah bagaimana memecahkan pengaturan eksperimental). Penilaian seperti itu biasanya tidak mungkin dikodifikasikan dalam suatu algoritma.
sumber
Ini tidak langsung menjawab pertanyaan Anda, tetapi Anda dapat belajar sesuatu dari melihat
outliers
dataset dalamTeachingDemos
paket untuk R dan mengerjakan contoh-contoh di halaman bantuan. Ini mungkin memberi Anda pemahaman yang lebih baik tentang beberapa masalah dengan deteksi pencilan otomatis.sumber
R akan memuntahkan outlier seperti pada
yang akan menggambar boxplot dan memberi
sumber
2*(1-pnorm(4*qnorm(.75)))
, yang mengembalikan[1] 0.006976603
, nilai yang Anda laporkan di atas, tetapi kemudian saya mensimulasikan sebagai berikut:Set.seed(1); out = c();
for(i in 1:100)
x = rnorm(50)
y = boxplot(x, plot=F)
out[i] = length(y$out)>=1}
sum(out)/100
yang kembali[1] 0.3
. Yaitu, 30% sampel w / akan menunjukkan memiliki outlier dengan metode ini, meskipun sebenarnya tidak ada.set.seed(1); out = c(); for(i in 1:100) {x = rnorm(500); y = boxplot(x, plot=F); out[i] = length(y$out)}; sum(out)/50000
memberi0.00738
yang lebih dekat dengan apa yang saya gambarkanSeperti yang orang lain katakan, Anda menyatakan pertanyaan itu buruk dalam hal kepercayaan. Ada tes statistik untuk pencilan seperti tes Grubbs dan uji rasio Dixon yang telah saya sebutkan pada posting lain. Mereka menganggap distribusi populasi normal meskipun uji Dixon kuat dengan asumsi normalitas dalam sampel kecil. Boxplot adalah cara informal yang bagus untuk melihat outlier dalam data Anda. Biasanya kumis ditetapkan pada persentil ke-5 dan ke-95 dan pengamatan di luar kumis biasanya dianggap sebagai pencilan yang mungkin terjadi. Namun ini tidak melibatkan pengujian statistik formal.
sumber