Pada tes outlier univariat (atau: Dixon Q versus Grubbs)

8

Dalam (sebagian besar) literatur kimia analitik, tes standar untuk mendeteksi pencilan dalam data univariat (misalnya urutan pengukuran beberapa parameter) adalah uji Q Dixon. Biasanya, semua prosedur yang tercantum dalam buku teks mengharuskan Anda menghitung kuantitas dari data untuk dibandingkan dengan nilai tabular. Dengan tangan, ini tidak terlalu menjadi perhatian; Namun saya berencana untuk menulis sebuah program komputer untuk Dixon Q, dan nilai-nilai caching menurut saya tidak masuk akal. Yang membawa saya ke pertanyaan pertama saya:

  1. Bagaimana nilai-nilai tabel untuk Dixon Q dihasilkan?

Sekarang, saya telah melihat ke dalam artikel ini , tetapi saya merasa bahwa ini sedikit curang, karena penulis hanya membangun spline yang melewati nilai-nilai tabel yang dihasilkan oleh Dixon. Saya merasa bahwa fungsi khusus (mis. Fungsi kesalahan atau beta / gamma tidak lengkap) akan diperlukan di suatu tempat, tetapi setidaknya saya memiliki algoritma untuk itu.

Sekarang untuk pertanyaan kedua saya: ISO tampaknya secara perlahan merekomendasikan tes Grubbs atas Dixon Q saat ini, tetapi menilai dari buku-buku teks yang belum dipahami. Ini di sisi lain relatif mudah diterapkan karena hanya melibatkan menghitung kebalikan dari CDF Student t. Sekarang untuk pertanyaan kedua saya:

  1. Mengapa saya ingin menggunakan milik Grubbs alih-alih Dixon?

Di depan jelas dalam kasus saya, algoritma ini "lebih rapi", tapi saya curiga ada alasan yang lebih dalam. Adakah yang bisa peduli untuk mencerahkan saya?

JM bukan ahli statistik
sumber

Jawaban:

13

Sebenarnya, pendekatan ini belum dikembangkan secara aktif untuk waktu yang sangat lama. Untuk Outliers univariat, filter optimal (paling efisien) adalah median +/- MAD, atau lebih baik lagi (jika Anda memiliki akses ke R) median +/- Qn (jadi Anda tidak menganggap distribusi yang mendasarinya menjadi simetris), δ×δ×

Estimator Qn diimplementasikan dalam paket robustbase.

Lihat:

Rousseeuw, PJ dan Croux, C. (1993) Alternatif untuk Median Absolute Deviation, Jurnal Asosiasi Statistik Amerika * 88 *, 1273-1283.

Tanggapan terhadap komentar:

Dua tingkat.

A) Filsafat.

Baik tes Dixon dan Grub hanya mampu mendeteksi tipe outlier tertentu (terisolasi, tunggal). Selama 20-30 tahun terakhir konsep pencilan telah melibatkan "setiap pengamatan yang berangkat dari badan utama data". Tanpa spesifikasi lebih lanjut tentang apa keberangkatan khusus itu. Pendekatan bebas karakterisasi ini membuat gagasan untuk membuat tes untuk mendeteksi outliers batal. Penekanan bergeser ke konsep estimator (contoh klasik yang merupakan median) yang mempertahankan nilai-nilai di sana (yaitu tidak sensitif) bahkan untuk tingkat kontaminasi yang besar oleh pencilan-penduga seperti itu kemudian dikatakan kuat- dan pertanyaan tentang pendeteksian outlier menjadi batal.

B) Kelemahan,

Anda dapat melihat bahwa tes Grub dan Dixon mudah rusak: seseorang dapat dengan mudah menghasilkan data yang terkontaminasi yang akan lulus salah satu tes seperti kebahagiaan (yaitu tanpa memecahkan nol). Ini sangat jelas dalam uji Grubb, karena pencilan akan memecah rata-rata dan sd yang digunakan dalam pembangunan stat uji. Ini kurang jelas dalam Dixon, sampai orang mengetahui bahwa statistik pesanan juga tidak kuat untuk outlier.

Saya pikir Anda akan menemukan lebih banyak penjelasan tentang fakta-fakta ini dalam makalah yang berorientasi pada khalayak umum non-statistik seperti yang dikutip di atas (saya juga dapat memikirkan makalah Fast-Mcd oleh Rousseeuw). Jika Anda membaca buku terbaru / intro untuk analisis yang kuat, Anda akan melihat bahwa Grubb maupun Dixon tidak disebutkan.

pengguna603
sumber
Menarik ... Saya kira ahli kimia analitik sangat ketinggalan zaman! Pikiran memberitahuku bagaimana kedua hal ini menjadi didiskreditkan? Saya akan melihat referensi Anda dan melihat bagaimana algoritma untuk ini terlihat.
JM bukan ahli statistik
3
Saya tidak melihat alasan untuk mengatakan bahwa tes ini telah didiskreditkan. Jika Anda mencoba mendeteksi outlier tunggal ketika distribusi populasi (tanpa outlier) normal. Faktanya, tes Grubbs memenuhi beberapa sifat optimalitas. Selalu ada masalah dengan tes pencilan seperti efek penutupan ketika ada beberapa pencilan tetapi itu tidak mendiskreditkan metode! Metode ketahanan menggunakan semua data dan menurunkan bobot outlier sehingga outlier tidak akan terlalu mempengaruhi estimasi.
Michael R. Chernick
1
Jika Anda ingin mempelajari lebih lanjut tentang uji Dixon, lihat posting saya yang lain di situs ini mengenai pertanyaan tentang outlier dan makalah 1982 "Tentang Robustness of Dixon Test Test dalam Sampel Kecil."
Michael R. Chernick
1
Saya kira orang tidak boleh berpikir saya ahli outlier karena saya percaya tes Dixon tidak didiskreditkan. Saya pikir orang-orang yang berpikir tes dixon didiskreditkan mungkin tidak mengerti apa itu deteksi outlier dan estimasi yang kuat.
Michael R. Chernick
1
@ user603 Ya. Kalimat pertama dalam posting Anda terlihat jauh lebih baik! sekarang saya lebih cenderung mendengarkan argumen Anda yang masuk akal. Saya sangat kecewa dengan kalimat pertama itu sehingga saya tidak membaca sisanya pada awalnya.
Michael R. Chernick