Mendeteksi outlier menggunakan standar deviasi

27

Mengikuti pertanyaan saya di sini , saya bertanya-tanya apakah ada pandangan yang kuat untuk atau menentang penggunaan deviasi standar untuk mendeteksi outlier (misalnya setiap titik data yang lebih dari 2 deviasi standar adalah outlier).

Saya tahu ini tergantung pada konteks penelitian, misalnya titik data, 48kg, pasti akan menjadi pencilan dalam studi tentang berat bayi tetapi tidak dalam penelitian tentang berat badan orang dewasa.

Pencilan adalah hasil dari sejumlah faktor seperti kesalahan pemasukan data. Dalam kasus saya, proses ini kuat.

Saya kira pertanyaan yang saya ajukan adalah: Apakah menggunakan deviasi standar metode suara untuk mendeteksi pencilan?

Amarald
sumber
1
Anda berkata, "Dalam kasus saya, proses ini kuat". Berarti apa? Anda yakin tidak memiliki kesalahan entri data?
Wayne
Ada begitu banyak jawaban bagus di sini sehingga saya tidak yakin jawaban mana yang harus diterima! Panduan apa pun tentang hal ini akan sangat membantu
Amarald
Secara umum, pilih salah satu yang Anda rasa menjawab pertanyaan Anda secara langsung dan jelas, dan jika terlalu sulit untuk mengatakannya, saya akan memilih yang dengan suara tertinggi. Walaupun agak menyakitkan untuk memutuskan yang mana, penting untuk menghargai seseorang yang meluangkan waktu untuk menjawab.
Wayne
1
PS Bisakah Anda menjelaskan dengan catatan apa yang Anda maksud dengan "proses ini kuat"? Itu tidak penting untuk jawaban, yang fokus pada normalitas, dll, tapi saya pikir itu ada kaitannya.
Wayne
3
Pencilan tidak bebas model. Pencilan yang tidak biasa di bawah satu model mungkin merupakan titik yang sangat biasa di bawah yang lain. Pertanyaan pertama adalah "mengapa Anda mencoba mendeteksi outlier?" (daripada melakukan sesuatu yang lain, seperti menggunakan metode yang kuat untuk mereka), dan yang kedua adalah "apa yang membuat pengamatan menjadi pencilan dalam aplikasi khusus Anda?"
Glen_b -Reinstate Monica

Jawaban:

26

Beberapa outlier jelas tidak mungkin . Anda menyebutkan 48 kg untuk berat bayi. Ini jelas sebuah kesalahan. Itu bukan masalah statistik , ini masalah substantif. Tidak ada 48 kg bayi manusia. Metode statistik apa pun akan mengidentifikasi hal tersebut.

Secara pribadi, daripada mengandalkan tes apa pun (bahkan yang sesuai, seperti yang direkomendasikan oleh @Michael) saya akan membuat grafik data. Menunjukkan bahwa nilai data tertentu (atau nilai) tidak mungkin dalam beberapa distribusi hipotesis tidak berarti nilai tersebut salah dan karena itu nilai tidak boleh dihapus secara otomatis hanya karena mereka ekstrem.

Selain itu, aturan yang Anda usulkan (2 SD dari rata-rata) adalah yang lama yang digunakan pada hari-hari sebelum komputer membuat segalanya menjadi mudah. Jika N adalah 100.000, maka Anda tentu mengharapkan beberapa nilai lebih dari 2 SD dari rata-rata, bahkan jika ada distribusi normal yang sempurna.

Tetapi bagaimana jika distribusinya salah? Misalkan, dalam populasi, variabel yang dimaksud tidak berdistribusi normal tetapi memiliki ekor yang lebih berat dari itu?

Peter Flom - Pasang kembali Monica
sumber
1
Apa nilai terbesar berat bayi yang Anda anggap mungkin?
mark999
2
Saya tidak tahu Tetapi orang bisa melihat catatan. Menurut Answers.com (dari google cepat) itu £ 23,12, lahir dari dua orang tua dengan gigantisme. Jika saya melakukan penelitian, saya akan memeriksanya lebih lanjut.
Peter Flom - Reinstate Monica
Bagaimana jika seseorang tidak dapat secara visual memeriksa data (yaitu mungkin menjadi bagian dari proses otomatis?)
user90772
Tambahkan grafik ke otomatisasi, entah bagaimana.
Peter Flom - Pasang kembali Monica
24

Iya nih. Ini adalah cara yang buruk untuk "mendeteksi" oultiers. Untuk data yang terdistribusi normal, metode seperti itu akan memanggil 5% dari pengamatan yang sangat baik (namun sedikit ekstrim) "pencilan". Juga ketika Anda memiliki sampel ukuran n dan Anda mencari pengamatan yang sangat tinggi atau rendah untuk menyebutnya outlier, Anda benar-benar melihat statistik urutan ekstrim. Maksimum dan minimum dari sampel yang terdistribusi normal tidak terdistribusi secara normal. Jadi tes harus didasarkan pada distribusi ekstrem. Itulah yang dilakukan tes Grubbs dan uji rasio Dixon seperti yang telah saya sebutkan beberapa kali sebelumnya. Bahkan ketika Anda menggunakan tes yang sesuai untuk pencilan, pengamatan tidak boleh ditolak hanya karena ekstrem yang luar biasa. Anda harus menyelidiki mengapa pengamatan ekstrem terjadi terlebih dahulu.

Michael R. Chernick
sumber
1
Sama seperti "buruk" dengan menolak H0 berdasarkan nilai-p rendah.
Leo
16

Ketika Anda bertanya berapa banyak standar deviasi dari mean pencilan potensial, jangan lupa bahwa pencilan itu sendiri akan meningkatkan SD, dan juga akan mempengaruhi nilai rata-rata. Jika Anda memiliki nilai N, rasio jarak dari rata-rata dibagi dengan SD tidak pernah bisa melebihi (N-1) / sqrt (N). Ini yang paling penting, tentu saja, dengan sampel kecil. Misalnya, jika N = 3, tidak ada outlier yang bisa lebih dari 1,155 * SD dari rata-rata, jadi tidak mungkin nilai apa pun bisa lebih dari 2 SD dari rata-rata. (Ini mengasumsikan, tentu saja, bahwa Anda menghitung sampel SD dari data yang ada, dan tidak memiliki alasan teoritis untuk mengetahui populasi SD).

Nilai kritis untuk uji Grubbs dihitung untuk memperhitungkan ini, dan bergantung pada ukuran sampel.

Harvey Motulsky
sumber
12

Saya pikir konteks adalah segalanya. Untuk contoh yang diberikan, ya jelas bayi 48 kg salah, dan penggunaan 2 standar deviasi akan menangkap kasus ini. Namun, tidak ada alasan untuk berpikir bahwa penggunaan 2 standar deviasi (atau kelipatan SD lainnya) sesuai untuk data lainnya. Misalnya, jika Anda melihat residu pestisida di perairan permukaan, data di luar 2 standar deviasi cukup umum. Nilai-nilai yang sangat tinggi ini bukan "outlier", bahkan jika mereka berada jauh dari rata-rata, karena mereka disebabkan oleh hujan, aplikasi pestisida baru-baru ini, dll. Tentu saja, Anda dapat membuat "aturan praktis" lainnya (mengapa tidak 1,5 × SD, atau 3.1415927 × SD?), Tetapi terus terang aturan seperti itu sulit dipertahankan, dan keberhasilan atau kegagalannya akan berubah tergantung pada data yang Anda periksa. Saya pikir menggunakan penilaian dan logika, terlepas dari subjektivitasnya, adalah metode yang lebih baik untuk menyingkirkan outlier, daripada menggunakan aturan yang sewenang-wenang. Dalam hal ini, Anda tidak perlu 2 × SD untuk mendeteksi pencilan 48 kg - Anda bisa menundanya. Bukankah itu metode yang unggul? Untuk kasus-kasus di mana Anda tidak dapat beralasan, apakah aturan arbitrer lebih baik?

P auritus
sumber