Saya sedang menulis skrip yang menganalisis waktu proses yang dijalankan. Saya tidak yakin distribusi mereka tetapi saya ingin tahu apakah suatu proses berjalan "terlalu lama". Sejauh ini saya telah menggunakan 3 standar deviasi dari waktu menjalankan terakhir (n> 30), tetapi saya diberitahu bahwa ini tidak memberikan sesuatu yang berguna jika datanya tidak normal (yang sepertinya tidak ada). Saya menemukan tes pencilan lain yang menyatakan:
Temukan rentang antar kuartil, yaitu IQR = Q3 - Q1, di mana Q3 adalah kuartil ketiga dan Q1 adalah kuartil pertama. Kemudian temukan dua angka ini:
a) Q1 - 1.5 * IQR b) Q3 + 1.5 * IQR
Intinya adalah pencilan jika <a atau> b
Data saya cenderung seperti 2sec, 3sec, 2sec, 5sec, 300sec, 4sec, .... di mana 300sec jelas merupakan outlier.
Metode mana yang lebih baik? Metode IQR atau metode deviasi std?
sumber
Jawaban:
Benar-benar ada seluruh buku tentang outlier.
Jawaban spesifik yang biasa adalah bahwa standar deviasi ditarik oleh outlier, sehingga aturan berdasarkan SD dapat berkinerja buruk.
Aturan Tukey tentang kuartil +/- 1,5 IQR yang Anda kutip keluar dari pekerjaan tangan dengan kumpulan data berukuran kecil dan sedang di tahun 1970-an, dan dirancang untuk menunjukkan nilai yang mungkin ingin Anda pikirkan secara individual. Tidak jelas bahwa mereka terbawa ke dataset yang jauh lebih besar, atau bahwa mereka berlaku ketika Anda mengharapkan kemiringan yang cukup besar.
Jawaban yang lebih umum adalah aturan outlier itu bagus jika selalu membuat keputusan yang tepat, tetapi bagaimana Anda bisa tahu?
Ini adalah wilayah yang diperdebatkan, tetapi saya berharap pencilan akan menonjol pada grafik karena sangat berbeda dari yang lain. Tetapi seringkali (biasanya?) Panggilan yang sulit untuk memberi tahu perbedaan antara apa yang Anda harapkan dalam distribusi berekor berat dan apa yang terlalu liar untuk dianggap sebagai sesuatu selain pencilan. Kadang-kadang transformasi membuat tampilan yang lebih terlihat jauh lebih biasa.
Selain itu, jika Anda menggunakan metode yang kuat, Anda mungkin sedikit khawatir tentang nilai yang pantas disebut outlier, tetapi lebih khawatir tentang outlier secara umum.
sumber
Anda mengatakan Anda tidak yakin dengan distribusi tetapi proses yang sedang berlangsung mudah dikumpulkan dan dinilai untuk distribusi. Cukup simpan beberapa kali dan analisislah. Mengingat kali Anda memposting Anda bisa mendapatkan banyak dalam beberapa jam.
Pencarian Anda untuk aturan outlier tidak perlu terlalu umum. Ini bisa spesifik untuk tugas Anda. Anda dapat mengumpulkan banyak data. Kumpulkan, periksa, dan putuskan kapan prosesnya terlalu lama. Mungkin pendekatan berbasis IQR akan bekerja tetapi Anda dapat menggunakan kumpulan data Anda, atau parameter parametrik, untuk melakukan simulasi dan melihat apakah itu bekerja dengan baik. Hal yang sama berlaku untuk SD. Mungkin saja> 50an terlalu lama dan hanya itu yang Anda butuhkan.
sumber