Definisi outlier yang keras?

44

Orang sering membicarakan tentang berurusan dengan pencilan dalam statistik. Hal yang menggangguku tentang hal ini adalah, sejauh yang bisa saya katakan, definisi pencilan adalah sepenuhnya subjektif. Misalnya, jika distribusi sebenarnya dari beberapa variabel acak sangat berekor atau bimodal, visualisasi standar atau statistik ringkasan untuk mendeteksi pencilan akan salah menghapus bagian dari distribusi yang ingin Anda sampel. Apa definisi ketat dari pencilan, jika ada, dan bagaimana pencilan dapat ditangani tanpa memasukkan jumlah subjektivitas yang tidak masuk akal ke dalam analisis?

dsimcha
sumber
Jika Anda ingin tahu untuk distribusi tertentu maka tanyakan tentang contoh Anda. Ini akan berbeda untuk situasi yang berbeda.
John
8
Yah, saya akan berharap bahwa Anda akan memiliki rigorous definition of an outlierketika Anda akan dapat mendefinisikan unreasonable amounts of subjectivitysecara obyektif ;-), Terima kasih
makan
1
Tetapi definisi dapat bervariasi berdasarkan distribusi dan situasi yang mendasarinya. Saya bisa mengatakan ± 1,5 IQR, atau 3 SD, atau semacamnya. Tetapi saya bisa mengambil pendekatan yang sama sekali berbeda jika saya memiliki dua jenis tindakan, katakan waktu reaksi dan ketepatan. Saya dapat mengatakan RT dikondisikan pada tingkat akurasi. Mereka semua bisa menjadi baik dan secara matematis ketat dan memiliki aplikasi dan makna yang berbeda.
John
2
Ada banyak definisi outlier yang ketat. Tetapi pilihan di antara mereka bisa tampak sewenang-wenang. Tapi saya pikir ini adalah bagian dari kesalahpahaman bahwa statistik adalah subjek di mana setiap masalah memiliki satu jawaban yang benar.
Peter Flom - Pasang kembali Monica

Jawaban:

23

Selama data Anda berasal dari distribusi yang diketahui dengan properti yang diketahui, Anda dapat dengan ketat mendefinisikan pencilan sebagai peristiwa yang terlalu kecil kemungkinannya dihasilkan oleh proses yang diamati (jika Anda menganggap "terlalu tidak mungkin" menjadi tidak ketat, maka semua pengujian hipotesis adalah).

Namun, pendekatan ini bermasalah pada dua tingkat: Ini mengasumsikan bahwa data berasal dari distribusi yang diketahui dengan properti yang diketahui, dan itu membawa risiko bahwa pencilan dipandang sebagai titik data yang diselundupkan ke dalam kumpulan data Anda oleh beberapa peri sihir.

Dengan tidak adanya faery data magis, semua data berasal dari percobaan Anda, dan karenanya sebenarnya tidak mungkin untuk memiliki outlier, hanya hasil yang aneh. Ini dapat berasal dari kesalahan perekaman (misalnya 400.000 kamar tidur untuk 4 dolar), masalah pengukuran sistematis (algoritma analisis gambar melaporkan area besar jika objek terlalu dekat dengan perbatasan) masalah eksperimental (kadang-kadang, kristal mengendap keluar dari solusi, yang memberikan sinyal sangat tinggi), atau fitur sistem Anda (sel kadang-kadang dapat membelah menjadi tiga, bukan dua), tetapi mereka juga dapat menjadi hasil dari mekanisme yang tidak ada yang pernah mempertimbangkan karena jarang dan Anda melakukan penelitian, yang berarti bahwa beberapa hal yang Anda lakukan sama sekali belum diketahui.

Idealnya, Anda meluangkan waktu untuk menyelidiki setiap pencilan, dan hanya menghapusnya dari kumpulan data Anda setelah Anda memahami mengapa itu tidak sesuai dengan model Anda. Ini menghabiskan waktu dan subyektif karena alasannya sangat tergantung pada percobaan, tetapi alternatifnya lebih buruk: Jika Anda tidak mengerti dari mana asal outlier, Anda memiliki pilihan antara membiarkan outlier "mengacaukan" hasil Anda, atau mendefinisikan beberapa pendekatan "ketat matematis" untuk menyembunyikan kurangnya pemahaman Anda. Dengan kata lain, dengan mengejar "ketelitian matematis" Anda memilih antara tidak mendapatkan efek signifikan dan tidak masuk surga.

SUNTING

Jika semua yang Anda miliki adalah daftar angka tanpa mengetahui dari mana mereka berasal, Anda tidak memiliki cara untuk mengatakan apakah beberapa titik data adalah pencilan, karena Anda selalu dapat menganggap distribusi di mana semua data adalah inliers.

Jonas
sumber
3
Namun, tidak semua pencilan dihasilkan dari percobaan. Saya bekerja dengan set data besar yang melibatkan pengumpulan informasi real-estate di suatu wilayah (harga jual, jumlah kamar tidur, rekaman persegi, dll), dan kadang-kadang, akan ada kesalahan entri data dan saya akan memiliki 400.000 kamar tidur rumah untuk 4 dolar, atau sesuatu yang tidak masuk akal seperti itu. Saya akan berpikir bahwa bagian dari tujuan menentukan pencilan adalah untuk melihat apakah mungkin dihasilkan dari data, atau apakah itu hanya kesalahan entri.
Christopher Aden
2
@Christopher Aden: Saya akan mempertimbangkan itu bagian dari proses eksperimental. Pada dasarnya, untuk dapat menghapus outlier, Anda harus memahami bagaimana data dihasilkan, yaitu tidak menghapus outlier tanpa alasan yang baik. Kalau tidak, Anda hanya menyesuaikan dgn mode data Anda. Saya telah mengedit jawaban saya untuk mencerminkan ini sedikit lebih baik.
Jonas
Ini sangat masuk akal, tetapi anggap Anda sudah memiliki cukup pengetahuan sebelumnya tentang apa distribusi yang sebenarnya. Saya berpikir lebih dalam hal skenario di mana Anda tidak dan itu bisa sangat berat atau bimodal.
dsimcha
@dsimcha: Saya rasa Anda tidak bisa mengidentifikasi outlier dalam hal itu (lihat juga edit saya).
Jonas
2
@dsimcha - Anda selalu memiliki pengetahuan sebelumnya! untuk bagaimana data diberikan kepada Anda? Anda selalu selalu tahu sebanyak itu. data tidak secara ajaib muncul begitu saja. dan Anda selalu dapat membuat asumsi tentatif. "pencilan" berdasarkan asumsi-asumsi ini pada dasarnya memberi Anda petunjuk bahwa ada sesuatu yang salah dalam asumsi Anda. dengan mempelajari "outlier" (yang selalu relatif) Anda dapat meningkatkan model Anda.
probabilityislogic
13

Anda benar bahwa menghapus outlier dapat terlihat seperti latihan subjektif tapi itu tidak berarti itu salah. Kebutuhan kompulsif untuk selalu memiliki alasan matematika yang keras untuk setiap keputusan mengenai analisis data Anda seringkali hanyalah selubung tipis dari kekakuan buatan atas apa yang ternyata merupakan latihan subjektif. Ini terutama benar jika Anda ingin menerapkan pembenaran matematika yang sama untuk setiap situasi yang Anda temui. (Jika ada aturan matematika antipeluru yang jelas untuk semuanya maka Anda tidak perlu ahli statistik.)

Misalnya, dalam situasi distribusi ekor panjang Anda, tidak ada metode yang dijamin untuk hanya memutuskan dari angka-angka apakah Anda memiliki satu distribusi yang mendasari minat dengan outlier atau dua distribusi kepentingan yang mendasarinya dengan outlier yang menjadi bagian dari hanya satu dari mereka. Atau, astaga, hanya distribusi data yang sebenarnya.

Semakin banyak data yang Anda kumpulkan, semakin banyak Anda masuk ke daerah probabilitas rendah dari suatu distribusi. Jika Anda mengumpulkan 20 sampel, sangat tidak mungkin Anda akan mendapatkan nilai dengan skor-z 3.5. Jika Anda mengumpulkan 10.000 sampel, sangat mungkin Anda akan mendapatkan satu dan itu adalah bagian alami dari distribusi. Mengingat hal di atas, bagaimana Anda memutuskan hanya karena ada sesuatu yang ekstrem untuk dikecualikan?

Memilih metode terbaik secara umum untuk analisis seringkali subjektif. Apakah itu subyektif yang tidak masuk akal tergantung pada penjelasan untuk keputusan dan pencilan.

John
sumber
+1 Barnett dan Lewis, yang menulis buku tentang pencilan , menyatakan "pencilan dalam set data adalah pengamatan (atau subset pengamatan) yang tampaknya tidak konsisten dengan sisa set data itu " [di p . 7]. Mereka melanjutkan, "Ini adalah masalah penilaian subyektif dari pihak pengamat apakah pengamatan atau tidak ... dipilih untuk diperiksa. ... Apa yang mencirikan 'pencilan' adalah dampaknya pada pengamat ... "
whuber
"buku" agak ambigu di sini. Saya akan menganggap Barnett dan Lewis sebagai monograf terkemuka, tetapi itu bukan satu-satunya buku tentang outlier. amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955 baru-baru ini. Ada juga buku yang lebih tua dari DM Hawkins.
Nick Cox
9

Saya tidak berpikir itu mungkin untuk mendefinisikan pencilan tanpa mengasumsikan model proses yang mendasari menimbulkan data. Tanpa model seperti itu, kami tidak memiliki kerangka acuan untuk memutuskan apakah data tersebut anomali atau "salah". Definisi outlier yang menurut saya berguna adalah bahwa outlier adalah pengamatan (atau pengamatan) yang tidak dapat didamaikan dengan model yang sebaliknya berkinerja baik.

Dikran Marsupial
sumber
2
Hmm ... Dalam teks EDA-nya, John Tukey secara khusus mendefinisikan outlier tanpa menggunakan model apa pun.
whuber
7
Anda dapat mendefinisikan outlier tanpa model, tetapi saya telah menemukan definisi seperti itu tidak membantu. BTW, berdasarkan model, saya tidak harus berarti model statistik yang secara eksplisit sesuai dengan data. Definisi outlier apa pun mengharuskan Anda membuat asumsi tentang nilai-nilai seperti apa yang Anda harapkan untuk dilihat, dan nilai-nilai apa yang tidak Anda harapkan untuk dilihat. Saya pikir lebih baik jika asumsi ini (yaitu model) dibuat eksplisit. Ada juga poin bahwa dalam EDA, Anda menjelajahi data, definisi pencilan Anda mungkin sangat berbeda untuk EDA daripada untuk pemasangan model akhir.
Dikran Marsupial
6

Ada banyak jawaban bagus di sini. Namun, saya ingin menunjukkan bahwa dua pertanyaan sedang membingungkan. Yang pertama adalah, 'apa itu pencilan?', Dan lebih khusus untuk memberikan "definisi yang keras" tentang hal itu. Ini sederhana:

Pencilan adalah titik data yang berasal dari populasi / distribusi / proses menghasilkan data yang berbeda dari yang Anda maksudkan untuk dipelajari / sisa data Anda.

Pertanyaan kedua adalah 'bagaimana saya tahu / mendeteksi bahwa suatu titik data adalah pencilan?' Sayangnya, ini sangat sulit. Namun, jawaban yang diberikan di sini (yang benar-benar sangat bagus, dan yang tidak bisa saya tingkatkan) akan sangat membantu dengan tugas itu.

gung - Reinstate Monica
sumber
1
99(0,1)2.52.5(4,1)21402
whuber
1
@whuber, ya. Saya mengatakan bahwa ini adalah pencilan, meskipun Anda tidak akan pernah menyadarinya (yang saya curigai adalah apa yang Anda maksud dengan praktik operasional).
gung - Reinstate Monica
1
Saya menghargai perbedaan yang Anda buat. Saya hanya ingin menunjukkan perbedaan tajam antara definisi Anda dan sebagian besar definisi atau deskripsi outlier lainnya di utas ini. Tampaknya Anda tidak dapat mengarah pada prosedur praktis yang memuaskan: Anda harus selalu menerima bahwa sebagian besar dari dataset Anda mungkin "terpencil" tetapi tanpa memiliki cara untuk mendeteksi atau menyelesaikannya.
whuber
@whuber, aku sepenuh hati setuju. Saya melihat ini sebagai analog longgar dengan pengujian hipotesis, di mana (misalnya) 2 kelompok dapat berbeda dengan jumlah yang sangat kecil, tidak terdeteksi, atau mungkin berbeda dengan jumlah moderat, tetapi sampel yang Anda hasilkan sangat mirip secara kebetulan saja; Meskipun demikian, dari perspektif teoretis, perlu dipahami & dipertahankan perbedaannya.
gung - Reinstate Monica
1
@whuber, kamu benar. Beberapa membuat perbedaan ini, tetapi banyak yang tidak jelas tentang ide-ide ini. Posisi saya adalah bahwa tidak ada realitas bermakna "pencilan" selain kontaminan . Meskipun demikian, orang-orang juga harus / alih-alih memikirkan masalah ini sebagai keprihatinan tentang poin jika hasil Anda didorong oleh mereka sendiri (apakah mereka 'nyata' atau tidak), & dengan demikian hasil Anda sangat rapuh. Singkatnya, tidak ada alasan untuk khawatir tentang poin yang berasal dari populasi Anda & tidak secara unik mengarahkan hasil Anda; setelah Anda berurusan dengan 2 masalah tersebut, tidak ada lagi yang tersisa untuk "outlier".
gung - Reinstate Monica
6

Definisi 1: Seperti yang telah disebutkan, pencilan dalam kelompok data yang mencerminkan proses yang sama (katakanlah proses A) adalah pengamatan (atau serangkaian pengamatan) yang tidak mungkin merupakan hasil dari proses A.

Definisi ini tentu saja melibatkan estimasi fungsi kemungkinan dari proses A (karenanya model) dan menetapkan apa yang tidak mungkin berarti (yaitu memutuskan di mana harus berhenti ...). Definisi ini adalah akar dari jawaban yang saya berikan di sini . Ini lebih terkait dengan ide-ide pengujian hipotesis signifikansi atau goodness of fit .

xGx

Definisi ini melibatkan "model yang diberikan" dan ukuran akurasi. Saya pikir definisi ini lebih dari sisi praktis dan lebih pada asal usul outlier. Di Origin, deteksi outlier adalah alat untuk statistik yang kuat .

Jelas definisi ini dapat dibuat sangat mirip jika Anda memahami bahwa menghitung kemungkinan dalam definisi pertama melibatkan pemodelan dan perhitungan skor :)

robin girard
sumber
2

Pencilan adalah titik data yang tidak nyaman bagi saya, mengingat pemahaman saya saat ini tentang proses yang menghasilkan data ini.

Saya percaya definisi ini seketat yang bisa dibuat.

Wayne
sumber
Bandingkan ini dengan definisi John Tukey (dia menggunakan istilah "luar"): "Ketika kita melihat beberapa kumpulan nilai, kita melihat nilai-nilai tertentu tampaknya jauh menyimpang jauh dari yang lain ... ... Lebih mudah untuk memiliki aturan tentang ibu jari yang memilih nilai-nilai tertentu sebagai "di luar" ... "Kemudian ia meringkas ini sebagai" ... identifikasi nilai-nilai individu yang mungkin tidak biasa. " [EDA, bab 2]. Dia menekankan di seluruh buku ini bahwa kita sedang mendeskripsikan data daripada berpura-pura "memahami suatu proses," dan bahwa berbagai deskripsi yang valid selalu memungkinkan.
whuber
Demikian pula, "Pencilan adalah nilai sampel yang menyebabkan kejutan dalam kaitannya dengan sebagian besar sampel" (WN Venables dan BD Ripley. 2002. Statistik terapan modern dengan S. New York: Springer, hal.119). Namun, kejutan ada di pikiran yang melihatnya dan tergantung pada beberapa model data yang diam-diam atau eksplisit. Mungkin ada model lain di mana outlier tidak mengejutkan sama sekali, katakanlah, data benar-benar lognormal atau gamma daripada normal.
Nick Cox
@Nick Itu konsisten dengan Barnett dan Lewis, yang saya kutip dalam komentar atas jawaban John .
whuber
@whuber: Anda mengatakan "Kontras ini", yang saya pikir berarti Anda tidak setuju, tapi saya tidak yakin. Saya berpendapat bahwa pembentukan model - implisit dan naif, mungkin - adalah mengapa kita melihat pola dalam data, atau manusia di bulan, atau outlier. Model tersebut mungkin tidak memiliki dasar fisika / kimia / ekonomi, tetapi kami telah membuat hipotesis sebuah model. Kalau tidak, tidak ada kejutan, tidak ada "di luar".
Wayne
Tukey bersikeras bahwa dalam mendeskripsikan data, kita tidak perlu memodelkannya . Adalah adil untuk memperluas definisi Anda tentang "model" untuk memasukkan deskripsi data, tetapi kemudian istilah tersebut menjadi terlalu umum untuk berguna. Dari sudut pandang Tukey (seperti yang saya tafsirkan, tentu saja), tidak ada kekhawatiran tentang kehilangan muka juga tidak ada masalah kenyamanan atau tidak. Jadi, meskipun saya menghargai motivasi Anda, saya pikir sikap Anda (seperti tercermin dalam "menyelamatkan muka" dan "tidak nyaman") kurang konstruktif daripada pendekatan lain untuk pertanyaan ini.
whuber
0

mendefinisikan pencilan sebagai anggota dari set elemen minimal yang harus dihapus dari dataset dari ukuran n untuk memastikan kepatuhan 100% dengan tes RUM yang dilakukan pada tingkat kepercayaan 95% pada semua (2 ^ n -1) subset unik dari data. Lihat teks Karian dan Dudewicz pada data pas ke pdf menggunakan R (September 2010) untuk definisi tes RUM.

Jerry Alderman
sumber
-2

Pencilan hanya penting di dunia kerap terjadi. Jika satu titik data menambahkan bias pada model Anda yang ditentukan oleh distribusi dasar yang ditentukan sebelumnya oleh teori Anda, maka itu adalah pencilan untuk model itu. Subjektivitasnya terletak pada fakta bahwa jika teori Anda mengemukakan model yang berbeda, maka Anda dapat memiliki seperangkat poin yang berbeda sebagai pencilan.


sumber
1
Apakah Anda mengklaim outlier tidak penting dalam analisis data Bayesian?
whuber