Orang sering membicarakan tentang berurusan dengan pencilan dalam statistik. Hal yang menggangguku tentang hal ini adalah, sejauh yang bisa saya katakan, definisi pencilan adalah sepenuhnya subjektif. Misalnya, jika distribusi sebenarnya dari beberapa variabel acak sangat berekor atau bimodal, visualisasi standar atau statistik ringkasan untuk mendeteksi pencilan akan salah menghapus bagian dari distribusi yang ingin Anda sampel. Apa definisi ketat dari pencilan, jika ada, dan bagaimana pencilan dapat ditangani tanpa memasukkan jumlah subjektivitas yang tidak masuk akal ke dalam analisis?
outliers
definition
dsimcha
sumber
sumber
rigorous definition of an outlier
ketika Anda akan dapat mendefinisikanunreasonable amounts of subjectivity
secara obyektif ;-), Terima kasihJawaban:
Selama data Anda berasal dari distribusi yang diketahui dengan properti yang diketahui, Anda dapat dengan ketat mendefinisikan pencilan sebagai peristiwa yang terlalu kecil kemungkinannya dihasilkan oleh proses yang diamati (jika Anda menganggap "terlalu tidak mungkin" menjadi tidak ketat, maka semua pengujian hipotesis adalah).
Namun, pendekatan ini bermasalah pada dua tingkat: Ini mengasumsikan bahwa data berasal dari distribusi yang diketahui dengan properti yang diketahui, dan itu membawa risiko bahwa pencilan dipandang sebagai titik data yang diselundupkan ke dalam kumpulan data Anda oleh beberapa peri sihir.
Dengan tidak adanya faery data magis, semua data berasal dari percobaan Anda, dan karenanya sebenarnya tidak mungkin untuk memiliki outlier, hanya hasil yang aneh. Ini dapat berasal dari kesalahan perekaman (misalnya 400.000 kamar tidur untuk 4 dolar), masalah pengukuran sistematis (algoritma analisis gambar melaporkan area besar jika objek terlalu dekat dengan perbatasan) masalah eksperimental (kadang-kadang, kristal mengendap keluar dari solusi, yang memberikan sinyal sangat tinggi), atau fitur sistem Anda (sel kadang-kadang dapat membelah menjadi tiga, bukan dua), tetapi mereka juga dapat menjadi hasil dari mekanisme yang tidak ada yang pernah mempertimbangkan karena jarang dan Anda melakukan penelitian, yang berarti bahwa beberapa hal yang Anda lakukan sama sekali belum diketahui.
Idealnya, Anda meluangkan waktu untuk menyelidiki setiap pencilan, dan hanya menghapusnya dari kumpulan data Anda setelah Anda memahami mengapa itu tidak sesuai dengan model Anda. Ini menghabiskan waktu dan subyektif karena alasannya sangat tergantung pada percobaan, tetapi alternatifnya lebih buruk: Jika Anda tidak mengerti dari mana asal outlier, Anda memiliki pilihan antara membiarkan outlier "mengacaukan" hasil Anda, atau mendefinisikan beberapa pendekatan "ketat matematis" untuk menyembunyikan kurangnya pemahaman Anda. Dengan kata lain, dengan mengejar "ketelitian matematis" Anda memilih antara tidak mendapatkan efek signifikan dan tidak masuk surga.
SUNTING
Jika semua yang Anda miliki adalah daftar angka tanpa mengetahui dari mana mereka berasal, Anda tidak memiliki cara untuk mengatakan apakah beberapa titik data adalah pencilan, karena Anda selalu dapat menganggap distribusi di mana semua data adalah inliers.
sumber
Anda benar bahwa menghapus outlier dapat terlihat seperti latihan subjektif tapi itu tidak berarti itu salah. Kebutuhan kompulsif untuk selalu memiliki alasan matematika yang keras untuk setiap keputusan mengenai analisis data Anda seringkali hanyalah selubung tipis dari kekakuan buatan atas apa yang ternyata merupakan latihan subjektif. Ini terutama benar jika Anda ingin menerapkan pembenaran matematika yang sama untuk setiap situasi yang Anda temui. (Jika ada aturan matematika antipeluru yang jelas untuk semuanya maka Anda tidak perlu ahli statistik.)
Misalnya, dalam situasi distribusi ekor panjang Anda, tidak ada metode yang dijamin untuk hanya memutuskan dari angka-angka apakah Anda memiliki satu distribusi yang mendasari minat dengan outlier atau dua distribusi kepentingan yang mendasarinya dengan outlier yang menjadi bagian dari hanya satu dari mereka. Atau, astaga, hanya distribusi data yang sebenarnya.
Semakin banyak data yang Anda kumpulkan, semakin banyak Anda masuk ke daerah probabilitas rendah dari suatu distribusi. Jika Anda mengumpulkan 20 sampel, sangat tidak mungkin Anda akan mendapatkan nilai dengan skor-z 3.5. Jika Anda mengumpulkan 10.000 sampel, sangat mungkin Anda akan mendapatkan satu dan itu adalah bagian alami dari distribusi. Mengingat hal di atas, bagaimana Anda memutuskan hanya karena ada sesuatu yang ekstrem untuk dikecualikan?
Memilih metode terbaik secara umum untuk analisis seringkali subjektif. Apakah itu subyektif yang tidak masuk akal tergantung pada penjelasan untuk keputusan dan pencilan.
sumber
Saya tidak berpikir itu mungkin untuk mendefinisikan pencilan tanpa mengasumsikan model proses yang mendasari menimbulkan data. Tanpa model seperti itu, kami tidak memiliki kerangka acuan untuk memutuskan apakah data tersebut anomali atau "salah". Definisi outlier yang menurut saya berguna adalah bahwa outlier adalah pengamatan (atau pengamatan) yang tidak dapat didamaikan dengan model yang sebaliknya berkinerja baik.
sumber
Ada banyak jawaban bagus di sini. Namun, saya ingin menunjukkan bahwa dua pertanyaan sedang membingungkan. Yang pertama adalah, 'apa itu pencilan?', Dan lebih khusus untuk memberikan "definisi yang keras" tentang hal itu. Ini sederhana:
Pertanyaan kedua adalah 'bagaimana saya tahu / mendeteksi bahwa suatu titik data adalah pencilan?' Sayangnya, ini sangat sulit. Namun, jawaban yang diberikan di sini (yang benar-benar sangat bagus, dan yang tidak bisa saya tingkatkan) akan sangat membantu dengan tugas itu.
sumber
Definisi 1: Seperti yang telah disebutkan, pencilan dalam kelompok data yang mencerminkan proses yang sama (katakanlah proses A) adalah pengamatan (atau serangkaian pengamatan) yang tidak mungkin merupakan hasil dari proses A.
Definisi ini tentu saja melibatkan estimasi fungsi kemungkinan dari proses A (karenanya model) dan menetapkan apa yang tidak mungkin berarti (yaitu memutuskan di mana harus berhenti ...). Definisi ini adalah akar dari jawaban yang saya berikan di sini . Ini lebih terkait dengan ide-ide pengujian hipotesis signifikansi atau goodness of fit .
Definisi ini melibatkan "model yang diberikan" dan ukuran akurasi. Saya pikir definisi ini lebih dari sisi praktis dan lebih pada asal usul outlier. Di Origin, deteksi outlier adalah alat untuk statistik yang kuat .
Jelas definisi ini dapat dibuat sangat mirip jika Anda memahami bahwa menghitung kemungkinan dalam definisi pertama melibatkan pemodelan dan perhitungan skor :)
sumber
Pencilan adalah titik data yang tidak nyaman bagi saya, mengingat pemahaman saya saat ini tentang proses yang menghasilkan data ini.
Saya percaya definisi ini seketat yang bisa dibuat.
sumber
mendefinisikan pencilan sebagai anggota dari set elemen minimal yang harus dihapus dari dataset dari ukuran n untuk memastikan kepatuhan 100% dengan tes RUM yang dilakukan pada tingkat kepercayaan 95% pada semua (2 ^ n -1) subset unik dari data. Lihat teks Karian dan Dudewicz pada data pas ke pdf menggunakan R (September 2010) untuk definisi tes RUM.
sumber
Pencilan hanya penting di dunia kerap terjadi. Jika satu titik data menambahkan bias pada model Anda yang ditentukan oleh distribusi dasar yang ditentukan sebelumnya oleh teori Anda, maka itu adalah pencilan untuk model itu. Subjektivitasnya terletak pada fakta bahwa jika teori Anda mengemukakan model yang berbeda, maka Anda dapat memiliki seperangkat poin yang berbeda sebagai pencilan.
sumber