Mengganti outlier dengan mean

31

Pertanyaan ini diajukan oleh teman saya yang tidak mengerti internet. Saya tidak memiliki latar belakang statistik dan saya telah mencari di internet untuk pertanyaan ini.

Pertanyaannya adalah: apakah mungkin untuk mengganti outlier dengan nilai rata-rata? jika memungkinkan, apakah ada referensi buku / jurnal untuk mendukung pernyataan ini?

Alun
sumber
25
Memang mungkin untuk melakukan ini, tetapi sulit membayangkan situasi di mana masuk akal untuk melakukannya.
Peter Flom - Reinstate Monica
2
Sudah beberapa jawaban yang lebih panjang, tetapi ringkasan satu kalimat @Peter Flom tidak mungkin cocok dengan ringkasan.
Nick Cox
4
Belum ada jawaban yang menunjukkan gajah di dalam ruangan: meskipun mengganti "outlier" dengan rata-rata mempertahankan rata-rata dataset, ia mengubah hampir semua statistik lainnya. Bahkan mengubah perkiraan kesalahan standar rata-rata. Oleh karena itu - untuk mendukung komentar @Peter Flom - dataset yang dihasilkan tampaknya tidak berguna untuk segala bentuk kesimpulan yang andal. (Dapat dibayangkan itu bisa digunakan bukan dengan caranya sendiri tetapi dalam langkah-langkah perantara dalam prosedur berulang untuk mengidentifikasi outlier, dengan demikian menjelaskan mengapa prosedur semacam itu ada di tempat pertama.)
whuber
1
@whuber Jelas poin utama. Saya akan membuatnya menjadi jawaban lain, sehingga tidak terlewatkan oleh siapa pun yang membaca utas ini terlalu cepat. Orang-orang tergoda oleh perangkat ini, dan ternyata ada beberapa, perlu menyadari bahwa itu (a) bukan ide yang baik (b) ide yang buruk.
Nick Cox
1
@ user2357112 Implikasinya adalah rata-rata yang digunakan adalah nilai rata-rata lainnya. Nilai outlier, dianggap tidak dapat dipercaya, tidak harus dimasukkan dalam perhitungan.
Nick Cox

Jawaban:

41

Jelas itu mungkin, tetapi tidak jelas apakah itu bisa menjadi ide yang baik.

Mari kita menguraikan beberapa cara di mana ini adalah solusi terbatas atau kurang:

  • Akibatnya Anda mengatakan bahwa nilai outlier benar-benar tidak dapat dipercaya, sejauh dugaan Anda yang hanya mungkin adalah bahwa nilai tersebut harus menjadi rata-rata. Jika itu yang Anda pikirkan, mungkin akan lebih jujur ​​hanya dengan mengabaikan pengamatan yang bersangkutan, karena jelas Anda tidak memiliki cukup informasi untuk membuat tebakan yang lebih baik.

  • Dengan tidak mengatakan apa-apa lagi, Anda perlu kriteria atau kriteria untuk mengidentifikasi outlier di tempat pertama (seperti yang tersirat oleh @ Frank Harrell). Kalau tidak, ini adalah prosedur yang sewenang-wenang dan subyektif, bahkan jika itu dipertahankan sebagai masalah penilaian. Dengan beberapa kriteria, adalah mungkin bahwa menghilangkan pencilan dengan cara ini menciptakan lebih banyak pencilan sebagai efek samping. Contohnya adalah bahwa outlier lebih dari banyak standar deviasi yang jauh dari rata-rata. Menghapus outlier mengubah standar deviasi, dan titik data baru sekarang mungkin memenuhi syarat, dan sebagainya.

  • Agaknya berarti di sini berarti rata-rata dari semua nilai-nilai lain, suatu titik yang dibuat eksplisit oleh @ David Marx. Idenya tidak jelas tanpa ketentuan ini.

  • Menggunakan rerata mungkin tampak prosedur yang aman atau konservatif, tetapi mengubah nilai ke rerata akan mengubah hampir setiap statistik lainnya, termasuk ukuran tingkat, skala dan bentuk dan indikator ketidakpastian mereka, sebuah titik yang ditekankan oleh @whuber.

  • Mean mungkin bahkan bukan nilai yang layak: contoh sederhana adalah ketika nilai adalah bilangan bulat, tetapi biasanya rata-rata bukan bilangan bulat.

  • Bahkan dengan gagasan bahwa menggunakan ukuran ringkasan adalah hal yang berhati-hati untuk dilakukan, menggunakan mean daripada median atau ukuran lainnya membutuhkan pembenaran.

  • Setiap kali ada variabel lain, memodifikasi nilai dari satu variabel tanpa referensi ke yang lain dapat membuat titik data anomali dalam pengertian lain.

Apa yang harus dilakukan dengan pencilan adalah pertanyaan terbuka dan sangat sulit. Secara longgar, berbagai solusi dan strategi memiliki daya tarik yang beragam. Berikut adalah sebagian daftar kemungkinan. Pemesanannya sewenang-wenang dan tidak dimaksudkan untuk menyampaikan pesanan apa pun dalam hal penerapan, kepentingan atau kriteria lainnya. Pendekatan-pendekatan ini juga tidak saling eksklusif.

  • Salah satu (dalam pandangan saya baik) definisi adalah bahwa "[o] pemecah adalah nilai sampel yang menyebabkan kejutan dalam kaitannya dengan sebagian besar sampel" (WN Venables dan BD Ripley, 2002. Statistik terapan modern dengan S. New York: Springer, hal.119). Namun, kejutan ada di pikiran yang melihatnya dan tergantung pada beberapa model data yang diam-diam atau eksplisit. Mungkin ada model lain di mana outlier tidak mengejutkan sama sekali, sehingga data sebenarnya (katakanlah) lognormal atau gamma daripada normal. Singkatnya, bersiaplah untuk (kembali) mempertimbangkan model Anda.

  • Pergilah ke laboratorium atau lapangan dan lakukan pengukuran lagi. Seringkali ini tidak praktis, tetapi akan tampak standar dalam beberapa ilmu.

  • Uji apakah pencilan itu asli atau tidak. Sebagian besar tes terlihat cukup buat saya, tetapi Anda mungkin menemukan satu yang menurut Anda sesuai dengan situasi Anda. Iman irasional bahwa tes itu tepat selalu diperlukan untuk menerapkan tes yang kemudian disajikan sebagai rasional pada dasarnya.

  • Usir mereka sebagai masalah penilaian.

  • Buang mereka menggunakan beberapa aturan yang lebih atau kurang otomatis (biasanya bukan "objektif").

  • Abaikan mereka, sebagian atau seluruhnya. Ini bisa formal (misal pemangkasan) atau hanya masalah membiarkannya dalam dataset, tetapi mengabaikannya dari analisis karena terlalu panas untuk ditangani.

  • Tarik mereka menggunakan semacam penyesuaian, misalnya Winsorizing.

  • Mengecilkan mereka dengan menggunakan beberapa metode estimasi kuat lainnya.

  • Mengecilkan mereka dengan bekerja pada skala yang diubah.

  • Mengecilkan mereka dengan menggunakan fungsi tautan non-identitas.

  • Mengakomodasi mereka dengan menyesuaikan distribusi lemak, panjang, atau ekor yang tepat, tanpa atau dengan prediktor.

  • Mengakomodasi dengan menggunakan indikator atau variabel dummy sebagai prediktor tambahan dalam suatu model.

  • Langkah-sisi masalah dengan menggunakan beberapa prosedur non-parametrik (berbasis peringkat).

  • Dapatkan pegangan pada ketidakpastian tersirat menggunakan prosedur bootstrap, jackknifing atau permutasi.

  • Edit untuk mengganti pencilan dengan beberapa nilai yang lebih mungkin, berdasarkan logika deterministik. "Nenek berusia 18 tahun tidak mungkin, tetapi orang yang dimaksud lahir pada tahun 1932, jadi mungkin benar-benar berusia 81 tahun."

  • Edit untuk mengganti outlier yang tidak mungkin atau tidak masuk akal menggunakan beberapa metode imputasi yang saat ini dapat diterima sebagai sihir yang tidak terlalu putih.

  • Analisis dengan dan tanpa, dan melihat seberapa besar perbedaan yang dibuat oleh para pencilan, secara statistik, ilmiah atau praktis.

  • Sesuatu Bayesian. Ketidaktahuan saya sebelumnya tentang apa yang melarang memberikan rincian.

EDIT Edisi kedua ini mendapat manfaat dari jawaban dan komentar lain. Saya sudah mencoba menandai sumber inspirasi saya.

Nick Cox
sumber
1
(+1) jawaban yang bagus. Di pihak Bayesian, orang mungkin melakukan banyak hal, tetapi pada dasarnya Anda mencoba membangun beberapa model untuk bagaimana Anda memiliki nilai-nilai seperti itu (proses yang mengarah pada pencilan). Sebagai contoh, itu mungkin sesuatu yang sederhana seperti "setiap nilai data memiliki beberapa kemungkinan kecil yang tidak diketahui dari suatu distribusi yang jauh lebih liar daripada sebagian besar data" dan kemudian meletakkan distribusi sebelumnya pada probabilitas itu dan memformalkan beberapa pilihan untuk yang lebih liar itu. distribusi dan prior untuk parameternya. Efeknya adalah menurunkan bobot dampak poin yang tidak sesuai dengan model.
Glen_b -Reinstate Monica
16

Ada beberapa masalah yang tersirat oleh pertanyaan Anda.

  1. Apa itu "pencilan"?
  2. Haruskah "pencilan" diganti?
  3. Apa yang istimewa tentang mean dibandingkan dengan beberapa estimasi lain?
  4. Bagaimana Anda mengkompensasi untuk meningkatkan varians yang tampak saat penggantian dengan nilai tunggal yang menyebabkan varians terlalu kecil?
  5. Mengapa tidak menggunakan penduga kuat yang tahan terhadap outlier?
  6. Apakah ini variabel independen atau dependen?

Tak satu pun dari 1-5 memiliki jawaban yang jelas. Jika Anda benar-benar merasa bahwa "pencilan" ini salah dan Anda tidak ingin menggunakan metode statistik yang kuat, Anda dapat membuatnya hilang dan menggunakan beberapa imputasi sebagai salah satu solusi yang mungkin. Jika variabel adalah variabel dependen, satu pilihan kuat adalah regresi ordinal.

Frank Harrell
sumber
1
+1, poin bagus. Saya tertarik dengan saran OLR; apakah ada alasan Anda lebih suka menggunakan fungsi loss yang kuat seperti Tukey's bisquare?
gung - Reinstate Monica
2
Regresi ordinal mungkin sedikit lebih kuat dari itu, dan memungkinkan untuk estimasi jumlah yang terdefinisi dengan baik: rata-rata, kuantil, dan probabilitas. Selain itu, Anda memiliki semua kekuatan rasio kemungkinan, tes Wald, dan skor dan interval kepercayaan. Perkiraan medianYY
9

Proposal itu memiliki banyak kekurangan di dalamnya. Ini mungkin yang terbesar.

Misalkan Anda sedang mengumpulkan data, dan Anda melihat nilai-nilai ini:

2,3,1

6/3=2

Kemudian muncul pencilan:

2,3,1,1000

Jadi Anda menggantinya dengan mean:

2,3,1,2

Angka selanjutnya baik:

2,3,1,2,7

Sekarang rata-rata adalah 3. Tunggu sebentar, rata-rata sekarang 3, tapi kami mengganti 1000 dengan rata-rata 2, hanya karena itu terjadi sebagai nilai keempat. Bagaimana jika kita mengubah urutan sampel?

2,3,1,7,1000

(2+3+1+7)/4=13/4

Masalahnya adalah bahwa datum palsu yang kami gantikan di tempat 1000 tergantung pada data lainnya. Itu masalah epistemologis jika sampel seharusnya mewakili pengukuran independen.

nnnnn

Pada dasarnya, memangkas hasil yang tidak sesuai adalah satu hal (dan dapat dibenarkan jika dilakukan secara konsisten berdasarkan suatu algoritma, daripada menurut perubahan suasana hati dari eksperimen).

Hasil pemalsuan langsung ditolak atas dasar filosofis, epistemologis dan etika.

Mungkin ada beberapa keadaan khusus, yang harus dilakukan dengan bagaimana hasilnya digunakan. Seperti misalnya, katakan bahwa penggantian outlier dengan rata-rata saat ini adalah bagian dari beberapa algoritma komputer tertanam, yang memungkinkannya untuk mengimplementasikan sistem kontrol loop tertutup. (Ini sampel beberapa output sistem, kemudian menyesuaikan input untuk mencapai kontrol.) Semuanya real time, dan karena itu sesuatu harus disediakan untuk periode waktu tertentu di tempat data yang hilang. Jika pemalsuan ini membantu mengatasi gangguan, dan memastikan operasi lancar, maka semuanya baik-baik saja.

Berikut adalah contoh lain, dari telepon digital: PLC (packet loss menyembunyikan). Omong kosong terjadi, dan paket hilang, namun komunikasi adalah waktu nyata. PLC mensintesis potongan suara palsu berdasarkan informasi nada terbaru dari paket yang diterima dengan benar. Jadi, jika seorang pembicara mengatakan vokal "aaa" dan kemudian sebuah paket hilang, PLC dapat mengisi paket yang hilang dengan mengekstrapolasi "aaa" untuk durasi bingkai (katakanlah 5 atau 10 milidetik atau apa pun). "Aaa" sedemikian rupa sehingga menyerupai suara pembicara. Ini analog dengan menggunakan "rata-rata" untuk menggantikan nilai yang dianggap buruk. Itu hal yang baik; itu lebih baik daripada suara yang masuk dan keluar, dan membantu kejelasan.

Jika pemalsuan data adalah bagian dari program berbohong kepada orang-orang untuk menutupi pekerjaan yang gagal, itu adalah hal lain.

Jadi, kita tidak bisa memikirkannya secara independen dari aplikasi: bagaimana statistik digunakan? Apakah pergantian pemain akan menghasilkan kesimpulan yang tidak valid? Apakah ada implikasi etis?

Segera
sumber
Kisah telepon sangat menarik, tetapi tampaknya masalah interpolasi dipertahankan untuk menggantikan nilai-nilai yang hilang. Koneksi dengan penggantian outlier adalah lemah, karena hanya operasi lokal murni yang diperlukan dan perubahan lokal adalah sekunder untuk "analisis" seluruh dataset.
Nick Cox
2
Banyak ide menarik di sini (+1). Namun, perlu diketahui bahwa prosedur penggantian tidak harus berurutan. Seseorang dapat mengidentifikasi semua "pencilan" sekaligus dan mengganti mereka semua dengan rata-rata sisanya. Ini adalah prosedur yang konsisten tidak seperti Winsorizing.
Whuber
6

Artikel oleh Cousineau dan Chartier ini membahas mengganti outlier dengan mean

http://www.redalyc.org/pdf/2990/299023509004.pdf

Mereka menulis:

Tabachnick dan Fidell (2007) menyarankan untuk mengganti data yang hilang dengan rata-rata data yang tersisa di sel yang sesuai. Namun, prosedur ini cenderung mengurangi penyebaran populasi, membuat distribusi yang diamati lebih leptokurtik, dan mungkin meningkatkan kemungkinan kesalahan tipe-I. Teknik yang lebih rumit, beberapa imputasi, melibatkan penggantian outlier (atau data yang hilang) dengan nilai yang mungkin (Elliott & Stettler, 2007; Serfling & Dang, 2009).

Ada juga paket R "outlier" yang memiliki fungsi untuk mengganti outlier dengan mean. Saya juga melihat sejumlah hit di pencarian Google saya yang menyiratkan bahwa SPSS juga memiliki fungsi seperti itu, tetapi saya tidak terbiasa dengan program itu. Mungkin jika Anda mengikuti utas Anda dapat menemukan dasar teknis untuk latihan ini.

Referensi

  • Cousineau, D., & Chartier, S. (2010). Deteksi dan perawatan outlier: tinjauan. International Journal of Psychological Research, 3 (1), 58-67.
Thomas
sumber
Saya mencari referensi Anda untuk semua kemunculan kata "berarti" dan tidak dapat menemukan tempat untuk mendiskusikan mengganti outlier dengan nilai tengah. Jika saya melewatkan sesuatu, dapatkah Anda menunjukkan dengan lebih tepat di mana diskusi ini terjadi?
whuber
1
Saya mengubah tautan karena saya tidak dapat membuatnya berfungsi. Pada halaman 9 dokumen penulis mengatakan "Pencilan yang jelas merupakan hasil dari kegiatan palsu harus dihapus. Namun, dalam desain multivariat, hal tersebut dapat mengakibatkan terlalu banyak peserta yang dihilangkan sehingga analisis tidak lagi dapat dilakukan. Tabachnick dan Fidell (2007) menyarankan untuk mengganti data yang hilang dengan rata-rata dari data yang tersisa di sel yang sesuai. "
Thomas
2
Terima kasih: Saya melihatnya sekarang. Namun, menggambarkan ini sebagai "diskusi" - yang menunjukkan mungkin ada keseimbangan antara pro dan kontra - mungkin agak menyesatkan, karena bagian ini menyebutkan prosedur substitusi rata-rata (a) hanya untuk aplikasi multivariat dan (b) semata-mata untuk menunjukkan kekurangannya, tutup dengan saran untuk mempertimbangkan beberapa imputasi sebagai gantinya. (Menariknya, referensi makalah untuk prosedur ini bahkan tidak muncul dalam bibliografinya.)
whuber
5
Ya, aneh bahwa referensi yang dikutip tidak ada dalam bib. Tampaknya buku "Desain Eksperimental Menggunakan ANOVA." Saya mencoba untuk menanggapi permintaan asli dan memberikan referensi untuk praktik mengganti rata-rata untuk outlier. Tulisan itulah yang bisa saya temukan dalam pencarian cepat dan saya berharap bisa memberikan petunjuk sehingga OP bisa menemukan jawaban yang lebih lengkap.
Thomas
4

Hal utama yang harus diingat ketika berhadapan dengan pencilan adalah apakah mereka memberikan informasi yang bermanfaat. Jika Anda mengharapkannya terjadi secara berkala maka menghapusnya dari data akan menjamin bahwa model Anda tidak akan pernah memprediksinya. Tentu saja, itu tergantung apa yang Anda ingin model lakukan tetapi perlu diingat bahwa Anda tidak harus menjatuhkannya. Jika mereka berisi informasi penting, Anda mungkin ingin mempertimbangkan model yang dapat menjelaskannya. Salah satu, cara sederhana untuk melakukannya adalah dengan mengambil log variabel, yang dapat menjelaskan hubungan kekuasaan hukum. Sebagai alternatif, Anda dapat menggunakan model yang memperhitungkan mereka dengan kesalahan distribusi yang berekor lemak.

Jika Anda ingin menghapusnya maka cara yang biasa adalah dengan menjatuhkannya atau Winsorise mereka untuk menghapus nilai-nilai ekstrim. Saya tidak punya buku pelajaran tapi tautan Wiki di sana merujuk ke beberapa jika Anda ingin membaca lebih lanjut. Sebagian besar teks tentang statistik yang diterapkan harus memiliki bagian tentang outlier.

jmz
sumber
3

Saya mengetahui dua pendekatan serupa yang terkait dalam statistik.

  • Dipangkas artinya: saat menghitung mean, Anda menjatuhkan pengamatan terkecil dan terbesar dari data Anda (mis. Bagian atas dan bawah 1setiap; Anda harus melakukan ini secara simetris!)
  • Kemenangan: mirip dengan rata yang dipangkas, Anda hanya memodifikasi pengamatan ekstrem. Namun, alih-alih menjatuhkannya, Anda menggantinya dengan observasi non-ekstrim terbesar / terkecil. Ini sering bekerja sedikit lebih baik daripada memangkas.

Untuk contoh yang lebih detail, lihat Wikipedia:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

Perhatikan bahwa ini berfungsi baik untuk beberapa statistik seperti ketika menghitung rata-rata. Rata-rata yang dipangkas / dimenangkan seringkali merupakan estimasi yang lebih baik dari rata-rata sebenarnya daripada rata-rata artihmatika. Dalam kasus lain, ini dapat merusak statistik Anda. Misalnya saat menghitung varian, pemangkasan akan selalu meremehkan varian Anda yang sebenarnya. Kemenangan, dengan asumsi bahwa memang beberapa pengamatan ekstrim salah, akan bekerja sedikit lebih baik (mungkin masih akan meremehkan, tetapi tidak sebanyak).

Saya tidak melihat bagaimana mengganti nilai ekstrim dengan nilai rata akan cocok di sini.

Namun, ada praktik lain yang terkait: hilangnya nilai imputasi . Dengan asumsi bahwa outlier Anda cacat, data tidak berharga, jadi hapuslah. Ketika Anda kemudian melakukan imputasi, nilai pengganti yang khas adalah mean atau mode:

https://en.wikipedia.org/wiki/Imputation_%28statistics%29

Anony-Mousse
sumber
1
Memotong secara asimetris adalah taktik yang dikenal dan dapat dipertahankan.
Nick Cox
2

Pendekatan tradisional untuk menangani outlier adalah menghapusnya sedemikian rupa sehingga model Anda hanya dilatih pada data "baik".

Perlu diingat bahwa nilai rata-rata dipengaruhi oleh keberadaan outlier tersebut. Jika Anda mengganti outlier dengan mean yang dihitung setelah outlier dihapus dari dataset Anda , itu tidak akan membuat perbedaan karena garis regresi (dari regresi linier sederhana) tetap akan melewati rata-rata data pelatihan Anda (ini akan mengurangi varians dari Anda memperkirakan, yang mungkin kebalikan dari yang Anda inginkan mengingat Anda tahu ada outlier).

Efek pendekatan Anda terhadap model tergantung pada pengaruh (pengaruh) dari pencilan. Saya akan merekomendasikan menentang pendekatan yang Anda sarankan sebagai pengganti hanya menghilangkan titik sepenuhnya.

David Marx
sumber
4
Penghapusan data akan menyebabkan bias kecuali prosedur untuk menghapusnya obyektif dan prosedur yang sama akan diterapkan ke semua data masa depan yang prediksinya diperoleh.
Frank Harrell
0

ya outlier dapat diganti dalam bentuk dapat, misalnya, mari kita ambil satu set data ukuran ketinggian Manusia, katakanlah kita memiliki beberapa outlier seperti 500 cm dan 400 cm lalu, kita bisa mengganti titik data yang muncul di dataset karena beberapa kesalahan yang disebabkan selama perekaman data. jadi opsi yang bisa Anda coba adalah 1. ganti dengan Median warna Seluruh data (bukan rata-rata, karena rentan terhadap pencilan). 2. ganti dengan titik data yang paling banyak muncul di Kolom. 3. Jika nilai Categororial maka Anda dapat mencoba coding Respon (di mana Anda Catat Probabilitas kata atau nilai-nilai yang terjadi dengan jumlah total kata)

Sujit Jena
sumber