Pertanyaan ini diajukan oleh teman saya yang tidak mengerti internet. Saya tidak memiliki latar belakang statistik dan saya telah mencari di internet untuk pertanyaan ini.
Pertanyaannya adalah: apakah mungkin untuk mengganti outlier dengan nilai rata-rata? jika memungkinkan, apakah ada referensi buku / jurnal untuk mendukung pernyataan ini?
mean
outliers
robust
winsorizing
Alun
sumber
sumber
Jawaban:
Jelas itu mungkin, tetapi tidak jelas apakah itu bisa menjadi ide yang baik.
Mari kita menguraikan beberapa cara di mana ini adalah solusi terbatas atau kurang:
Akibatnya Anda mengatakan bahwa nilai outlier benar-benar tidak dapat dipercaya, sejauh dugaan Anda yang hanya mungkin adalah bahwa nilai tersebut harus menjadi rata-rata. Jika itu yang Anda pikirkan, mungkin akan lebih jujur hanya dengan mengabaikan pengamatan yang bersangkutan, karena jelas Anda tidak memiliki cukup informasi untuk membuat tebakan yang lebih baik.
Dengan tidak mengatakan apa-apa lagi, Anda perlu kriteria atau kriteria untuk mengidentifikasi outlier di tempat pertama (seperti yang tersirat oleh @ Frank Harrell). Kalau tidak, ini adalah prosedur yang sewenang-wenang dan subyektif, bahkan jika itu dipertahankan sebagai masalah penilaian. Dengan beberapa kriteria, adalah mungkin bahwa menghilangkan pencilan dengan cara ini menciptakan lebih banyak pencilan sebagai efek samping. Contohnya adalah bahwa outlier lebih dari banyak standar deviasi yang jauh dari rata-rata. Menghapus outlier mengubah standar deviasi, dan titik data baru sekarang mungkin memenuhi syarat, dan sebagainya.
Agaknya berarti di sini berarti rata-rata dari semua nilai-nilai lain, suatu titik yang dibuat eksplisit oleh @ David Marx. Idenya tidak jelas tanpa ketentuan ini.
Menggunakan rerata mungkin tampak prosedur yang aman atau konservatif, tetapi mengubah nilai ke rerata akan mengubah hampir setiap statistik lainnya, termasuk ukuran tingkat, skala dan bentuk dan indikator ketidakpastian mereka, sebuah titik yang ditekankan oleh @whuber.
Mean mungkin bahkan bukan nilai yang layak: contoh sederhana adalah ketika nilai adalah bilangan bulat, tetapi biasanya rata-rata bukan bilangan bulat.
Bahkan dengan gagasan bahwa menggunakan ukuran ringkasan adalah hal yang berhati-hati untuk dilakukan, menggunakan mean daripada median atau ukuran lainnya membutuhkan pembenaran.
Setiap kali ada variabel lain, memodifikasi nilai dari satu variabel tanpa referensi ke yang lain dapat membuat titik data anomali dalam pengertian lain.
Apa yang harus dilakukan dengan pencilan adalah pertanyaan terbuka dan sangat sulit. Secara longgar, berbagai solusi dan strategi memiliki daya tarik yang beragam. Berikut adalah sebagian daftar kemungkinan. Pemesanannya sewenang-wenang dan tidak dimaksudkan untuk menyampaikan pesanan apa pun dalam hal penerapan, kepentingan atau kriteria lainnya. Pendekatan-pendekatan ini juga tidak saling eksklusif.
Salah satu (dalam pandangan saya baik) definisi adalah bahwa "[o] pemecah adalah nilai sampel yang menyebabkan kejutan dalam kaitannya dengan sebagian besar sampel" (WN Venables dan BD Ripley, 2002. Statistik terapan modern dengan S. New York: Springer, hal.119). Namun, kejutan ada di pikiran yang melihatnya dan tergantung pada beberapa model data yang diam-diam atau eksplisit. Mungkin ada model lain di mana outlier tidak mengejutkan sama sekali, sehingga data sebenarnya (katakanlah) lognormal atau gamma daripada normal. Singkatnya, bersiaplah untuk (kembali) mempertimbangkan model Anda.
Pergilah ke laboratorium atau lapangan dan lakukan pengukuran lagi. Seringkali ini tidak praktis, tetapi akan tampak standar dalam beberapa ilmu.
Uji apakah pencilan itu asli atau tidak. Sebagian besar tes terlihat cukup buat saya, tetapi Anda mungkin menemukan satu yang menurut Anda sesuai dengan situasi Anda. Iman irasional bahwa tes itu tepat selalu diperlukan untuk menerapkan tes yang kemudian disajikan sebagai rasional pada dasarnya.
Usir mereka sebagai masalah penilaian.
Buang mereka menggunakan beberapa aturan yang lebih atau kurang otomatis (biasanya bukan "objektif").
Abaikan mereka, sebagian atau seluruhnya. Ini bisa formal (misal pemangkasan) atau hanya masalah membiarkannya dalam dataset, tetapi mengabaikannya dari analisis karena terlalu panas untuk ditangani.
Tarik mereka menggunakan semacam penyesuaian, misalnya Winsorizing.
Mengecilkan mereka dengan menggunakan beberapa metode estimasi kuat lainnya.
Mengecilkan mereka dengan bekerja pada skala yang diubah.
Mengecilkan mereka dengan menggunakan fungsi tautan non-identitas.
Mengakomodasi mereka dengan menyesuaikan distribusi lemak, panjang, atau ekor yang tepat, tanpa atau dengan prediktor.
Mengakomodasi dengan menggunakan indikator atau variabel dummy sebagai prediktor tambahan dalam suatu model.
Langkah-sisi masalah dengan menggunakan beberapa prosedur non-parametrik (berbasis peringkat).
Dapatkan pegangan pada ketidakpastian tersirat menggunakan prosedur bootstrap, jackknifing atau permutasi.
Edit untuk mengganti pencilan dengan beberapa nilai yang lebih mungkin, berdasarkan logika deterministik. "Nenek berusia 18 tahun tidak mungkin, tetapi orang yang dimaksud lahir pada tahun 1932, jadi mungkin benar-benar berusia 81 tahun."
Edit untuk mengganti outlier yang tidak mungkin atau tidak masuk akal menggunakan beberapa metode imputasi yang saat ini dapat diterima sebagai sihir yang tidak terlalu putih.
Analisis dengan dan tanpa, dan melihat seberapa besar perbedaan yang dibuat oleh para pencilan, secara statistik, ilmiah atau praktis.
Sesuatu Bayesian. Ketidaktahuan saya sebelumnya tentang apa yang melarang memberikan rincian.
EDIT Edisi kedua ini mendapat manfaat dari jawaban dan komentar lain. Saya sudah mencoba menandai sumber inspirasi saya.
sumber
Ada beberapa masalah yang tersirat oleh pertanyaan Anda.
Tak satu pun dari 1-5 memiliki jawaban yang jelas. Jika Anda benar-benar merasa bahwa "pencilan" ini salah dan Anda tidak ingin menggunakan metode statistik yang kuat, Anda dapat membuatnya hilang dan menggunakan beberapa imputasi sebagai salah satu solusi yang mungkin. Jika variabel adalah variabel dependen, satu pilihan kuat adalah regresi ordinal.
sumber
Proposal itu memiliki banyak kekurangan di dalamnya. Ini mungkin yang terbesar.
Misalkan Anda sedang mengumpulkan data, dan Anda melihat nilai-nilai ini:
Kemudian muncul pencilan:
Jadi Anda menggantinya dengan mean:
Angka selanjutnya baik:
Sekarang rata-rata adalah 3. Tunggu sebentar, rata-rata sekarang 3, tapi kami mengganti 1000 dengan rata-rata 2, hanya karena itu terjadi sebagai nilai keempat. Bagaimana jika kita mengubah urutan sampel?
Masalahnya adalah bahwa datum palsu yang kami gantikan di tempat 1000 tergantung pada data lainnya. Itu masalah epistemologis jika sampel seharusnya mewakili pengukuran independen.
Pada dasarnya, memangkas hasil yang tidak sesuai adalah satu hal (dan dapat dibenarkan jika dilakukan secara konsisten berdasarkan suatu algoritma, daripada menurut perubahan suasana hati dari eksperimen).
Hasil pemalsuan langsung ditolak atas dasar filosofis, epistemologis dan etika.
Mungkin ada beberapa keadaan khusus, yang harus dilakukan dengan bagaimana hasilnya digunakan. Seperti misalnya, katakan bahwa penggantian outlier dengan rata-rata saat ini adalah bagian dari beberapa algoritma komputer tertanam, yang memungkinkannya untuk mengimplementasikan sistem kontrol loop tertutup. (Ini sampel beberapa output sistem, kemudian menyesuaikan input untuk mencapai kontrol.) Semuanya real time, dan karena itu sesuatu harus disediakan untuk periode waktu tertentu di tempat data yang hilang. Jika pemalsuan ini membantu mengatasi gangguan, dan memastikan operasi lancar, maka semuanya baik-baik saja.
Berikut adalah contoh lain, dari telepon digital: PLC (packet loss menyembunyikan). Omong kosong terjadi, dan paket hilang, namun komunikasi adalah waktu nyata. PLC mensintesis potongan suara palsu berdasarkan informasi nada terbaru dari paket yang diterima dengan benar. Jadi, jika seorang pembicara mengatakan vokal "aaa" dan kemudian sebuah paket hilang, PLC dapat mengisi paket yang hilang dengan mengekstrapolasi "aaa" untuk durasi bingkai (katakanlah 5 atau 10 milidetik atau apa pun). "Aaa" sedemikian rupa sehingga menyerupai suara pembicara. Ini analog dengan menggunakan "rata-rata" untuk menggantikan nilai yang dianggap buruk. Itu hal yang baik; itu lebih baik daripada suara yang masuk dan keluar, dan membantu kejelasan.
Jika pemalsuan data adalah bagian dari program berbohong kepada orang-orang untuk menutupi pekerjaan yang gagal, itu adalah hal lain.
Jadi, kita tidak bisa memikirkannya secara independen dari aplikasi: bagaimana statistik digunakan? Apakah pergantian pemain akan menghasilkan kesimpulan yang tidak valid? Apakah ada implikasi etis?
sumber
Artikel oleh Cousineau dan Chartier ini membahas mengganti outlier dengan mean
http://www.redalyc.org/pdf/2990/299023509004.pdf
Mereka menulis:
Ada juga paket R "outlier" yang memiliki fungsi untuk mengganti outlier dengan mean. Saya juga melihat sejumlah hit di pencarian Google saya yang menyiratkan bahwa SPSS juga memiliki fungsi seperti itu, tetapi saya tidak terbiasa dengan program itu. Mungkin jika Anda mengikuti utas Anda dapat menemukan dasar teknis untuk latihan ini.
Referensi
sumber
Hal utama yang harus diingat ketika berhadapan dengan pencilan adalah apakah mereka memberikan informasi yang bermanfaat. Jika Anda mengharapkannya terjadi secara berkala maka menghapusnya dari data akan menjamin bahwa model Anda tidak akan pernah memprediksinya. Tentu saja, itu tergantung apa yang Anda ingin model lakukan tetapi perlu diingat bahwa Anda tidak harus menjatuhkannya. Jika mereka berisi informasi penting, Anda mungkin ingin mempertimbangkan model yang dapat menjelaskannya. Salah satu, cara sederhana untuk melakukannya adalah dengan mengambil log variabel, yang dapat menjelaskan hubungan kekuasaan hukum. Sebagai alternatif, Anda dapat menggunakan model yang memperhitungkan mereka dengan kesalahan distribusi yang berekor lemak.
Jika Anda ingin menghapusnya maka cara yang biasa adalah dengan menjatuhkannya atau Winsorise mereka untuk menghapus nilai-nilai ekstrim. Saya tidak punya buku pelajaran tapi tautan Wiki di sana merujuk ke beberapa jika Anda ingin membaca lebih lanjut. Sebagian besar teks tentang statistik yang diterapkan harus memiliki bagian tentang outlier.
sumber
Saya mengetahui dua pendekatan serupa yang terkait dalam statistik.
Untuk contoh yang lebih detail, lihat Wikipedia:
https://en.wikipedia.org/wiki/Trimmed_estimator
https://en.wikipedia.org/wiki/Winsorising
Perhatikan bahwa ini berfungsi baik untuk beberapa statistik seperti ketika menghitung rata-rata. Rata-rata yang dipangkas / dimenangkan seringkali merupakan estimasi yang lebih baik dari rata-rata sebenarnya daripada rata-rata artihmatika. Dalam kasus lain, ini dapat merusak statistik Anda. Misalnya saat menghitung varian, pemangkasan akan selalu meremehkan varian Anda yang sebenarnya. Kemenangan, dengan asumsi bahwa memang beberapa pengamatan ekstrim salah, akan bekerja sedikit lebih baik (mungkin masih akan meremehkan, tetapi tidak sebanyak).
Saya tidak melihat bagaimana mengganti nilai ekstrim dengan nilai rata akan cocok di sini.
Namun, ada praktik lain yang terkait: hilangnya nilai imputasi . Dengan asumsi bahwa outlier Anda cacat, data tidak berharga, jadi hapuslah. Ketika Anda kemudian melakukan imputasi, nilai pengganti yang khas adalah mean atau mode:
https://en.wikipedia.org/wiki/Imputation_%28statistics%29
sumber
Pendekatan tradisional untuk menangani outlier adalah menghapusnya sedemikian rupa sehingga model Anda hanya dilatih pada data "baik".
Perlu diingat bahwa nilai rata-rata dipengaruhi oleh keberadaan outlier tersebut. Jika Anda mengganti outlier dengan mean yang dihitung setelah outlier dihapus dari dataset Anda , itu tidak akan membuat perbedaan karena garis regresi (dari regresi linier sederhana) tetap akan melewati rata-rata data pelatihan Anda (ini akan mengurangi varians dari Anda memperkirakan, yang mungkin kebalikan dari yang Anda inginkan mengingat Anda tahu ada outlier).
Efek pendekatan Anda terhadap model tergantung pada pengaruh (pengaruh) dari pencilan. Saya akan merekomendasikan menentang pendekatan yang Anda sarankan sebagai pengganti hanya menghilangkan titik sepenuhnya.
sumber
ya outlier dapat diganti dalam bentuk dapat, misalnya, mari kita ambil satu set data ukuran ketinggian Manusia, katakanlah kita memiliki beberapa outlier seperti 500 cm dan 400 cm lalu, kita bisa mengganti titik data yang muncul di dataset karena beberapa kesalahan yang disebabkan selama perekaman data. jadi opsi yang bisa Anda coba adalah 1. ganti dengan Median warna Seluruh data (bukan rata-rata, karena rentan terhadap pencilan). 2. ganti dengan titik data yang paling banyak muncul di Kolom. 3. Jika nilai Categororial maka Anda dapat mencoba coding Respon (di mana Anda Catat Probabilitas kata atau nilai-nilai yang terjadi dengan jumlah total kata)
sumber