Saya melakukan beberapa analisis regresi dan saya tidak yakin apakah outlier dalam data saya harus dihapus. Data yang saya khawatirkan muncul sebagai "lingkaran" pada kotak-kotak SPSS, namun tidak ada tanda bintang (yang membuat saya berpikir mereka tidak 'seburuk itu'). Kasus-kasus yang saya khawatirkan akan muncul di bawah tabel "diagnosa santai" pada output - oleh karena itu haruskah saya menghapus kasus-kasus ini?
regression
outliers
Segera
sumber
sumber
Jawaban:
Panji-panji outlier tidak merupakan panggilan penilaian (atau dalam hal apa pun tidak perlu satu). Diberikan model statistik, outlier memiliki definisi objektif yang tepat: mereka adalah pengamatan yang tidak mengikuti pola mayoritas data. Pengamatan seperti itu perlu dipisahkan pada awal analisis apa pun hanya karena jarak mereka dari sebagian besar data memastikan bahwa mereka akan melakukan tarikan yang tidak proporsional pada model multivariabel yang dipasang dengan kemungkinan maksimum (atau bahkan fungsi kehilangan cembung lainnya).
Hal ini penting untuk menunjukkan bahwa outlier multivariabel s dapat hanya tidak bisa diandalkan terdeteksi menggunakan residual dari fit setidaknya persegi (atau model lain diperkirakan oleh ML, atau kehilangan fungsi cembung lainnya). Sederhananya, outlier multivariabel hanya dapat dideteksi dengan andal menggunakan residu mereka dari model yang dipasang menggunakan prosedur estimasi yang tidak rentan untuk diayun oleh mereka.
Keyakinan bahwa pencilan akan perlu menonjol dalam residu dari kecocokan klasik di suatu tempat di sana dengan yang sulit lainnya untuk menyangkal statistik tidak-tidak seperti menafsirkan nilai-p sebagai ukuran bukti atau menarik kesimpulan pada populasi dari sampel yang bias. Kecuali mungkin yang ini mungkin jauh lebih tua: Gauss sendiri merekomendasikan penggunaan estimator yang kuat seperti median dan mad (bukan rata-rata klasik dan standar deviasi) untuk memperkirakan parameter distribusi normal dari pengamatan bising (bahkan terjadi sejauh menurunkan faktor konsistensi orang gila (1)).
Untuk memberikan contoh visual sederhana berdasarkan data nyata, pertimbangkan data bintang CYG yang terkenal itu . Garis merah di sini menggambarkan paling cocok persegi, garis biru cocok diperoleh dengan menggunakan regresi linier yang kuat. Kecocokan kuat di sini adalah kecocokan FastLTS (2), suatu alternatif terhadap kecocokan LS yang dapat digunakan untuk mendeteksi pencilan (karena menggunakan prosedur estimasi yang memastikan bahwa pengaruh pengamatan apa pun terhadap koefisien estimasi dibatasi). Kode R untuk mereproduksi itu adalah:
Menariknya, 4 pengamatan terluar di sebelah kiri bahkan tidak memiliki residu terbesar sehubungan dengan kecocokan LS dan plot QQ dari residu kecocokan LS (atau alat diagnostik apa pun yang berasal darinya seperti jarak Cook atau jarak dfbeta) gagal menunjukkan salah satu dari mereka bermasalah. Ini sebenarnya adalah norma: tidak lebih dari dua outlier diperlukan (terlepas dari ukuran sampel) untuk menarik perkiraan LS sedemikian rupa sehingga outlier tidak akan menonjol dalam plot residual. Ini disebut efek maskingdan itu didokumentasikan dengan baik. Mungkin satu-satunya hal yang luar biasa tentang set data CYGstars adalah bahwa itu adalah bivariat (karenanya kita dapat menggunakan inspeksi visual untuk mengkonfirmasi hasil dari fit yang kuat) dan bahwa sebenarnya ada penjelasan yang baik mengapa empat pengamatan di sebelah kiri ini begitu tidak normal.
Ini, btw, pengecualian lebih dari aturan: kecuali dalam studi percontohan kecil yang melibatkan sampel kecil dan beberapa variabel dan di mana orang yang melakukan analisis statistik juga terlibat dalam proses pengumpulan data, saya tidak pernah mengalami kasus di mana keyakinan sebelumnya tentang identitas outlier sebenarnya benar. Omong-omong, mudah untuk memverifikasi. Terlepas dari apakah outlier telah diidentifikasi menggunakan algoritma pendeteksian outlier atau firasat peneliti, outlier adalah dengan pengamatan definisi yang memiliki leverage abnormal (atau 'tarikan') atas koefisien yang diperoleh dari fit LS. Dengan kata lain, pencilan adalah pengamatan yang pemindahan dari sampel harus sangat berdampak pada kecocokan LS.
Meskipun saya tidak pernah secara pribadi mengalami hal ini, ada beberapa kasus yang terdokumentasi dengan baik dalam literatur di mana pengamatan ditandai sebagai outlier oleh algoritma pendeteksian outlier yang kemudian ditemukan sebagai kesalahan besar atau dihasilkan oleh proses yang berbeda. Dalam kasus apa pun, tidak dibenarkan secara ilmiah atau bijaksana untuk hanya menghapus pencilan jika mereka dapat dipahami atau dijelaskan. Jika sekelompok kecil pengamatan sejauh ini dihapus dari badan utama data sehingga dapat dengan sendirinya menarik hasil dari prosedur statistik dengan sendirinya adalah bijaksana (dan saya mungkin menambahkan alami) untuk memperlakukannya terpisah terlepas dari apakah atau tidak titik data ini kebetulan juga tersangka dengan alasan lain.
(1): lihat Stephen M. Stigler, The History of Statistics: Pengukuran Ketidakpastian sebelum 1900.
(2): Komputasi Regresi LTS untuk Set Data Besar (2006) PJ Rousseeuw, K. van Driessen.
(3): Metode Multivariat Robust High-Breakdown (2008). Hubert M., Rousseeuw PJ dan Van Aelst S. Sumber: Statist. Sci. Volume 23, 92-119.
sumber
Secara umum, saya khawatir menghapus "pencilan." Analisis regresi dapat diterapkan dengan benar dengan adanya kesalahan yang tidak terdistribusi secara normal, kesalahan yang menunjukkan heteroskedastisitas, atau nilai-nilai prediktor / variabel independen yang "jauh" dari yang lain. Masalah sebenarnya dengan outlier adalah bahwa mereka tidak mengikuti model linier yang diikuti oleh setiap titik data lainnya. Bagaimana Anda tahu apakah ini masalahnya? Kamu tidak.
Jika ada, Anda tidak ingin mencari nilai variabel Anda yang outlier; sebagai gantinya, Anda ingin mencari nilai residu Anda yang outlier. Lihatlah titik-titik data ini. Apakah variabel mereka direkam dengan benar? Apakah ada alasan mengapa mereka tidak mengikuti model yang sama dengan data Anda yang lain?
Tentu saja, alasan mengapa pengamatan ini mungkin muncul sebagai outlier (sesuai dengan diagnostik residual) bisa jadi karena model Anda salah. Saya memiliki seorang profesor yang suka mengatakan bahwa, jika kita membuang pencilan, kita masih percaya bahwa planet-planet berputar mengelilingi matahari dalam lingkaran yang sempurna. Kepler bisa saja membuang Mars dan kisah orbit melingkar akan terlihat cukup bagus. Mars memberikan wawasan kunci bahwa model ini tidak benar dan dia akan melewatkan hasil ini jika dia mengabaikan planet itu.
Anda menyebutkan bahwa menghapus outlier tidak banyak mengubah hasil Anda. Entah ini karena Anda hanya memiliki sejumlah kecil pengamatan yang Anda hapus relatif terhadap sampel Anda atau mereka cukup konsisten dengan model Anda. Ini mungkin menunjukkan bahwa, sementara variabel itu sendiri mungkin terlihat berbeda dari yang lain, bahwa residu mereka tidak begitu menonjol. Saya akan meninggalkan mereka dan tidak mencoba untuk membenarkan keputusan saya untuk menghapus beberapa poin untuk kritik saya.
sumber
+1 ke @Charlie dan @PeterFlom; Anda mendapatkan informasi yang bagus di sana. Mungkin saya bisa memberi sumbangan kecil di sini dengan menantang premis pertanyaan. Sebuah boxplot biasanya akan (software dapat bervariasi, dan saya tidak tahu pasti apa SPSS lakukan) label poin lebih dari 1,5 kali Inter-Kuartil Rentang atas (di bawah) ketiga (pertama) kuartil sebagai 'outlier'. Namun, kita dapat bertanya seberapa sering kita berharap untuk menemukan setidaknya satu poin seperti itu ketika kita tahu fakta bahwa semua poin berasal dari distribusi yang sama? Simulasi sederhana dapat membantu kami menjawab pertanyaan ini:
Apa yang diperlihatkan ini adalah bahwa titik-titik tersebut dapat diperkirakan terjadi secara umum (> 50% dari waktu) dengan sampel berukuran 100, bahkan ketika tidak ada yang salah. Seperti yang diisyaratkan oleh kalimat terakhir itu, kemungkinan menemukan 'pencilan' palsu melalui strategi boxplot akan tergantung pada ukuran sampel:
Ada strategi lain untuk mengidentifikasi outlier secara otomatis, tetapi metode seperti itu kadang-kadang akan salah mengidentifikasi poin valid sebagai 'outlier', dan kadang-kadang salah mengidentifikasi outlier sejati sebagai 'poin valid'. (Anda dapat menganggap ini sebagai kesalahan tipe I dan tipe II .) Pemikiran saya tentang masalah ini (untuk apa nilainya) adalah fokus pada efek termasuk / tidak termasuk poin yang dimaksud. Jika sasaran Anda adalah prediksi, Anda dapat menggunakan validasi silang untuk menentukan apakah / seberapa banyak termasuk poin yang dimaksud meningkatkan akar kuadrat kesalahan prediksi . Jika tujuan Anda adalah penjelasan, Anda dapat melihat dfBeta(yaitu, lihat seberapa banyak perkiraan beta dari model Anda berubah tergantung pada apakah poin yang dimasukkan termasuk atau tidak). Perspektif lain (bisa dibilang yang terbaik) adalah untuk menghindari harus memilih apakah poin menyimpang harus dibuang, dan gunakan analisis yang kuat saja.
sumber
Pertama-tama Anda harus melihat plot residu: Apakah mereka mengikuti (kira-kira) distribusi normal? Apakah mereka menunjukkan tanda heteroskedastisitas? Lihatlah plot lain juga (saya tidak menggunakan SPSS, jadi tidak bisa mengatakan dengan tepat bagaimana melakukan ini dalam program itu, atau plot kotak apa yang Anda lihat; namun, sulit untuk membayangkan bahwa tanda bintang berarti "tidak seburuk" yang mungkin berarti bahwa ini adalah poin yang sangat tidak biasa oleh beberapa kriteria).
Kemudian, jika Anda memiliki outlier, lihatlah dan cobalah mencari tahu mengapa.
Kemudian Anda dapat mencoba regresi dengan dan tanpa outlier. Jika hasilnya sama, hidup itu baik. Laporkan hasil lengkap dengan catatan kaki. Jika tidak mirip, maka Anda harus menjelaskan kedua regresi.
sumber