Apakah akan menghapus kasus yang ditandai sebagai outlier oleh perangkat lunak statistik saat melakukan regresi berganda?

23

Saya melakukan beberapa analisis regresi dan saya tidak yakin apakah outlier dalam data saya harus dihapus. Data yang saya khawatirkan muncul sebagai "lingkaran" pada kotak-kotak SPSS, namun tidak ada tanda bintang (yang membuat saya berpikir mereka tidak 'seburuk itu'). Kasus-kasus yang saya khawatirkan akan muncul di bawah tabel "diagnosa santai" pada output - oleh karena itu haruskah saya menghapus kasus-kasus ini?

Segera
sumber
Terima kasih banyak, Charlie dan Epigrad. Bisakah Anda menyarankan grafik mana di SPSS yang saya lihat untuk menilai apakah ada pencilan dalam residu? Scatterplot terlihat sangat berantakan! Saya tidak ada masalah dengan data seperti itu (seperti di mereka belum dimasukkan secara salah) Saya hanya berpikir bahwa beberapa peserta saya memiliki skor yang jauh lebih tinggi pada beberapa skala saya, yaitu karena mereka jauh lebih cemas secara sosial yang sisa sampel.
Anon
3
Anda harus memplot nilai prediksi y (yang diberikan sesuai model yang Anda perkirakan) pada sumbu x dan residu pada sumbu y. Alih-alih nilai prediksi y, Anda bisa meletakkan salah satu prediktor / variabel independen Anda pada sumbu x. Anda bisa membuat beberapa plot, masing-masing dengan prediktor berbeda pada sumbu x untuk melihat nilai x mana yang mengarah ke perilaku outlier. Sekali lagi, saya akan berhati-hati terhadap penghapusan outlier; alih-alih, analisis mengapa pencilan terjadi.
Charlie
1
Mengumandangkan pernyataan Charlie, itu "mengapa" yang penting, bukan "jika", dan aku juga akan memperingatkan agar mereka tidak dipindahkan. Saya tidak terbiasa dengan SPSS, tetapi fitur apa pun yang Anda gunakan untuk menjalankan regresi harus dapat juga memberi Anda plot residu, atau setidaknya nilai dari mereka yang dapat Anda gunakan untuk membuat plot yang disarankan Charlie.
Fomite
@Anon Saya sudah menggabungkan dua akun Anda. Silakan daftar sehingga Anda dapat memperbarui dan / atau mengomentari pertanyaan Anda.
chl
3
@ user603 Tidak, Anda tidak membaca saya dengan benar. "Outlier" tidak berarti apa-apa - terutama ketika ditandai oleh prosedur otomatis dalam perangkat lunak statistik. Ada banyak contoh temuan penting dari studi yang berada di "outlier". Setiap kali Anda memiliki data yang Anda hapus, itu harus karena suatu alasan. "Mereka tidak nyaman" bukan alasan.
Fomite

Jawaban:

25

Panji-panji outlier tidak merupakan panggilan penilaian (atau dalam hal apa pun tidak perlu satu). Diberikan model statistik, outlier memiliki definisi objektif yang tepat: mereka adalah pengamatan yang tidak mengikuti pola mayoritas data. Pengamatan seperti itu perlu dipisahkan pada awal analisis apa pun hanya karena jarak mereka dari sebagian besar data memastikan bahwa mereka akan melakukan tarikan yang tidak proporsional pada model multivariabel yang dipasang dengan kemungkinan maksimum (atau bahkan fungsi kehilangan cembung lainnya).

Hal ini penting untuk menunjukkan bahwa outlier multivariabel s dapat hanya tidak bisa diandalkan terdeteksi menggunakan residual dari fit setidaknya persegi (atau model lain diperkirakan oleh ML, atau kehilangan fungsi cembung lainnya). Sederhananya, outlier multivariabel hanya dapat dideteksi dengan andal menggunakan residu mereka dari model yang dipasang menggunakan prosedur estimasi yang tidak rentan untuk diayun oleh mereka.

Keyakinan bahwa pencilan akan perlu menonjol dalam residu dari kecocokan klasik di suatu tempat di sana dengan yang sulit lainnya untuk menyangkal statistik tidak-tidak seperti menafsirkan nilai-p sebagai ukuran bukti atau menarik kesimpulan pada populasi dari sampel yang bias. Kecuali mungkin yang ini mungkin jauh lebih tua: Gauss sendiri merekomendasikan penggunaan estimator yang kuat seperti median dan mad (bukan rata-rata klasik dan standar deviasi) untuk memperkirakan parameter distribusi normal dari pengamatan bising (bahkan terjadi sejauh menurunkan faktor konsistensi orang gila (1)).

Untuk memberikan contoh visual sederhana berdasarkan data nyata, pertimbangkan data bintang CYG yang terkenal itu . Garis merah di sini menggambarkan paling cocok persegi, garis biru cocok diperoleh dengan menggunakan regresi linier yang kuat. Kecocokan kuat di sini adalah kecocokan FastLTS (2), suatu alternatif terhadap kecocokan LS yang dapat digunakan untuk mendeteksi pencilan (karena menggunakan prosedur estimasi yang memastikan bahwa pengaruh pengamatan apa pun terhadap koefisien estimasi dibatasi). Kode R untuk mereproduksi itu adalah:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

data starsCYG

Menariknya, 4 pengamatan terluar di sebelah kiri bahkan tidak memiliki residu terbesar sehubungan dengan kecocokan LS dan plot QQ dari residu kecocokan LS (atau alat diagnostik apa pun yang berasal darinya seperti jarak Cook atau jarak dfbeta) gagal menunjukkan salah satu dari mereka bermasalah. Ini sebenarnya adalah norma: tidak lebih dari dua outlier diperlukan (terlepas dari ukuran sampel) untuk menarik perkiraan LS sedemikian rupa sehingga outlier tidak akan menonjol dalam plot residual. Ini disebut efek maskingdan itu didokumentasikan dengan baik. Mungkin satu-satunya hal yang luar biasa tentang set data CYGstars adalah bahwa itu adalah bivariat (karenanya kita dapat menggunakan inspeksi visual untuk mengkonfirmasi hasil dari fit yang kuat) dan bahwa sebenarnya ada penjelasan yang baik mengapa empat pengamatan di sebelah kiri ini begitu tidak normal.

Ini, btw, pengecualian lebih dari aturan: kecuali dalam studi percontohan kecil yang melibatkan sampel kecil dan beberapa variabel dan di mana orang yang melakukan analisis statistik juga terlibat dalam proses pengumpulan data, saya tidak pernah mengalami kasus di mana keyakinan sebelumnya tentang identitas outlier sebenarnya benar. Omong-omong, mudah untuk memverifikasi. Terlepas dari apakah outlier telah diidentifikasi menggunakan algoritma pendeteksian outlier atau firasat peneliti, outlier adalah dengan pengamatan definisi yang memiliki leverage abnormal (atau 'tarikan') atas koefisien yang diperoleh dari fit LS. Dengan kata lain, pencilan adalah pengamatan yang pemindahan dari sampel harus sangat berdampak pada kecocokan LS.

Meskipun saya tidak pernah secara pribadi mengalami hal ini, ada beberapa kasus yang terdokumentasi dengan baik dalam literatur di mana pengamatan ditandai sebagai outlier oleh algoritma pendeteksian outlier yang kemudian ditemukan sebagai kesalahan besar atau dihasilkan oleh proses yang berbeda. Dalam kasus apa pun, tidak dibenarkan secara ilmiah atau bijaksana untuk hanya menghapus pencilan jika mereka dapat dipahami atau dijelaskan. Jika sekelompok kecil pengamatan sejauh ini dihapus dari badan utama data sehingga dapat dengan sendirinya menarik hasil dari prosedur statistik dengan sendirinya adalah bijaksana (dan saya mungkin menambahkan alami) untuk memperlakukannya terpisah terlepas dari apakah atau tidak titik data ini kebetulan juga tersangka dengan alasan lain.

(1): lihat Stephen M. Stigler, The History of Statistics: Pengukuran Ketidakpastian sebelum 1900.

(2): Komputasi Regresi LTS untuk Set Data Besar (2006) PJ Rousseeuw, K. van Driessen.

(3): Metode Multivariat Robust High-Breakdown (2008). Hubert M., Rousseeuw PJ dan Van Aelst S. Sumber: Statist. Sci. Volume 23, 92-119.

pengguna603
sumber
6
Ini barang bagus (+1). Namun, saya pikir Anda menyalahgunakan terminologi konvensional dan telah memilih "pencilan" untuk merujuk pada "pengamatan yang berpengaruh." Konsep-konsepnya sama-sama berharga, dan Anda memperlakukan yang terakhir dengan baik di sini, tetapi mereka tidak dapat dipertukarkan seperti yang Anda tunjukkan. Misalnya, sebuah pengamatan berpengaruh yang merupakan konsisten dengan mayoritas data akan cocok karakterisasi Anda dari "pengamatan yang memiliki leverage yang abnormal (atau 'tarik') atas koefisien diperoleh dari LS cocok" tetapi tidak akan dianggap oleh kebanyakan penulis menjadi "pencilan" per se.
whuber
2
@whuber: Poin bagus. Memang saya menganggap, seperti halnya buku teks terbaru tentang statistik yang kuat (misalnya, Statistik Kuat: Teori dan Metode. Wiley) pengamatan semacam itu (disebut 'poin leverage yang baik') sebagai berbahaya. Pembenarannya adalah bahwa mereka menurunkan standar kesalahan dari estimasi koefisien yang menyebabkan pengguna untuk menempatkan kepercayaan yang tidak beralasan pada kekuatan hubungan yang diamati. Mempertimbangkan poin leverage yang baik sebagai outlier juga membuat pendekatan formal lebih konsisten: setelah semua poin leverage yang baik memiliki pengaruh besar pada se yang merupakan komponen dari fit LS / ML.
user603
3
+1 Contoh yang sangat bagus. Data nyata yang menunjukkan dua pas yang hampir ortogonal, dan di mana empat yang sangat berpengaruh di kiri atas tidak akan memiliki residu terbesar setelah pas OLS.
Wayne
19

Secara umum, saya khawatir menghapus "pencilan." Analisis regresi dapat diterapkan dengan benar dengan adanya kesalahan yang tidak terdistribusi secara normal, kesalahan yang menunjukkan heteroskedastisitas, atau nilai-nilai prediktor / variabel independen yang "jauh" dari yang lain. Masalah sebenarnya dengan outlier adalah bahwa mereka tidak mengikuti model linier yang diikuti oleh setiap titik data lainnya. Bagaimana Anda tahu apakah ini masalahnya? Kamu tidak.

Jika ada, Anda tidak ingin mencari nilai variabel Anda yang outlier; sebagai gantinya, Anda ingin mencari nilai residu Anda yang outlier. Lihatlah titik-titik data ini. Apakah variabel mereka direkam dengan benar? Apakah ada alasan mengapa mereka tidak mengikuti model yang sama dengan data Anda yang lain?

Tentu saja, alasan mengapa pengamatan ini mungkin muncul sebagai outlier (sesuai dengan diagnostik residual) bisa jadi karena model Anda salah. Saya memiliki seorang profesor yang suka mengatakan bahwa, jika kita membuang pencilan, kita masih percaya bahwa planet-planet berputar mengelilingi matahari dalam lingkaran yang sempurna. Kepler bisa saja membuang Mars dan kisah orbit melingkar akan terlihat cukup bagus. Mars memberikan wawasan kunci bahwa model ini tidak benar dan dia akan melewatkan hasil ini jika dia mengabaikan planet itu.

Anda menyebutkan bahwa menghapus outlier tidak banyak mengubah hasil Anda. Entah ini karena Anda hanya memiliki sejumlah kecil pengamatan yang Anda hapus relatif terhadap sampel Anda atau mereka cukup konsisten dengan model Anda. Ini mungkin menunjukkan bahwa, sementara variabel itu sendiri mungkin terlihat berbeda dari yang lain, bahwa residu mereka tidak begitu menonjol. Saya akan meninggalkan mereka dan tidak mencoba untuk membenarkan keputusan saya untuk menghapus beberapa poin untuk kritik saya.

Charlie
sumber
6
+1 Jangan membuang data karena ini outlier. Cari tahu mengapa beberapa data terpencil.
Fomite
2
ini nasihat yang mengerikan. Sangat umum bagi pencilan berada jauh dari sisa data sehingga menarik garis regresi ke arah mereka sedemikian rupa sehingga mereka tidak akan menonjol pada plot residual (atau terburuk: menghasilkan residu besar untuk yang asli). titik data). Bahkan, dapat ditunjukkan bahwa segera setelah Anda memiliki lebih dari satu pencilan tunggal, itu tidak dapat dideteksi dengan andal menggunakan plot sisa dari regresi klasik. Ini disebut efek masking dan saya terdokumentasi dengan baik dalam banyak contoh data nyata.
user603
Ngomong-ngomong, ini juga mengapa saya menghindari menggunakan contoh Mars: ini menggambarkan prosedur yang hanya bekerja jika Anda berurusan dengan outlier tunggal. Dalam sebagian besar aplikasi tidak ada jaminan seperti itu. Ini memberikan rasa percaya diri yang salah dalam metodologi yang umumnya cacat (yang benar-benar harus kita cegah sebagai ahli statistik.
user603
15

+1 ke @Charlie dan @PeterFlom; Anda mendapatkan informasi yang bagus di sana. Mungkin saya bisa memberi sumbangan kecil di sini dengan menantang premis pertanyaan. Sebuah boxplot biasanya akan (software dapat bervariasi, dan saya tidak tahu pasti apa SPSS lakukan) label poin lebih dari 1,5 kali Inter-Kuartil Rentang atas (di bawah) ketiga (pertama) kuartil sebagai 'outlier'. Namun, kita dapat bertanya seberapa sering kita berharap untuk menemukan setidaknya satu poin seperti itu ketika kita tahu fakta bahwa semua poin berasal dari distribusi yang sama? Simulasi sederhana dapat membantu kami menjawab pertanyaan ini:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

Apa yang diperlihatkan ini adalah bahwa titik-titik tersebut dapat diperkirakan terjadi secara umum (> 50% dari waktu) dengan sampel berukuran 100, bahkan ketika tidak ada yang salah. Seperti yang diisyaratkan oleh kalimat terakhir itu, kemungkinan menemukan 'pencilan' palsu melalui strategi boxplot akan tergantung pada ukuran sampel:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

Ada strategi lain untuk mengidentifikasi outlier secara otomatis, tetapi metode seperti itu kadang-kadang akan salah mengidentifikasi poin valid sebagai 'outlier', dan kadang-kadang salah mengidentifikasi outlier sejati sebagai 'poin valid'. (Anda dapat menganggap ini sebagai kesalahan tipe I dan tipe II .) Pemikiran saya tentang masalah ini (untuk apa nilainya) adalah fokus pada efek termasuk / tidak termasuk poin yang dimaksud. Jika sasaran Anda adalah prediksi, Anda dapat menggunakan validasi silang untuk menentukan apakah / seberapa banyak termasuk poin yang dimaksud meningkatkan akar kuadrat kesalahan prediksi . Jika tujuan Anda adalah penjelasan, Anda dapat melihat dfBeta(yaitu, lihat seberapa banyak perkiraan beta dari model Anda berubah tergantung pada apakah poin yang dimasukkan termasuk atau tidak). Perspektif lain (bisa dibilang yang terbaik) adalah untuk menghindari harus memilih apakah poin menyimpang harus dibuang, dan gunakan analisis yang kuat saja.

gung - Reinstate Monica
sumber
Prosedur yang Anda rekomendasikan hanya berfungsi dengan andal jika ada paling banyak pencilan tunggal (terlepas dari ukuran dataset Anda) yang merupakan asumsi yang tidak realistis. Tukey mengkalibrasi aturan kumis untuk mengecualikan sekitar 1% dari pengamatan di setiap ujung jika data diambil dari distribusi Gaussian. Simulasi Anda mengonfirmasi hal itu. Pendapat Tukey adalah bahwa kerugian yang disebabkan oleh mengabaikan sebagian kecil dari data dalam kasus-kasus di mana pengamatan berperilaku baik adalah untuk semua masalah praktis yang tidak penting. Khususnya mengenai manfaat dalam kasus-kasus ketika data tidak.
user603
2
Terima kasih atas komentar Anda, @ user603; itu posisi yang merangsang pikiran. Prosedur mana yang saya rekomendasikan yang Anda keberatan: menggunakan, misalnya, dfbeta untuk mendeteksi kemungkinan outlier, atau menggunakan analisis yang kuat (prototipikal Tukey's bisquare sebagai fungsi kerugian alternatif) sebagai perlindungan terhadap pengaruh mereka alih-alih memilih data mana yang akan dibuang?
gung - Reinstate Monica
terima kasih telah menunjukkan kurangnya kejelasan dalam komentar saya (saya dibatasi oleh batas panjang). Tentu saja, saya secara khusus berarti yang pertama: dfbeta dan validasi silang (yang terakhir hanya bermasalah jika pengamatan yang digunakan untuk melakukan validasi silang secara acak diambil dari sampel asli. Contoh kasus di mana validasi silang dapat digunakan akan berada dalam apa yang disebut pengaturan kontrol kualitas di mana pengamatan yang digunakan untuk pengujian diambil dari sampel yang terpisah sementara).
user603
Terima kasih telah mengklarifikasi, @ user603. Saya harus bermain dengan ide-ide ini untuk memahaminya lebih menyeluruh. Intuisi saya adalah bahwa akan sangat sulit untuk tidak melihat pencilan yang merusak hasil Anda; sepertinya Anda harus memiliki outlier yang mendistorsi hasil Anda di kedua sisi secara merata, dalam hal ini beta Anda akan berakhir sekitar tidak bias & hasil Anda hanya akan kurang 'signifikan'.
gung - Reinstate Monica
1
Intuisi saya adalah bahwa akan sangat sulit untuk tidak melihat pencilan yang merusak hasil Anda, tetapi sayangnya, kenyataannya tidak demikian. Lihat juga contoh yang saya berikan dalam jawaban saya.
user603
12

Pertama-tama Anda harus melihat plot residu: Apakah mereka mengikuti (kira-kira) distribusi normal? Apakah mereka menunjukkan tanda heteroskedastisitas? Lihatlah plot lain juga (saya tidak menggunakan SPSS, jadi tidak bisa mengatakan dengan tepat bagaimana melakukan ini dalam program itu, atau plot kotak apa yang Anda lihat; namun, sulit untuk membayangkan bahwa tanda bintang berarti "tidak seburuk" yang mungkin berarti bahwa ini adalah poin yang sangat tidak biasa oleh beberapa kriteria).

Kemudian, jika Anda memiliki outlier, lihatlah dan cobalah mencari tahu mengapa.

Kemudian Anda dapat mencoba regresi dengan dan tanpa outlier. Jika hasilnya sama, hidup itu baik. Laporkan hasil lengkap dengan catatan kaki. Jika tidak mirip, maka Anda harus menjelaskan kedua regresi.

Peter Flom - Pasang kembali Monica
sumber
1
Terima kasih banyak, Peter. Saya telah memeriksa plot-plot QQ dan data tampaknya tidak normal. Ketika saya menghapus outlier, mereka sepertinya tidak membuat banyak perbedaan pada hasilnya. Jadi, oleh karena itu, haruskah saya membiarkan mereka saja? Saya masih tertarik mendengar pendapat orang lain di atas meja diagnosa santai di SPSS. Terimakasih banyak.
Anon
1
Ya, saya kemudian akan meninggalkan mereka dengan sesuatu catatan kaki seperti "analisis dengan beberapa outlier dihapus menunjukkan hasil yang sangat mirip"
Peter Flom - Reinstate Monica
2
Bahkan dengan asumsi seseorang dapat dipercaya menemukan pencilan menggunakan prosedur seperti itu (dan sebagian besar waktu, seseorang tidak bisa ) yang anehnya masih menyisakan masalah apa yang harus dilakukan ketika Anda tidak bisa "mencari tahu" / menjelaskan pencilan itu. Saya kedua saran untuk menjauh dari SPSS. -
user603