Bagaimana cara membaca plot jarak Cook?

40

Adakah yang tahu bagaimana cara menentukan apakah poin 7, 16 dan 29 adalah poin yang berpengaruh atau tidak? Saya membaca di suatu tempat bahwa karena jarak Cook lebih rendah dari 1, mereka tidak. Apakah saya benar?

masukkan deskripsi gambar di sini

Platypezid
sumber
1
Ada berbagai pendapat. Beberapa dari mereka berhubungan dengan jumlah pengamatan atau jumlah parameter. Ini dibuat sketsa di en.wikipedia.org/wiki/… .
Whuber
@whuber Terima kasih. Ini selalu merupakan area abu-abu saat melakukan eksplorasi data untuk saya. Data titik 16 di atas secara besar-besaran memengaruhi hasil model, sehingga meningkatkan kesalahan Tipe I.
Platypezid
2
Orang mungkin berpendapat bahwa itu meningkatkan kesalahan "Tipe III" juga, yang (secara umum dan informal) adalah kesalahan yang berkaitan dengan ketidakmampuan penerapan model probabilitas yang mendasarinya.
Whuber
@whuber ya, sangat benar!
Platypezid

Jawaban:

43

Beberapa teks memberi tahu Anda bahwa titik-titik yang jarak Cook lebih tinggi dari 1 dianggap berpengaruh. Teks lain memberi Anda ambang atau , di mana adalah jumlah pengamatan dan jumlah variabel penjelas. Dalam kasus Anda, rumus terakhir harus menghasilkan ambang batas sekitar 0,1.4/N4/(Nk1)Nk

John Fox (1), dalam bukletnya tentang diagnostik regresi agak berhati-hati dalam hal memberikan ambang numerik. Dia menyarankan penggunaan grafik dan untuk memeriksa lebih dekat poin-poin dengan "nilai D yang jauh lebih besar dari yang lain". Menurut Fox, ambang batas seharusnya hanya digunakan untuk meningkatkan tampilan grafis.

Dalam kasus Anda, pengamatan 7 dan 16 dapat dianggap berpengaruh. Yah, setidaknya saya akan melihat mereka lebih dekat. Pengamatan 29 tidak jauh berbeda dari beberapa pengamatan lain.


(1) Fox, John. (1991). Diagnostik Regresi: Suatu Pengantar . Sage Publications.


sumber
9
+1 Hapus ringkasan. Saya ingin menambahkan bahwa kasus yang berpengaruh biasanya tidak menjadi masalah ketika penghapusan mereka dari dataset akan membuat estimasi parameter pada dasarnya tidak berubah: yang kami khawatirkan adalah mereka yang kehadirannya benar - benar mengubah hasil.
whuber
1
@lejohn Sangat menghargai tanggapan Anda. Whuber benar-benar jelas dalam jawaban Anda. Ini sangat informatif. Mungkin saya sarankan Anda menyoroti Fox dan pendapat Anda di halaman wikipedia!
Platypezid
29

+1 untuk @lejohn dan @whuber. Saya ingin sedikit memperluas komentar @ whuber. Jarak Cook dapat dikontraskan dengan dfbeta. Jarak Cook mengacu pada seberapa jauh, secara rata-rata, prediksi nilai-y akan bergerak jika pengamatan yang dimaksud dijatuhkan dari kumpulan data. dfbeta mengacu pada berapa banyak estimasi parameter berubah jika observasi yang bersangkutan dijatuhkan dari kumpulan data. Perhatikan bahwa dengan kovariat, akan ada dfbetas (intersep, , dan 1 untuk setiap kovariat). Jarak Cook mungkin lebih penting bagi Anda jika Anda melakukan pemodelan prediktif, sedangkan dfbeta lebih penting dalam pemodelan penjelas. kk+1β0β

Ada satu hal lain yang layak disampaikan di sini. Dalam penelitian observasional, seringkali sulit untuk mengambil sampel secara seragam di seluruh ruang prediktor, dan Anda mungkin hanya memiliki beberapa poin di area tertentu. Poin-poin seperti itu dapat berbeda dari yang lain. Memiliki beberapa kasus yang berbeda dapat membingungkan, tetapi patut dipikirkan sebelum dihilangkan. Mungkin ada interaksi yang sah di antara para prediktor, atau sistem mungkin bergeser untuk berperilaku berbeda ketika nilai-nilai prediktor menjadi ekstrem. Selain itu, mereka mungkin dapat membantu Anda mengurai efek dari prediksi colinear. Poin yang berpengaruh bisa menjadi berkah tersembunyi.

gung - Reinstate Monica
sumber
6
+1 "Jarak Cook mungkin lebih penting bagi Anda jika Anda melakukan pemodelan prediktif, sedangkan dfbeta lebih penting dalam pemodelan penjelas": ini adalah saran yang sangat berguna.
Anne Z.
Hai - diskusi menarik. Tetapi tidakkah masuk akal untuk mengintegrasikan variabel-dummy untuk mengukur efek dari misalnya pengamatan 16?
Pantera
@Pantera Saya menghapus 16 dan membandingkan model pre & post
ommission
Hai - jika Anda menghapus pengamatan, Anda harus memastikan bahwa Anda memiliki argumen "baik" untuk melakukannya, misalnya bahwa pengamatan itu salah diukur. Jika kita membuang pengamatan karena mereka hanya membuat masalah statistik, maka kita sudah dekat dengan penambangan data.
Pantera