Pengamatan yang berpengaruh adalah pengamatan yang memiliki efek yang relatif besar pada prediksi model regresi.
Leverage poin adalah pengamatan tersebut, jika ada, dibuat pada nilai ekstrim atau outlying dari variabel independen sedemikian rupa sehingga kurangnya pengamatan tetangga berarti bahwa model regresi pas akan melewati dekat dengan pengamatan tertentu.
Mengapa perbandingan berikut dari Wikipedia
Meskipun titik yang berpengaruh biasanya akan memiliki leverage yang tinggi , titik leverage yang tinggi belum tentu merupakan titik yang berpengaruh .
regression
outliers
leverage
StackExchange untuk Semua
sumber
sumber
Jawaban:
Bayangkan setiap garis regresi dipasang ke beberapa data.
Sekarang bayangkan sebuah titik data tambahan, suatu outlier yang agak jauh dari badan utama data, tetapi titik yang terletak di suatu tempat di sepanjang garis regresi itu.
Jika garis regresi harus dipasang kembali, koefisien tidak akan berubah. Sebaliknya, menghapus pencilan ekstra akan memiliki pengaruh nol pada koefisien.
Jadi, titik outlier atau leverage akan memiliki pengaruh nol jika itu sangat konsisten dengan sisa data dan model yang tersirat.
Untuk "line" baca "plane" atau "hyperplane" jika diinginkan, tetapi contoh paling sederhana dari dua variabel dan plot pencar sudah cukup di sini.
Namun, karena Anda menyukai definisi - sering, tampaknya, cenderung membaca terlalu banyak ke dalamnya - inilah definisi favorit saya tentang outlier:
"Pencilan adalah nilai sampel yang menyebabkan kejutan dalam kaitannya dengan sebagian besar sampel" (WN Venables dan BD Ripley. 2002. Statistik terapan modern dengan S. New York: Springer, hal.119).
Yang terpenting, kejutan ada di benak orang yang melihatnya dan bergantung pada beberapa model data yang diam-diam atau eksplisit. Mungkin ada model lain di mana outlier tidak mengejutkan sama sekali, katakanlah jika data benar-benar lognormal atau gamma daripada normal.
PS Saya tidak berpikir bahwa poin leverage harus kurang pengamatan tetangga. Sebagai contoh, mereka dapat terjadi berpasangan.
sumber
Sangat mudah untuk menggambarkan bagaimana titik leverage yang tinggi mungkin tidak berpengaruh dalam kasus model linier sederhana:
Garis biru adalah garis regresi berdasarkan semua data, garis merah mengabaikan titik di kanan atas plot.
Poin ini sesuai dengan definisi titik leverage tinggi yang baru saja Anda berikan karena jauh dari data lainnya. Karena itu, garis regresi (yang biru) harus dilewati. Tetapi karena posisinya sebagian besar cocok dengan pola yang diamati pada sisa data, model lain akan memprediksinya dengan sangat baik (yaitu garis merah sudah melewati dekat dalam hal apapun) dan karena itu tidak terlalu berpengaruh.
Bandingkan ini dengan sebar berikut:
Di sini, titik di sebelah kanan plot masih merupakan titik leverage yang tinggi tetapi kali ini tidak benar-benar cocok dengan pola yang diamati pada sisa data. Garis biru (kesesuaian linier berdasarkan semua data) melewati sangat dekat tetapi garis merah tidak. Termasuk atau tidak termasuk satu titik ini mengubah estimasi parameter secara dramatis: Ini memiliki banyak pengaruh.
Perhatikan bahwa definisi yang Anda kutip dan contoh-contoh yang baru saja saya berikan mungkin menyiratkan bahwa leverage / poin berpengaruh tinggi, dalam beberapa hal, "outliers" univariat dan bahwa garis regresi yang pas akan melewati dekat dengan titik dengan pengaruh tertinggi tetapi perlu tidak demikian.
Dalam contoh terakhir ini, pengamatan di kanan bawah memiliki efek (relatif) besar pada kesesuaian model (terlihat lagi melalui perbedaan antara garis merah dan biru) tetapi tampaknya masih jauh dari garis regresi. sementara tidak terdeteksi dalam distribusi univariat (diwakili di sini oleh "permadani" di sepanjang sumbu).
sumber