Apa keuntungan yang ditawarkan oleh "residual pelajar secara internal" dibandingkan residual mentah yang diperkirakan dalam hal mendiagnosis titik data potensial yang berpengaruh?

10

Alasan saya menanyakan hal ini adalah karena tampaknya residual yang dipelajarinya secara internal tampaknya memiliki pola yang sama dengan residual yang diperkirakan mentah. Akan lebih bagus jika seseorang bisa memberikan penjelasan.

Scortchi - Reinstate Monica
sumber

Jawaban:

13

Asumsikan model regresi dengan matriks desain ( kolom diikuti oleh prediktor Anda), prediksi (di mana adalah "hat-matrix"), dan residu . Model regresi mengasumsikan bahwa kesalahan sebenarnya semua memiliki varian yang sama (homoskedastisitas):y=Xβ+ϵX1y^=X(XX)1Xy=HyHe=yy^ϵ

homoskedastisitas

Matriks kovarians residual adalah . Ini berarti bahwa residual mentah memiliki varian berbeda - diagonal dari matriks . Elemen diagonal adalah nilai-nilai .V(e)=σ2(IH)eiσ2(1hii)σ2(IH)Hhii

Dengan demikian residu yang benar-benar terstandarisasi dengan varians 1 adalah . Masalahnya adalah bahwa varians kesalahan tidak diketahui, dan residual yang dididik secara internal / eksternal dihasilkan dari pilihan tertentu untuk perkiraan .e/(σ1hii)σ e/(σ^1hii)σ^

Karena residu mentah diharapkan bersifat heteroskedastik bahkan jika homoskedastik, residu mentah secara teoritis kurang cocok untuk mendiagnosis masalah dengan asumsi homoskedastisitas dibandingkan residual terstandarisasi atau pelajar.ϵ

caracal
sumber
Perbedaan definisi antara dua jenis residual yang berbeda (dan juga residual yang dididik secara eksternal) jelas bagi saya. Dalam praktiknya, bagaimanapun, saya tidak berpikir saya telah menemukan kasus (setidaknya dengan data saya sendiri) di mana residual mahasiswa secara internal memiliki pola yang berbeda dibandingkan dengan perkiraan residu. Di sisi lain, residu yang dipelajar secara eksternal berpotensi menunjukkan pola yang berbeda dari residu yang diperkirakan. * Saya tidak mengatakan bahwa kedua jenis residu adalah sama. Saya mengacu pada pola umum mereka.
@AlexH. Saya setuju bahwa keuntungan lain yang saya tambahkan adalah teoretis . Membangun situasi empiris yang disimulasikan di mana residu mentah menyesatkan, dan residu pelajar memberikan gambaran yang lebih akurat tentang distribusi bersyarat akan menjadi tambahan yang baik.
caracal
12

Jenis data apa yang Anda gunakan pada plot pengujian Anda? Ketika semua asumsi bertahan (atau mendekati) maka saya tidak akan berharap banyak perbedaan antara residu mentah dan mahasiswa, keuntungan utama adalah ketika ada poin yang sangat berpengaruh. Pertimbangkan data (simulasi) ini yang memiliki tren linier positif dan pencilan yang sangat berpengaruh:

masukkan deskripsi gambar di sini

Berikut adalah plot dari nilai yang dipasang vs residu mentah:

masukkan deskripsi gambar di sini

Perhatikan bahwa nilai residu dari titik pengaruh kita lebih dekat ke 0 daripada residu minimum dan maksimum dari sisa titik (tidak dalam 3 residu baku paling ekstrim).

Sekarang di sini adalah plot dengan residu terstandarisasi (internalisasi mahasiswa):

masukkan deskripsi gambar di sini

Dalam plot ini residu terstandarisasi menonjol karena pengaruhnya telah diperhitungkan.

Dalam contoh sederhana ini mudah untuk melihat apa yang terjadi, tetapi bagaimana jika kita memiliki lebih dari 1 variabel dan titik yang sangat berpengaruh, tetapi tidak biasa dalam plot 2 dimensi? Tidak akan terlihat jelas dari plot residu mentah, tetapi residu yang dipelajarinya akan menunjukkan bahwa residu lebih ekstrem.x

Greg Snow
sumber