Residu mentah versus residu terstandarisasi versus residu pelajar - apa yang harus digunakan kapan?

31

Ini terlihat seperti pertanyaan serupa dan tidak mendapat banyak tanggapan.

Menghilangkan tes seperti Cook's D, dan hanya melihat residu sebagai suatu kelompok, saya tertarik pada bagaimana orang lain menggunakan residu ketika menilai good-of-fit. Saya menggunakan residu mentah:

  1. dalam plot QQ, untuk menilai normalitas
  2. dalam sebaran versus residual, untuk pemeriksaan bola mata dari (a) hetereoscedasticity dan (b) autokorelasi serial.y

Untuk memplot versus residual untuk memeriksa nilai mana outlier dapat terjadi, saya lebih suka menggunakan residual yang telah di pelajarkan . Alasan untuk preferensi saya adalah bahwa ini memungkinkan penglihatan yang mudah dari residu mana yang nilai- bermasalah, meskipun residu terstandarisasi memberikan hasil yang sangat mirip. Teori saya tentang mana yang digunakan adalah bahwa itu tergantung pada universitas mana seseorang pergi.yyy

Apakah ini mirip dengan cara orang lain menggunakan residu? Apakah orang lain menggunakan jumlah grafik ini dalam kombinasi dengan statistik ringkasan?

Michelle
sumber
3
Residu yang dipelajarinya tidak diragukan lagi lebih baik dalam mendeteksi pencilan, dan, mungkin, sedikit lebih baik dalam pemeriksaan heteroskedastisitas. Untuk tujuan lain, tidak ada bedanya bagi saya residual apa yang digunakan.
ttnphns
Untuk memberi perhatian pada pertanyaan, Michelle, atau meminta perubahan dalam statusnya (seperti CW), silakan ikuti tautan "bendera" di bawah pertanyaan. Ini akan secara otomatis memberi tahu semua moderator. Menyertakan permintaan dalam pertanyaan, komentar, atau balasan adalah untung-untungan karena bergantung pada harapan moderator (atau pengguna bereputasi tinggi lainnya) akan benar-benar membacanya dalam waktu yang wajar!
whuber
@whuber Ah, lihat saya pikir salah satu dari Anda akan membacanya pada akhirnya. :) Terima kasih atas tipnya menggunakan bendera.
Michelle
1
Hai @ttnphns Mengapa mereka lebih baik? Secara khusus, mengapa siswa akan lebih baik daripada standar? (Saya tidak pernah benar-benar tahu jawabannya di sini)
Peter Flom - Reinstate Monica
4
@ Peter, residual yang di-studentized kurang "terdistorsi" oleh OLS fitting algo dan lebih dekat dengan gagasan teoritis "kesalahan" . Mereka dapat secara langsung dibandingkan di berbagai wilayah garis fit, dari situ lebih baik dalam keputusan jika suatu titik adalah outlier.
ttnphns

Jawaban:

8

Ini bukan jawaban yang terlalu banyak sebagai klarifikasi tentang terminologi. Pertanyaan Anda bertanya tentang residu mentah, terstandar, dan terpelajar. Namun, ini bukan terminologi yang digunakan oleh sebagian besar ahli statistik, meskipun saya perhatikan catatan kelas Anda menyatakan itu.

Raw: sama seperti yang Anda miliki.

Terstandar: ini sebenarnya residu mentah dibagi dengan standar deviasi residu yang sebenarnya. Karena standar deviasi yang sebenarnya jarang diketahui, residu standar hampir tidak pernah digunakan.

Internalally Studentized: karena deviasi standar sebenarnya dari residu biasanya tidak diketahui, estimasi deviasi standar digunakan sebagai gantinya. Ini adalah residual antar siswa, dan inilah yang Anda sebut standar.

Studentized Eksternal: sama dengan residual mahasiswa internal, kecuali bahwa perkiraan standar deviasi residu dihitung dari regresi meninggalkan pengamatan yang bersangkutan.

Pearson: residu mentah dibagi dengan standar deviasi dari variabel respon (variabel y) daripada residual. Anda tidak memiliki yang ini terdaftar.

"tinggalkan satu": Tidak memiliki nama resmi, tetapi sama dengan catatan kelas.

standarisasi "tinggalkan satu": juga tidak memiliki nama resmi, tetapi ini bukan apa yang disebut catatan kelas siswa.

Sumber:

  1. tautan wiki yang sama dengan yang Anda miliki tentang residu pelajar ("residu pelajar adalah hasil bagi dari pembagian residu dengan perkiraan standar deviasi")

  2. dokumentasi untuk perhitungan residu dalam SAS

Michael Cooney
sumber
2
+1 Tentu saja beberapa ahli statistik telah menggunakan istilah-istilah dalam pertanyaan OP (dan tidak selalu konsisten dengan orang lain menggunakan kata-kata yang sama). Saya pikir istilah yang Anda gunakan menjadi lebih umum tetapi saya tidak yakin atas dasar apa kita dapat menebak penggunaannya yang relatif mendunia di antara para ahli statistik - makalah, misalnya, tidak selalu membantu karena rata-rata ahli statistik tidak akan aktif penerbitan. Anda mungkin benar - tetapi bagaimana kita tahu? [Jika Anda mengedit lagi, Anda mungkin ingin mengganti "standar" di dekat bagian akhir dengan "standar".]
Glen_b -Reinstate Monica
2

Re: plot,

Ada yang namanya overfitting, tetapi overplotting tidak bisa berbuat banyak, terutama pada tahap diagnosa. Plot probabilitas normal standar tidak ada salahnya di sebelah plot QQ Anda. Saya merasa lebih baik menilai bagian tengah distribusi.

Re: residu,

Saya menjalankan residual terstandarisasi dan mahasiswa pada tahap konsep dan biasanya berakhir dengan pengkodean yang terstandarisasi. Saya tidak tahu apa yang sebenarnya dijalankan orang lain, karena diagnostik benar-benar dikodekan dalam materi replikasi yang saya temukan online.

Re: diagnostik,

vifhettestR2

Fr.
sumber