Apakah "residu pelajar" dan "residu standar" sama dalam model regresi? Saya membangun model regresi linier dalam R dan ingin memplot grafik nilai residu Studentized v / s, tetapi tidak menemukan cara otomatis untuk melakukan ini di R.
Misalkan saya punya model
library(MASS)
lm.fit <- lm(Boston$medv~(Boston$lstat))
kemudian menggunakan plot(lm.fit)
tidak memberikan plot apa pun dari residu yang Studentized vs nilai-nilai pas tetapi belum menyediakan plot dari residu terstandarisasi vs nilai-nilai yang dipasang.
Saya menggunakan plot(lm.fit$fitted.values,studres(lm.fit)
dan itu akan memplot grafik yang diinginkan. Jadi hanya ingin mengkonfirmasi bahwa saya akan jalan yang benar dan residual Studentized dan Standardized bukan hal yang sama. Jika mereka berbeda maka berikan beberapa panduan untuk menghitungnya dan definisinya. Saya mencari melalui internet dan menemukan itu agak membingungkan.
sumber
R
terminologi ini berlawanan dengan Montgomery, Peck dan Vining (buku teks regresi populer yang telah ada selama 35 tahun). Jadi berhati-hatilah, dan pastikan Anda mempelajariR
dokumentasi dan jika perlu kode sumbernya daripada mengandalkan apa yang Anda pikirkan arti terminologi itu.Jawaban:
Tidak, residual pelajar dan residual standar adalah konsep yang berbeda (tetapi terkait).
R sebenarnya menyediakan fungsi bawaan
rstandard()
danrstudent()
sebagai bagian dari pengaruh . Paket bawaan yang sama menyediakan banyak fungsi serupa untuk pengungkitan, jarak Cook, dll. Padarstudent()
dasarnya sama denganMASS::studres()
, yang dapat Anda periksa sendiri seperti:Residu terstandarisasi adalah cara memperkirakan kesalahan untuk suatu titik data tertentu yang memperhitungkan pengaruh / pengaruh dari titik tersebut. Ini kadang-kadang disebut "residual pelajar secara internal."
Residual yang telah di pelajarisasi untuk setiap titik data tertentu dihitung dari model yang cocok untuk setiap titik data lainnya kecuali yang dimaksud. Ini berbagai disebut "residual mahasiswa eksternal", "residu dihapus," atau "residu jackknifed".
Motivasi di balik residu siswa berasal dari penggunaannya dalam pengujian outlier. Jika kami menduga suatu titik adalah outlier, maka itu tidak dihasilkan dari model yang diasumsikan, menurut definisi. Oleh karena itu akan menjadi kesalahan - pelanggaran asumsi - untuk memasukkan pencilan itu ke dalam model. Residual yang telah di-pelajarisasi banyak digunakan dalam deteksi outlier praktis.
Residual siswa juga memiliki properti yang diinginkan bahwa untuk setiap titik data, distribusi residu akan t-distribusi Student, dengan asumsi asumsi normalitas model regresi asli terpenuhi. (Residu terstandarisasi tidak memiliki distribusi yang bagus.)
Terakhir, untuk mengatasi masalah apa pun bahwa perpustakaan R mungkin mengikuti nomenklatur yang berbeda dari di atas, dokumentasi R secara eksplisit menyatakan bahwa mereka menggunakan "standar" dan "dipelajarisasi" dalam arti yang persis sama seperti yang dijelaskan di atas.
sumber