Merupakan residual pelajar v / s residual terstandarisasi dalam model lm

10

Apakah "residu pelajar" dan "residu standar" sama dalam model regresi? Saya membangun model regresi linier dalam R dan ingin memplot grafik nilai residu Studentized v / s, tetapi tidak menemukan cara otomatis untuk melakukan ini di R.

Misalkan saya punya model

library(MASS)

lm.fit <- lm(Boston$medv~(Boston$lstat))

kemudian menggunakan plot(lm.fit)tidak memberikan plot apa pun dari residu yang Studentized vs nilai-nilai pas tetapi belum menyediakan plot dari residu terstandarisasi vs nilai-nilai yang dipasang.

Saya menggunakan plot(lm.fit$fitted.values,studres(lm.fit)dan itu akan memplot grafik yang diinginkan. Jadi hanya ingin mengkonfirmasi bahwa saya akan jalan yang benar dan residual Studentized dan Standardized bukan hal yang sama. Jika mereka berbeda maka berikan beberapa panduan untuk menghitungnya dan definisinya. Saya mencari melalui internet dan menemukan itu agak membingungkan.

pelajar
sumber
2
1 Hal ini membingungkan karena (a) memang jenis residual berbeda tetapi (b) otoritas yang berbeda tidak setuju pada apa untuk memanggil mereka! Misalnya, Rterminologi ini berlawanan dengan Montgomery, Peck dan Vining (buku teks regresi populer yang telah ada selama 35 tahun). Jadi berhati-hatilah, dan pastikan Anda mempelajari Rdokumentasi dan jika perlu kode sumbernya daripada mengandalkan apa yang Anda pikirkan arti terminologi itu.
whuber

Jawaban:

11

Tidak, residual pelajar dan residual standar adalah konsep yang berbeda (tetapi terkait).

R sebenarnya menyediakan fungsi bawaan rstandard()dan rstudent()sebagai bagian dari pengaruh . Paket bawaan yang sama menyediakan banyak fungsi serupa untuk pengungkitan, jarak Cook, dll. Pada rstudent()dasarnya sama dengan MASS::studres(), yang dapat Anda periksa sendiri seperti:

> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE

Residu terstandarisasi adalah cara memperkirakan kesalahan untuk suatu titik data tertentu yang memperhitungkan pengaruh / pengaruh dari titik tersebut. Ini kadang-kadang disebut "residual pelajar secara internal."

ri=eis(ei)=eiMSE(1hii)

ϵiN(0,σ2)ei

Residual yang telah di pelajarisasi untuk setiap titik data tertentu dihitung dari model yang cocok untuk setiap titik data lainnya kecuali yang dimaksud. Ini berbagai disebut "residual mahasiswa eksternal", "residu dihapus," atau "residu jackknifed".

riti

ti=ri(nk2nk1ri2)1/2,

Motivasi di balik residu siswa berasal dari penggunaannya dalam pengujian outlier. Jika kami menduga suatu titik adalah outlier, maka itu tidak dihasilkan dari model yang diasumsikan, menurut definisi. Oleh karena itu akan menjadi kesalahan - pelanggaran asumsi - untuk memasukkan pencilan itu ke dalam model. Residual yang telah di-pelajarisasi banyak digunakan dalam deteksi outlier praktis.

Residual siswa juga memiliki properti yang diinginkan bahwa untuk setiap titik data, distribusi residu akan t-distribusi Student, dengan asumsi asumsi normalitas model regresi asli terpenuhi. (Residu terstandarisasi tidak memiliki distribusi yang bagus.)

Terakhir, untuk mengatasi masalah apa pun bahwa perpustakaan R mungkin mengikuti nomenklatur yang berbeda dari di atas, dokumentasi R secara eksplisit menyatakan bahwa mereka menggunakan "standar" dan "dipelajarisasi" dalam arti yang persis sama seperti yang dijelaskan di atas.

Berfungsi rstandarddan rstudentmemberikan residu yang terstandarisasi dan yang telah dipelajari masing-masing. (Ini menormalkan kembali residual untuk memiliki varians unit, menggunakan ukuran varians kesalahan keseluruhan dan biarkan-keluar-satu ).

olooney
sumber