Saya sedang bereksperimen dengan hubungan antara kesalahan dan residu menggunakan beberapa simulasi sederhana dalam R. Satu hal yang saya temukan adalah bahwa, terlepas dari ukuran sampel atau varians kesalahan, saya selalu mendapatkan tepat untuk lereng ketika Anda cocok dengan model
Berikut simulasi yang saya lakukan:
n <- 10
s <- 2.7
x <- rnorm(n)
e <- rnorm(n,sd=s)
y <- 0.3 + 1.2*x + e
model <- lm(y ~ x)
r <- model$res
summary( lm(e ~ r) )
e
dan r
berkorelasi sangat (tetapi tidak sempurna), bahkan untuk sampel kecil, tapi saya tidak tahu mengapa ini terjadi secara otomatis. Penjelasan matematis atau geometris akan dihargai.
regression
least-squares
residuals
GoF_Logistic
sumber
sumber
lm(y~r)
,lm(e~r)
, danlm(r~r)
, yang karena itu semua harus sama. Yang terakhir jelas adalah . Coba ketiga perintah ini untuk melihat. Untuk membuat yang terakhir berfungsi di Anda harus membuat salinan , seperti . Untuk selengkapnya tentang diagram geometri regresi, lihat stats.stackexchange.com/a/113207 .R
r
s<-r;lm(r~s)
Jawaban:
jawaban whuber sangat bagus! (+1) Saya mengatasi masalah menggunakan notasi yang paling akrab bagi saya dan menganggap derivasi (kurang menarik, lebih rutin) mungkin bermanfaat untuk dimasukkan di sini.
Biarkan menjadi model regresi, untuk X ∈ R n × p dan ϵ noise. Kemudian regresi y terhadap kolom X memiliki persamaan normal X T ( y - X β ) = 0 , menghasilkan estimasi β = ( X T X ) - 1 X T y .y= Xβ∗+ ϵ X∈ Rn × p ϵ y X XT( y- Xβ^) =0,
Kemunduran pada r hasil dalam perkiraan kemiringan yang diberikan oleh ( r T r ) - 1 r T εϵ r
karenaI-Hsimetris dan idempoten danϵ∉im(X)hampir pasti.
Lebih lanjut, argumen ini juga berlaku jika kita memasukkan intersep ketika kita melakukan regresi kesalahan pada residu jika intersep dimasukkan dalam regresi asli, karena kovariat bersifat ortogonal (yaitu , dari persamaan normal) .1Tr = 0
sumber
sumber