Oke, jadi saya mencoba memahami regresi linier. Saya punya satu set data dan kelihatannya baik-baik saja, tetapi saya bingung. Ini adalah ringkasan model linier saya:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
jadi, nilai-p sangat rendah, yang artinya sangat tidak mungkin untuk mendapatkan korelasi antara x, y hanya secara kebetulan. Jika saya memplotnya dan kemudian menggambar garis regresi terlihat seperti ini: http://s14.directupload.net/images/120923/l83eellv.png (Sudah seperti gambar tapi saya - sebagai pengguna baru - saat ini tidak diperbolehkan mempostingnya) Garis biru = interval kepercayaan Garis hijau = interval prediksi
Sekarang, banyak poin tidak jatuh ke dalam interval kepercayaan, mengapa itu terjadi? Saya pikir tidak ada titik data jatuh pada garis regresi b / c mereka hanya cukup jauh satu sama lain, tetapi apa yang saya tidak yakin: Apakah ini masalah nyata? Mereka masih berada di sekitar garis regresi dan Anda benar-benar dapat melihat polanya. Tetapi apakah itu cukup? Saya mencoba mencari tahu, tapi saya terus bertanya pada diri sendiri pertanyaan yang sama berulang-ulang.
Apa yang saya pikirkan sejauh ini: Interval kepercayaan mengatakan bahwa jika Anda menghitung CI berulang-ulang, dalam 95% kali mean sebenarnya jatuh ke CI. Jadi: Ini bukan masalah bahwa dp tidak jatuh ke dalamnya, karena ini bukan sarana sebenarnya. Interval prediksi di sisi lain mengatakan, bahwa jika Anda menghitung PI berulang-ulang, dalam 95% kali VALUE sejati jatuh ke dalam interval. Jadi, sangat penting untuk memiliki poin di dalamnya (yang saya miliki). Maka saya sudah membaca PI selalu harus memiliki jangkauan yang lebih luas daripada CI. Mengapa demikian? Inilah yang telah saya lakukan:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
dan kemudian saya merencanakannya dengan:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
Sekarang, jika saya menghitung CI dan PI untuk data tambahan, tidak masalah seberapa lebar saya memilih rentang, saya mendapatkan garis yang sama persis seperti di atas. Saya tidak bisa mengerti. Apa artinya? Ini akan menjadi:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
untuk x baru saya memilih urutan yang berbeda. Jika urutan memiliki # pengamatan yang berbeda dari variabel dalam regresi saya, saya mendapat peringatan. Kenapa bisa begitu?
sumber