Interval kepercayaan dan prediksi model regresi linier

9

Oke, jadi saya mencoba memahami regresi linier. Saya punya satu set data dan kelihatannya baik-baik saja, tetapi saya bingung. Ini adalah ringkasan model linier saya:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

jadi, nilai-p sangat rendah, yang artinya sangat tidak mungkin untuk mendapatkan korelasi antara x, y hanya secara kebetulan. Jika saya memplotnya dan kemudian menggambar garis regresi terlihat seperti ini: http://s14.directupload.net/images/120923/l83eellv.png (Sudah seperti gambar tapi saya - sebagai pengguna baru - saat ini tidak diperbolehkan mempostingnya) Garis biru = interval kepercayaan Garis hijau = interval prediksi

Sekarang, banyak poin tidak jatuh ke dalam interval kepercayaan, mengapa itu terjadi? Saya pikir tidak ada titik data jatuh pada garis regresi b / c mereka hanya cukup jauh satu sama lain, tetapi apa yang saya tidak yakin: Apakah ini masalah nyata? Mereka masih berada di sekitar garis regresi dan Anda benar-benar dapat melihat polanya. Tetapi apakah itu cukup? Saya mencoba mencari tahu, tapi saya terus bertanya pada diri sendiri pertanyaan yang sama berulang-ulang.

Apa yang saya pikirkan sejauh ini: Interval kepercayaan mengatakan bahwa jika Anda menghitung CI berulang-ulang, dalam 95% kali mean sebenarnya jatuh ke CI. Jadi: Ini bukan masalah bahwa dp tidak jatuh ke dalamnya, karena ini bukan sarana sebenarnya. Interval prediksi di sisi lain mengatakan, bahwa jika Anda menghitung PI berulang-ulang, dalam 95% kali VALUE sejati jatuh ke dalam interval. Jadi, sangat penting untuk memiliki poin di dalamnya (yang saya miliki). Maka saya sudah membaca PI selalu harus memiliki jangkauan yang lebih luas daripada CI. Mengapa demikian? Inilah yang telah saya lakukan:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

dan kemudian saya merencanakannya dengan:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

Sekarang, jika saya menghitung CI dan PI untuk data tambahan, tidak masalah seberapa lebar saya memilih rentang, saya mendapatkan garis yang sama persis seperti di atas. Saya tidak bisa mengerti. Apa artinya? Ini akan menjadi:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

untuk x baru saya memilih urutan yang berbeda. Jika urutan memiliki # pengamatan yang berbeda dari variabel dalam regresi saya, saya mendapat peringatan. Kenapa bisa begitu?

lisa
sumber

Jawaban:

3

Saya mengerti beberapa pertanyaan Anda tetapi yang lain tidak jelas. Biarkan saya menjawab dan menyatakan beberapa fakta dan mungkin itu akan menjernihkan semua kebingungan Anda.

Kecocokan yang Anda miliki sangat baik. Interval kepercayaan harus sangat ketat. Ada dua jenis wilayah kepercayaan yang dapat dipertimbangkan, wilayah bsimultanoues yang dimaksudkan untuk mencakup seluruh fungsi regresi yang benar dengan tingkat kepercayaan yang diberikan.

Yang lain yang Anda lihat adalah interval kepercayaan untuk poin regresi yang sesuai. Mereka hanya dimaksudkan untuk mencakup nilai pas y pada nilai yang diberikan kovariat. Mereka tidak dimaksudkan untuk mencakup nilai y pada nilai lain dari kovariat. Sebenarnya, jika intervalnya sangat ketat seperti seharusnya dalam kasus Anda, mereka tidak akan mencakup banyak jika salah satu dari poin data saat Anda menjauh dari nilai tetap dari kovariat (s). Untuk jenis cakupan itu, Anda perlu mendapatkan kurva kepercayaan simultan (kurva batas atas dan bawah).

Sekarang benar bahwa jika Anda memprediksikan ay pada nilai kovariat tertentu dan Anda menginginkan tingkat kepercayaan yang sama untuk interval prediksi seperti yang Anda gunakan untuk interval kepercayaan y pada nilai kovariat yang diberikan, intervalnya akan lebih lebar. Alasannya adalah bahwa model memberi tahu Anda bahwa akan ada variasi ditambahkan karena y baru akan memiliki kesalahan independen sendiri yang harus diperhitungkan dalam interval. Komponen kesalahan itu tidak masuk ke dalam perkiraan berdasarkan data yang digunakan dalam fit.

Michael R. Chernick
sumber
Maaf, saya masih belum mengerti. Anda menjelaskan 2 jenis interval kepercayaan, tetapi yang mana yang Anda maksud ketika Anda mengatakan "yang saya lihat"? b / c Saya telah merencanakan baik prediksi dan interval kepercayaan, dan saya memiliki masalah dalam memahami perbedaannya. Juga, saya menambahkan beberapa perintah-R ke pos prev saya untuk mengklarifikasi apa yang telah saya lakukan
lisa
Kurva tidak memperjelas apakah pita kepercayaan diperoleh atau tidak dengan membangun kurva kepercayaan simultan atau hanya membuat koneksi yang mulus dari interval kepercayaan individu. Jika simultan, Anda tidak akan melihat begitu banyak titik yang pas di luar kurva. Tetapi seperti yang saya tunjukkan itu bisa terjadi dengan interval individual. Saya belum melihat hasil edit yang menyertakan kode R.
Michael R. Chernick
Saya tidak tahu R cukup baik untuk menjawab pertanyaan spesifik R. Apa yang saya tidak tahu bahwa seorang ahli R dapat memberi tahu Anda apakah kurva kepercayaan dan kurva prediksi menghubungkan interval kepercayaan individu atau menghasilkan kurva simultan. Juga apakah kode Anda melakukan apa yang ingin Anda lakukan?
Michael R. Chernick