Memahami bentuk dan perhitungan pita kepercayaan dalam regresi linier

33

Saya mencoba memahami asal-usul bentuk pita kepercayaan melengkung yang terkait dengan regresi linier OLS dan bagaimana hubungannya dengan interval kepercayaan parameter regresi (kemiringan dan intersep), misalnya (menggunakan R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

masukkan deskripsi gambar di sini

Tampak bahwa pita terkait dengan batas garis yang dihitung dengan intersep 2,5%, dan kemiringan 97,5%, serta dengan intersep 97,5%, dan kemiringan 2,5% (meskipun tidak cukup):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

masukkan deskripsi gambar di sini

Yang tidak saya mengerti adalah dua hal:

  1. Bagaimana dengan kombinasi kemiringan 2.5% & 2.5% intersep serta kemiringan 97.5% dan 97.5% intersep? Ini memberikan garis yang jelas di luar band yang diplot di atas. Mungkin saya tidak mengerti arti dari interval kepercayaan, tetapi jika dalam 95% kasus perkiraan saya berada dalam interval kepercayaan, ini sepertinya hasil yang mungkin?
  2. Apa yang menentukan jarak minimum antara batas atas dan bawah (yaitu dekat dengan titik di mana dua garis yang ditambahkan di atas memotong)?

Saya kira kedua pertanyaan muncul karena saya tidak tahu / mengerti bagaimana sebenarnya band-band ini dihitung.

Bagaimana saya bisa menghitung batas atas dan bawah menggunakan interval kepercayaan dari parameter regresi (tanpa bergantung pada predict () atau fungsi serupa, yaitu dengan tangan)? Saya mencoba menguraikan fungsi predict.lm di R, tetapi pengodeannya berada di luar jangkauan saya. Saya akan menghargai petunjuk apa pun terhadap literatur atau penjelasan yang relevan yang cocok untuk pemula yang statistik.

Terima kasih.

David
sumber
4
Anda memiliki dua jawaban bagus di bawah ini. Jika Anda menginginkan informasi lebih lanjut, ini dapat membantu Anda membaca jawaban saya di sini: Interval prediksi regresi linier , yang berkaitan dengan interval prediksi, tetapi idenya sangat mirip.
gung - Reinstate Monica
2
Ada penjelasan intuitif terperinci yang diberikan dalam posting ini: Bentuk interval kepercayaan untuk nilai prediksi dalam regresi linier
Glen_b -Reinstate Monica
TA untuk jawaban yang bermanfaat dan tautan yang sangat bagus.
David

Jawaban:

19

XsY^X

sY^X=sY|X1n+(XX¯)2i=1n(XiX¯)2

sY|X

sY|X=i=1n(YiY^)2n2

Y^±tν=n2,α/2sY^

YX

β^α^

Alexis
sumber
1
Apakah ada buku teks yang menjelaskan dari mana formula ini berasal?
Michael Goerz
1
@MichaelGoerz Setiap statistik pengantar, biostatistik, ekonometrik, dll. Buku teks yang mencakup regresi linear kuadrat terkecil seharusnya.
Alexis
Saya memiliki Wasserman - Semua Statistik, James et al - Pengantar Pembelajaran Statistik, dan Hastie et al. - Elemen Pembelajaran Statistik. Saya belum dapat menemukan persamaan untuk pita kepercayaan regresi linier di antara mereka. Apakah Anda memiliki nomor bab / persamaan untuk semua ini, atau buku lain yang tersedia secara luas?
Michael Goerz
2
Tidak ada buku yang Anda sebutkan adalah jenis buku yang didiskusikan Alexis. Buku Fox tentang regresi Terapan memilikinya jika saya ingat dengan benar.
Glen_b -Reinstate Monica
1
@MichaelGoerz Seperti halnya Pagano, M. dan Gauvreau, K. (2000). Prinsip-prinsip Biostatistik . Duxbury Press, Pacific Grove, CA, edisi ke-2 dan Glantz, SA (2011). primer dari biostatistik . McGraw-Hill Medical, New York, NY, edisi ke-7 meskipun mereka bukan teks khusus regresi.
Alexis
16

Pertanyaan yang bagus Sangat penting untuk memahami konsep-konsep ini dan mereka tidak langsung.

y¯y¯y¯

Ketika kami menggabungkan semua interval kepercayaan, untuk setiap kemungkinan x, itu memberi kami pita abu-abu yang Anda lihat di output.

Apa artinya ini secara fungsional adalah bahwa kami 95% yakin bahwa garis regresi sebenarnya terletak di suatu tempat di zona abu-abu itu.

Karena band kepercayaan dihitung menggunakan interval kepercayaan 95% untuk setiap poin individu, itu sangat erat terkait dengan 95% CI untuk intersep. Bahkan, pada x = 0 tepi zona abu-abu akan bertepatan persis dengan 95% CI untuk intersep, karena itulah cara kami membuat pita kepercayaan. Itu sebabnya garis yang Anda tambahkan di atas menyentuh tepi pita abu-abu ke kiri.

Namun, kemiringannya sedikit berbeda. Itu berkontribusi pada batas, seperti yang Anda lihat di atas, tetapi kemiringan dan intersep tidak dapat dipisahkan dalam regresi linier. Jadi, Anda tidak dapat benar-benar mengatakan "baik bagaimana jika intersep berada pada batas minimum kisaran CI dan kemiringan juga pada batas minimum?" Baris ini akan menghasilkan poin yang jauh di luar 95% CI kami untuk banyak x. Ini berarti bahwa kami 95% percaya diri yang bukan garis regresi kami yang sebenarnya.

x¯sy^x(xx¯)x=x¯

Ada powerpoint yang layak di sini yang dapat membantu Anda memvisualisasikan beberapa hal ini: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf

Duncan
sumber
2
Saya pikir saya memperbaikinya - mengganti yats dengan ybars. Apakah itu lebih benar? Saya selalu mengacaukan yhat.
Duncan
Ta. Satu hal yang masih belum jelas bagi saya adalah bagaimana membuat dua pernyataan berikut ini konsisten: "Apa artinya ini secara fungsional adalah bahwa kami 95% yakin bahwa garis regresi sebenarnya terletak di suatu tempat di zona abu-abu itu." vs "[...] interval kepercayaan tentang intersep dan kemiringan adalah jumlah lain." Jika pernyataan pertama benar, harus ada beberapa hubungan (matematis?) Antara CI intersep dan slope dan pita yang diplotkan di atas? Saya kira ini berkaitan dengan bagian dari pertanyaan saya: Bagaimana saya bisa menghitung (jika mungkin) band di atas menggunakan CI dari slope dan intersep?
David
1
Anda tidak dapat menghitung band menggunakan hanya CI slop dan intersep karena band dihasilkan dengan menghitung CI di setiap x. Seiring semakin ketatnya band Anda semakin dekatx¯mereka akan menyimpang dari garis yang menghasilkan nilai ekstrem CI untuk kemiringan dan intersep.
Duncan
Posting yang mudah dimengerti dan tautan yang bagus! +1
theforestecologist