Interval prediksi regresi linier

24

Jika perkiraan linier terbaik (menggunakan kuadrat terkecil) dari titik data saya adalah garis , bagaimana saya bisa menghitung kesalahan aproksimasi? Jika saya menghitung standar deviasi perbedaan antara pengamatan dan prediksi e i = r e a l ( x i ) - ( m x i + b ) , dapatkah saya nanti mengatakan bahwa nilai riil (tetapi tidak diamati) nilai y r = r e a l ( x 0 ) termasuk dalam intervaly=mx+besaya=reSebuahl(xsaya)-(mxsaya+b)yr=reSebuahl(x0) ( y p = m x 0 + b ) dengan probabilitas ~ 68%, dengan asumsi distribusi normal?[yhal-σ,yhal+σ]yhal=mx0+b

Untuk memperjelas:

Saya membuat pengamatan tentang fungsi dengan mengevaluasi beberapa poin x i . Saya mencocokkan pengamatan ini dengan garis l ( x ) = m x + b . Untuk x 0 yang tidak saya amati, saya ingin tahu seberapa besar f ( x 0 ) - l ( x 0 ) . Menggunakan metode di atas, apakah benar mengatakan bahwa f ( x 0 ) [ l ( x 0f(x)xsayal(x)=mx+bx0f(x0)l(x0) dengan prob. ~ 68%?f(x0)[l(x0)σ,l(x0)+σ]

bmx
sumber
1
Saya pikir Anda bertanya tentang interval prediksi. Namun, perhatikan bahwa Anda menggunakan " ", bukan " y i ". Apakah ini salah cetak? Kami tidak memprediksi x s. xiyix
gung - Reinstate Monica
@ungung: Saya menggunakan untuk menunjukkan misalnya waktu, dan y nilai beberapa variabel pada waktu itu, jadi y = f ( x ) berarti saya membuat pengamatan y pada waktu x . Saya ingin tahu seberapa jauh prediksi fungsi fitting dapat dari nilai riil y. Apakah itu masuk akal? Fungsi r e a l ( x i ) mengembalikan nilai "benar" dari y pada x i , dan titik data saya terdiri dari ( x i , r e a lxyy=f(x)yxreal(xi)yxi . (xi,real(xi))
bmx
1
Tampaknya masuk akal. Bagian yang saya fokuskan adalah, misalnya, " ", biasanya kita memikirkan kesalahan / residu dalam model reg sebagai " e i = y i - ( m x i + b ) ". SD dari residual tidak memainkan peran dalam menghitung interval prediksi. Itu " x iesaya=reSebuahl(xsaya)-(mxsaya+b)esaya=ysaya-(mxsaya+b)xsaya"Itu aneh bagiku; aku ingin tahu apakah ini salah ketik, atau kau bertanya tentang sesuatu yang tidak kukenali.
gung - Bangkitkan kembali Monica
Saya rasa saya melihat; Saya melewatkan hasil edit Anda. Hal ini menunjukkan bahwa sistem ini sangat deterministik & jika Anda memiliki akses ke nyata fungsi yang mendasari, Anda selalu bisa memprediksi sempurna w / o error. Itu bukan cara kita berpikir tentang model reg. ysaya
gung - Reinstate Monica
4
bmx, Sepertinya saya memiliki gagasan yang jelas tentang pertanyaan Anda dan kesadaran yang baik tentang beberapa masalah. Anda mungkin tertarik untuk mengulas tiga utas yang terkait erat. stats.stackexchange.com/questions/17773 menjelaskan interval prediksi dalam istilah nonteknis; stats.stackexchange.com/questions/26702 memberikan deskripsi yang lebih matematis; dan di stats.stackexchange.com/questions/9131 , Rob Hyndman memberikan formula yang Anda cari. Jika ini tidak sepenuhnya menjawab pertanyaan Anda, setidaknya mereka dapat memberi Anda notasi standar dan kosa kata untuk menjelaskannya.
Whuber

Jawaban:

30

@whuber telah mengarahkan Anda ke tiga jawaban yang bagus, tapi mungkin saya masih bisa menulis sesuatu yang bernilai. Pertanyaan eksplisit Anda, seperti yang saya pahami, adalah:

Mengingat model pas y^saya=m^xsaya+b^ (pemberitahuan saya menambahkan 'topi') , dan asumsi residual saya biasanya didistribusikan, , saya bisa memprediksi bahwa belum respon tidak teramati, y n e w , dengan diketahui nilai prediksi, x n e w , akan jatuh dalam interval ( y - σ e , y + σN(0,σ^e2)ynewxnew , dengan probabilitas 68%?(y^-σe,y^+σe)

Secara intuitif, jawabannya sepertinya harus 'ya', tetapi jawaban yang sebenarnya mungkin . Ini akan menjadi kasus ketika parameter (yaitu, & σ ) diketahui dan tanpa kesalahan. Karena Anda memperkirakan parameter ini, kami harus memperhitungkan ketidakpastiannya. m,b,σ

Pertama-tama mari kita pikirkan tentang standar deviasi residu Anda. Karena ini diperkirakan dari data Anda, mungkin ada beberapa kesalahan dalam estimasi. Akibatnya, distribusi harus Anda gunakan untuk membentuk interval prediksi Anda harus , tidak normal. Namun, karena t konvergen dengan cepat ke normal, ini cenderung menjadi masalah dalam praktik. tkesalahan dft

Jadi, bisa kita hanya menggunakan y baru ± t ( 1 - α / 2 , error df ) s , bukan y baru ± z ( 1 - α / 2 ) s , dan pergi jalan gembira kami? Sayangnya tidak ada. Masalah yang lebih besar adalah bahwa ada ketidakpastian tentang perkiraan Anda dari mean bersyarat dari respon di lokasi itu karena ketidakpastian dalam perkiraan Anda m & b . Demikian,y^baru±t(1-α/2, kesalahan df)sy^baru±z(1-α/2)sm^b^standar deviasi dari prediksi Anda perlu untuk menggabungkan lebih dari sekedar skesalahan . Karena varians menambahkan , perkiraan varians dari prediksi akan menjadi: Perhatikan bahwa " x " adalah subscript untuk mewakili nilai tertentu untuk baru pengamatan, dan bahwa " s 2 " adalah sesuai subscript. Artinya, interval prediksi Anda bergantung pada lokasi pengamatan baru di sepanjang x

sprediksi (baru)2=skesalahan2+Var(m^xbaru+b^)
xs2xsumbu. Deviasi standar prediksi Anda dapat lebih mudah diperkirakan dengan rumus berikut: Sebagai catatan samping yang menarik, kita dapat menyimpulkan beberapa fakta tentang interval prediksi dari persamaan ini. Pertama, interval prediksi akan sempit semakin banyak data yang kita miliki ketika kita membangun model prediksi (ini karena ada kurang ketidakpastian dalamm&b). Kedua, prediksi akan paling tepat jika dibuat dengan nilai rata-ratax yangAnda gunakan untuk mengembangkan model Anda, karena pembilang untuk suku ketiga adalah0. Alasannya adalah bahwa dalam keadaan normal, tidak ada ketidakpastian tentang perkiraan kemiringan pada rata-ratax
sprediksi (baru)=skesalahan2(1+1N+(xbaru-x¯)2(xsaya-x¯)2)
m^b^x0x, hanya beberapa ketidakpastian tentang posisi vertikal sebenarnya dari garis regresi. Dengan demikian, beberapa pelajaran yang bisa dipetik untuk membangun model prediksi adalah: bahwa lebih banyak data bermanfaat, bukan dengan menemukan 'signifikansi', tetapi dengan meningkatkan ketepatan prediksi masa depan; dan bahwa Anda harus memusatkan upaya pengumpulan data Anda pada interval di mana Anda perlu membuat prediksi di masa mendatang (untuk meminimalkan pembilang itu), tetapi sebarkan pengamatan seluas mungkin dari pusat itu (untuk memaksimalkan penyebut itu).

Setelah menghitung nilai yang benar dengan cara ini, kita dapat menggunakannya dengan distribusi sesuai seperti yang disebutkan di atas. t

gung - Reinstate Monica
sumber