Standar error dari istilah intercept ( β 0 ) di y = β 1 x + β 0 + ε diberikan oleh S E ( β 0 ) 2 = σ 2 [ 1
Dari apa yang saya mengerti, SE mengkuantifikasi uncertainty- Anda misalnya, di 95% dari sampel, interval akan berisi sejati β 0 . Saya gagal memahami bagaimana SE, ukuran ketidakpastian, meningkat dengan ˉ x . Jika saya hanya menggeser data saya, sehingga ˉ x = 0 , ketidakpastian saya turun? Itu sepertinya tidak masuk akal.
Interpretasi analog adalah - dalam versi uncentered data bersesuaian dengan prediksi saya di x = 0 , sedangkan dalam data terpusat, ß 0 bersesuaian dengan prediksi saya di x = ˉ x . Jadi apakah ini berarti ketidakpastian saya tentang prediksi saya di x = 0 lebih besar dari ketidakpastian saya tentang prediksi saya di x = ˉ x ? Tampaknya juga tidak masuk akal, kesalahan ϵ memiliki varians yang sama untuk semua nilai x, jadi ketidakpastian saya dalam nilai prediksi saya harus sama untuk semua .
Ada celah dalam pemahaman saya, saya yakin. Bisakah seseorang membantu saya memahami apa yang terjadi?
sumber
Jawaban:
Karena garis regresi yang cocok dengan kuadrat terkecil biasa harus melalui rata-rata data Anda (yaitu, ) —tidak selama Anda tidak menekan intersep — ketidakpastian tentang nilai sebenarnya dari lereng tidak berpengaruh pada posisi vertikal garis di rata-rata x (yaitu, di y ˉ x ). Ini diterjemahkan ke dalam ketidakpastian vertikal kurang di ˉ x daripada Anda memiliki semakin jauh dari ˉ x Anda. Jika memotong, di mana x = 0 adalah ˉ x(x¯,y¯) x y^x¯ x¯ x¯ x=0 x¯ , Maka ini akan meminimalkan ketidakpastian tentang nilai sebenarnya dari . Dalam istilah matematika, ini diterjemahkan menjadi nilai yang mungkin terkecil dari kesalahan standar untuk β 0 . β0 β^0
Berikut adalah contoh cepat di
R
:Angka ini agak sibuk, tetapi Anda dapat melihat data dari beberapa studi berbeda di mana distribusi lebih dekat atau lebih jauh dari 0 . Kemiringan sedikit berbeda dari studi ke studi, tetapi sebagian besar serupa. (Perhatikan mereka semua pergi melalui X dilingkari yang saya gunakan untuk mark ( ˉ x , ˉ y ) .) Meskipun demikian, ketidakpastian tentang nilai sebenarnya dari orang-orang lereng menyebabkan ketidakpastian tentang y untuk memperluas lebih lanjut Anda dapatkan dari ˉ x , yang berarti bahwa S E ( β 0 )x 0 (x¯,y¯) y^ x¯ SE(β^0) sangat luas untuk data yang diambil sampelnya di lingkungan , dan sangat sempit untuk penelitian yang datanya diambil sampelnya dekat x = 0 . x=10 x=0
Edit dalam menanggapi komentar: Sayangnya, berpusat data Anda setelah Anda memiliki mereka tidak akan membantu Anda jika Anda ingin mengetahui kemungkinan nilai di beberapa x nilai x yang baru . Alih-alih, Anda harus memusatkan pengumpulan data pada titik yang Anda pedulikan sejak awal. Untuk memahami masalah ini secara lebih lengkap, Anda dapat membaca jawaban saya di sini: Interval prediksi regresi linier .y x xnew
sumber