Mengapa kesalahan standar intersep meningkatkan

13

Standar error dari istilah intercept ( β 0 ) di y = β 1 x + β 0 + ε diberikan oleh S E ( β 0 ) 2 = σ 2 [ 1β^0y=β1x+β0+ε

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]
di manax¯adalah mean darixi's.

Dari apa yang saya mengerti, SE mengkuantifikasi uncertainty- Anda misalnya, di 95% dari sampel, interval akan berisi sejati β 0 . Saya gagal memahami bagaimana SE, ukuran ketidakpastian, meningkat dengan ˉ x . Jika saya hanya menggeser data saya, sehingga ˉ x = 0 , ketidakpastian saya turun? Itu sepertinya tidak masuk akal.[β^02SE,β^0+2SE]β0x¯x¯=0

Interpretasi analog adalah - dalam versi uncentered data bersesuaian dengan prediksi saya di x = 0 , sedangkan dalam data terpusat, ß 0 bersesuaian dengan prediksi saya di x = ˉ x . Jadi apakah ini berarti ketidakpastian saya tentang prediksi saya di x = 0 lebih besar dari ketidakpastian saya tentang prediksi saya di x = ˉ x ? Tampaknya juga tidak masuk akal, kesalahan ϵ memiliki varians yang sama untuk semua nilai xβ^0x=0β^0x=x¯x=0x=x¯ϵx, jadi ketidakpastian saya dalam nilai prediksi saya harus sama untuk semua .x

Ada celah dalam pemahaman saya, saya yakin. Bisakah seseorang membantu saya memahami apa yang terjadi?

elexhobby
sumber
3
Apakah Anda pernah mengalami kemunduran terhadap kencan? Banyak sistem komputer memulai kencan mereka di masa lalu yang jauh, seringkali lebih dari 100 atau lebih dari 2000 tahun yang lalu. Intercept memperkirakan nilai data Anda diekstrapolasi mundur ke waktu mulai itu. Seberapa pasti Anda, katakanlah, terhadap produk domestik bruto Irak pada tahun 0 CE berdasarkan kemunduran serangkaian data abad ke-21?
whuber
Saya setuju, masuk akal jika Anda memikirkannya seperti ini. Ini, dan jawaban gung, membuat semuanya menjadi jelas.
elexhobby
2
Jawaban ini memberikan penjelasan intuitif, dengan diagram) tentang bagaimana hal itu muncul, dengan melemparkan garis yang pas dalam hal kecocokan pada rata-rata (garis pas melewati ( ˉ x , ˉ y ) ) dan menunjukkan mengapa posisi di mana garis dapat menyebar saat Anda menjauh dari ˉ x (yang disebabkan oleh ketidakpastian di lereng). x¯(x¯,y¯)x¯
Glen_b -Reinstate Monica

Jawaban:

16

Karena garis regresi yang cocok dengan kuadrat terkecil biasa harus melalui rata-rata data Anda (yaitu, ) —tidak selama Anda tidak menekan intersep — ketidakpastian tentang nilai sebenarnya dari lereng tidak berpengaruh pada posisi vertikal garis di rata-rata x (yaitu, di y ˉ x ). Ini diterjemahkan ke dalam ketidakpastian vertikal kurang di ˉ x daripada Anda memiliki semakin jauh dari ˉ x Anda. Jika memotong, di mana x = 0 adalah ˉ x(x¯,y¯)xy^x¯x¯x¯x=0x¯, Maka ini akan meminimalkan ketidakpastian tentang nilai sebenarnya dari . Dalam istilah matematika, ini diterjemahkan menjadi nilai yang mungkin terkecil dari kesalahan standar untuk β 0 . β0β^0

Berikut adalah contoh cepat di R:

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

enter image description here

Angka ini agak sibuk, tetapi Anda dapat melihat data dari beberapa studi berbeda di mana distribusi lebih dekat atau lebih jauh dari 0 . Kemiringan sedikit berbeda dari studi ke studi, tetapi sebagian besar serupa. (Perhatikan mereka semua pergi melalui X dilingkari yang saya gunakan untuk mark ( ˉ x , ˉ y ) .) Meskipun demikian, ketidakpastian tentang nilai sebenarnya dari orang-orang lereng menyebabkan ketidakpastian tentang y untuk memperluas lebih lanjut Anda dapatkan dari ˉ x , yang berarti bahwa S E ( β 0 )x0(x¯,y¯)y^x¯SE(β^0)sangat luas untuk data yang diambil sampelnya di lingkungan , dan sangat sempit untuk penelitian yang datanya diambil sampelnya dekat x = 0 . x=10x=0


Edit dalam menanggapi komentar: Sayangnya, berpusat data Anda setelah Anda memiliki mereka tidak akan membantu Anda jika Anda ingin mengetahui kemungkinan nilai di beberapa x nilai x yang baru . Alih-alih, Anda harus memusatkan pengumpulan data pada titik yang Anda pedulikan sejak awal. Untuk memahami masalah ini secara lebih lengkap, Anda dapat membaca jawaban saya di sini: Interval prediksi regresi linier . yxxnew

gung - Pasang kembali Monica
sumber
Jadi, katakanlah untuk beberapa alasan, saya paling tertarik dengan prediksi pada nilai . Penjelasan di atas menyiratkan bahwa saya tidak seharusnya memusatkan data saya (yaitu, menggeser x sehingga ˉ x = 0 ), tetapi sebaliknya menggesernya sehingga ˉ x = x . Apakah ini benar? x=xxx¯=0x¯=x
elexhobby
(xx¯)2x¯2
@elexhobby, saya menambahkan beberapa info untuk menjawab komentar Anda, Anda mungkin juga ingin melihat materi yang ditautkan. Beri tahu saya jika Anda masih membutuhkan lebih banyak.
gung - Reinstate Monica
SE(β^1)=σ2(xix¯)2xnewSE(β^1)(xnewx¯)2σ2n. Combine these together, and we get the uncertainty in the predicted value due to uncertainty in β^1 and β^0 is σ2n+σ2(xnewx¯)2(xix¯)2. Correct me if I'm wrong.
elexhobby
1
Furthermore, it is clear why the error in the vertical position is σ2n - we know that the line has to pass through y¯ at x=x¯. Now y¯ contains the average of n iid errors, and hence will have SE equal to σ2n. Wow! Thanks a lot for your diagram and clear explanation, I really appreciate.
elexhobby