Regresi linier, ekspektasi kondisional dan nilai yang diharapkan

11

Oke jadi hanya sedikit kabur pada beberapa hal, bantuan apa pun akan sangat dihargai. Ini adalah pemahaman saya bahwa model regresi linier diprediksi melalui ekspektasi kondisional

E(Y|X)=b+Xb+e
  1. Apakah kita berasumsi bahwa dan adalah variabel acak dengan beberapa distribusi probabilitas yang tidak diketahui? itu pemahaman saya bahwa hanya residu dan estimasi koefisien beta adalah variabel acak. jika demikian, sebagai contoh, jika obesitas dan usia, jika kita mengambil ekspektasi bersyarat berarti, berapa nilai yang diharapkan dari obesitas jika individu tersebut berusia di seluruh sampel, apakah kita akan ambil saja rata-rata (rata-rata aritmatika) y untuk pengamatan di mana ? namun bukankah nilai yang diharapkan mensyaratkan bahwa kita harus mengalikannya dengan probabilitas yang terjadi? tetapi bagaimana dalam arti untuk kita menemukan probabilitasY Y = X = E ( Y | X = 35 ) 35 X = 35 XXYY=X=E(Y|X=35)35X=35Xvariabel -value terjadi jika itu mewakili sesuatu seperti usia?
  2. Jika mewakili sesuatu seperti nilai tukar, apakah ini akan diklasifikasikan sebagai acak? bagaimana Anda bisa menemukan nilai yang diharapkan ini tanpa mengetahui probabilitasnya? atau apakah nilai yang diharapkan sama dengan rata-rata dalam batas.X
  3. Jika kita tidak menganggap variabel dependen itu sendiri adalah variabel acak, karena kita tidak menentang probabilitas, apa yang kita asumsikan sebagai variabel itu? hanya memperbaiki nilai atau sesuatu? tetapi jika ini masalahnya, bagaimana kita bisa mengkondisikan pada variabel non-acak untuk memulai? apa yang kita asumsikan tentang distribusi variabel independen?

Maaf jika ada yang tidak masuk akal atau jelas bagi siapa pun.

William Carulli
sumber
1
Koefisien regresi adalah konstanta yang tidak diketahui, bukan variabel acak (setidaknya dalam dunia yang sering terjadi). β
Richard Hardy
apa yang Anda maksud dengan harapan bersyarat? E (Y | X) berarti Y yang diberikan X, yaitu nilai yang diharapkan dari Y pada X. Katakanlah, y = 5 + x, maka Anda E (Y | X = 5) adalah 10. Saya tidak mendapatkan poin Anda dengan harapan bersyarat
Zamir Akimbekov
@ RichardHardy, itu adalah pemahaman saya bahwa karena B adalah rata-rata dari distribusi sampling beta, maka itu adalah variabel acak yang ditandai oleh distribusi normal. Apakah Anda mengacu pada model populasi?
William Carulli
Ya, model populasi.
Richard Hardy
1
@WilliamCarulli Richard merujuk pada perbedaan antara parameter populasi dan parameter estimasi. Parameter yang diestimasi memang variabel acak, tetapi parameter populasi benar (tidak diketahui) adalah nilai tetap.
Matthew Drury

Jawaban:

8

Dalam model probabilitas yang mendasari regresi linier, X dan Y adalah variabel acak.

jika demikian, sebagai contoh, jika Y = obesitas dan X = usia, jika kita mengambil ekspektasi bersyarat E (Y | X = 35) yang berarti, berapa nilai yang diharapkan dari obesitas jika individu tersebut 35 di seluruh sampel, apakah kita akan ambil saja rata-rata (rata-rata aritmatika) y untuk pengamatan di mana X = 35?

Tepat sekali. Secara umum, Anda tidak dapat berharap bahwa Anda akan memiliki data yang cukup pada setiap nilai X tertentu, atau mungkin mustahil untuk melakukannya jika X dapat mengambil rentang nilai yang kontinu. Tetapi secara konseptual, ini benar.

namun bukankah nilai yang diharapkan mensyaratkan bahwa kita harus mengalikannya dengan probabilitas yang terjadi?

Ini adalah perbedaan antara ekspektasi tanpa syarat dan ekspektasi bersyarat . Hubungan di antara mereka adalahE [ Y X = x ]E[Y]E[YX=x]

E[Y]=xE[YX=x]Pr[X=x]

yang merupakan hukum harapan total.

tetapi bagaimana dalam arti bahwa kita menemukan probabilitas variabel X-nilai yang terjadi jika itu mewakili sesuatu seperti usia?

Secara umum Anda tidak dalam regresi linier. Karena kita berusaha menentukan , kita tidak perlu tahu .P r [ X = x ]E[YX]Pr[X=x]

Jika kita tidak menganggap variabel independen itu sendiri adalah variabel acak, karena kita tidak menentang probabilitas, apa yang kita asumsikan sebagai variabel itu? hanya memperbaiki nilai atau sesuatu?

Kami tidak menganggap bahwa Y adalah variabel acak. Salah satu cara untuk berpikir tentang regresi linier adalah sebagai model probabilitas untukY

YXβ+N(0,σ)

Yang mengatakan bahwa, begitu Anda mengetahui nilai X, variasi acak dalam Y terbatas pada ringkasan .N(0,σ)

Matthew Drury
sumber
Terima kasih banyak atas komentar Anda, sangat membantu saya. Bersulang.
William Carulli
@WilliamCarulli Sama-sama! Jangan ragu untuk mengajukan pertanyaan lanjutan dan saya akan melakukan yang terbaik untuk menjawab. Jika saya benar-benar menyelesaikan semua masalah Anda, Anda dapat menerimanya juga.
Matthew Drury
3
Ini adalah pos yang bagus. Namun, saya berpikir bahwa setiap jawaban yang tidak mengakui bahwa (a) dapat diperbaiki atau (b) dapat menjadi variabel acak (dengan asumsi independensi tertentu) tidak benar-benar menangani masalah yang diungkapkan dalam pertanyaan. X
whuber
@MatthewDrury, Hanya untuk memperjelas, jika variabel dependen saya mengatakan nilai tukar, dan dependen saya adalah suku bunga domestik, maka
William Carulli
@ MatthewDrury @ MatthewDrury, Hanya untuk memperjelas, jika variabel dependen saya mengatakan nilai tukar, dan ketergantungan saya adalah tingkat bunga domestik, maka E (E (nilai tukar | tingkat bunga)) = E (nilai tukar) = mean sampel dari nilai tukar? Saya kira apa yang membingungkan saya adalah bahwa saya selalu menganggap harapan dihitung berdasarkan probabilitas, saya tidak melihat alasan untuk menunjukkan regresi linier sebagai ekspektasi bersyarat ketika menyelesaikannya melalui aljabar matriks tampaknya jauh berbeda dengan mengambil ekspektasi keseluruhan.
William Carulli
3

Akan ada BANYAK jawaban untuk pertanyaan ini, tetapi saya masih ingin menambahkannya karena Anda membuat beberapa poin menarik. Untuk kesederhanaan, saya hanya mempertimbangkan model linier sederhana.

   It is my understanding that the linear regression model
   is predicted via a conditional expectation E(Y|X)=b+Xb+e

Persamaan mendasar dari yang sederhana linier analisis regresi adalah: makna Persamaan ini adalah bahwa nilai rata-rata adalah linear pada nilai-nilai . Orang juga dapat melihat bahwa nilai yang diharapkan juga linier pada parameter dan , itulah sebabnya model ini disebut linear. Persamaan mendasar ini dapat ditulis ulang sebagai: mana adalah variabel acak dengan nol rata-rata:

E(Y|X)=β0+β1X,
YXβ0β1
Y=β0+β1X+ϵ,
ϵE(ϵ)=0
Do we assume that both X and Y are Random variables with some unknown 
probability distribution? ... If we don't assume the independent variables 
are themselves random 

Variabel independen dapat acak atau tetap. Variabel dependen SELALU acak.XY

Biasanya orang mengasumsikan bahwa adalah angka tetap. Ini karena analisis regresi dikembangkan dan sangat diterapkan dalam konteks percobaan yang dirancang, di mana nilai sebelumnya ditetapkan.{X1,...,Xn}X

Rumus untuk estimasi kuadrat terkecil dari dan adalah sama bahkan jika diasumsikan acak, tetapi distribusi estimasi ini umumnya tidak akan sama dibandingkan dengan situasi dengan tetap .β0β1XX

if we take the conditional expectation E(Y|X=35) ... would we just take 
the average(arithmetic mean) of y for those observations where X=35?

Dalam model linier sederhana, Anda dapat membuat taksiran dari berdasarkan pada estimasi dan , yaitu: rata-rata kuadrat bersyarat memiliki ekspresi yang sama dengan yang Anda gambarkan jika model Anda memperlakukan bobot yang berbeda sebagai tingkat faktor tunggal. Model-model tersebut juga dikenal sebagai ANOVA satu arah, yang merupakan kasus khusus model linear (tidak sederhana).E(Y|X=x) β 0 β 1 φ (x)= β 0+ β 1xφ^(x)E(Y|X=x)β^0β^1

φ^(x)=β^0+β^1x

Mur1lo
sumber
1
Beberapa komentar dalam posting ini tidak biasa dan mungkin disalahpahami. Pertama, model ini disebut "linear" karena linear dalam parameter , tidak di . Kedua, perkiraan dan variabel-variabel acak terlepas dari apa yang dianggap . Ketiga, perlakuan Anda terhadap ekspektasi bersyarat tampak mengacaukan pengamatan dengan distribusi kondisional yang sebenarnya. Akhirnya, referensi "tidak ada nilai berulang" membingungkan karena tidak relevan. β 0 β 1 XXβ^0β^1X
whuber
1
@whuber "Pertama, model ini disebut" linear "karena linear dalam parameter" Saya menjelaskan arti persamaan, bukan arti "linear" dalam "model linear". "perkiraan β̂ 0 dan β̂ 1 adalah variabel acak terlepas dari apa yang diasumsikan tentang X" tentu saja, tetapi distribusi variabel-variabel acak itu berubah tergantung pada cara Anda memperlakukan X.
Mur1lo
1
@whuber Saya sangat setuju dengan poin terakhir Anda. Saya akan mengedit jawaban saya sehingga lebih jelas dalam semua masalah yang Anda tunjukkan. Terima kasih untuk umpan baliknya.
Mur1lo