Memperkirakan

14

Saya memiliki model ekonomi teoretis yaitu sebagai berikut,

y=a+b1x1+b2x2+b3x3+u

Jadi teori mengatakan bahwa ada x1 , x2 dan x3 faktor untuk memperkirakan y .

Sekarang saya memiliki data nyata dan saya perlu memperkirakan b1 , b2 , b3 . Masalahnya adalah bahwa set data riil hanya berisi data untuk x1 dan x2 ; tidak ada data untuk x3 . Jadi model yang bisa saya muat sebenarnya adalah:

y=a+b1x1+b2x2+u
  • Apakah boleh untuk memperkirakan model ini?
  • Apakah saya kehilangan sesuatu memperkirakannya?
  • Jika saya memperkirakan , b 2 , lalu kemana b 3 x 3 pergi?b1b2b3x3
  • Apakah itu diperhitungkan oleh istilah kesalahan ?u

Dan kami ingin mengasumsikan bahwa tidak berkorelasi dengan x 1 dan x 2 .x3x1x2

renathy
sumber
Dapatkah Anda memberikan rincian tentang kumpulan data Anda, maksud saya, variabel dependen Anda dan variabel independen x 1 dan x 2 ? yx1x2
Vara
Anggap saja sebagai contoh hipotetis tanpa set data spesifik ...
renathy

Jawaban:

20

Masalah yang perlu Anda khawatirkan disebut endogenitas . Lebih khusus, itu tergantung pada apakah berkorelasi dalam populasi dengan x 1 atau x 2x3x1x2 . Jika ya, maka terkait s akan menjadi bias. Itu karena metode regresi OLS memaksa residu, u i , untuk tidak berkorelasi dengan kovariat Anda, x j s. Namun, residu Anda terdiri dari beberapa keacakan tak tereduksi, ε i , dan variabel yang tidak teramati (tetapi relevan), x 3 , yang dengan ketentuanbjuixjεix3adalah berkorelasi dengan dan / atau x 2 . Di sisi lain, jika kedua x 1 dan x 2 tidak berkorelasi dengan x 3 dalam populasi, maka bs mereka tidak akan bias oleh ini (mereka mungkin bias oleh sesuatu yang lain, tentu saja). Salah satu cara ahli ekonometri mencoba menangani masalah ini adalah dengan menggunakan variabel instrumental . x1x2 x1x2x3b

Demi kejelasan yang lebih besar, saya telah menulis simulasi cepat dalam R yang menunjukkan distribusi pengambilan sampel tidak bias / berpusat pada nilai sebenarnya dari β 2 , ketika itu tidak berkorelasi dengan x 3 . Namun, pada run kedua, perhatikan bahwa x 3 tidak berkorelasi dengan x 1 , tetapi tidak x 2 . Bukan kebetulan, b 1 adalah berisi, tapi b 2 adalah bias. b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64
gung - Pasang kembali Monica
sumber
Jadi, dapatkah Anda menjelaskan lebih banyak - apa yang terjadi jika kita menganggap bahwa x3 tidak dikorelasikan dengan $ x_1 dan x2? Lalu apa yang terjadi jika saya memperkirakan y = a + b1x1 + b2x2 + u?
renathy
1
akan dimasukkan ke dalam residual dengan cara apa pun, tetapijikatidak berkorelasi dalam populasi, maka b Anda yang laintidak akan bias dengan tidak adanya x 3 , tetapi jika itu tidak berkorelasi, maka mereka akan menjadi bias. b3x3bx3
gung - Reinstate Monica
Untuk menyatakan ini dengan lebih jelas: Jika tidak berkorelasi dengan baik x 1x3x1 atau , Anda OK. x2
gung - Reinstate Monica
Saya membahas sisi lain dari masalah ini dalam jawaban saya di sini: Apakah menambahkan lebih banyak variabel ke dalam koefisien perubahan multivariabel mengubah variabel yang ada?
gung - Reinstate Monica
3

Mari kita pikirkan hal ini secara geometris. Pikirkan "bola", permukaan bola. Ini digambarkan sebagai . Sekarang jika Anda memiliki nilai untuk x 2r2=ax2+by2+cz2+ϵx2 , , z 2 , dan Anda memiliki pengukuran r 2 maka Anda dapat menentukan koefisien Anda "a", "b", dan "c". (Anda bisa menyebutnya ellipsoid, tetapi menyebutnya bola lebih sederhana.)y2z2r2

Jika Anda hanya memiliki istilah , dan y 2 maka Anda dapat membuat lingkaran. Alih-alih mendefinisikan permukaan bola, Anda akan menggambarkan lingkaran yang diisi. Persamaan yang Anda cocokkan adalah r 2a x 2 + b y 2 + ϵ . x2y2r2ax2+by2+ϵ

Anda memproyeksikan "bola", apa pun bentuknya, ke dalam ekspresi untuk lingkaran. Itu bisa menjadi "bola" yang berorientasi diagonal yang berbentuk lebih seperti jarum jahit, dan komponen benar-benar menghancurkan perkiraan kedua sumbu. Itu bisa berupa bola yang terlihat seperti m & m yang hampir hancur di mana kapak koin adalah "x" dan "y", dan tidak ada proyeksi. Anda tidak dapat mengetahui mana itu tanpa informasi " z ".zz

Paragraf terakhir itu berbicara tentang kasus "informasi murni" dan tidak memperhitungkan kebisingan. Pengukuran dunia nyata memiliki sinyal dengan noise. Kebisingan di sepanjang perimeter yang sejajar dengan sumbu akan memiliki dampak yang jauh lebih kuat pada fit Anda. Meskipun Anda memiliki jumlah sampel yang sama, Anda akan memiliki lebih banyak ketidakpastian dalam estimasi parameter Anda. Jika itu adalah persamaan yang berbeda dari kasus berorientasi sumbu linear sederhana ini, maka segala sesuatunya dapat menjadi " berbentuk buah pir ". Persamaan Anda saat ini berbentuk bidang, jadi alih-alih memiliki batas (permukaan bola), z-data mungkin hanya pergi ke seluruh peta - proyeksi bisa menjadi masalah serius.

Apakah saya tetap bisa memodelkan? Itu adalah panggilan penghakiman. Seorang ahli yang memahami masalah-masalah tertentu mungkin menjawabnya. Saya tidak tahu apakah seseorang bisa memberikan jawaban yang baik jika mereka jauh dari masalah.

Anda kehilangan beberapa hal baik, termasuk kepastian dalam estimasi parameter, dan sifat model yang ditransformasikan.

Estimasi untuk menghilang ke epsilon dan ke estimasi parameter lainnya. Itu dimasukkan oleh seluruh persamaan, tergantung pada sistem yang mendasarinya.b3

EngrStudent - Pasang kembali Monica
sumber
f(x,y,z)
Saya tidak dapat mengikuti argumen Anda karena saya tidak melihat apa pun yang sesuai dengan "kotak yang diisi."
whuber
0

Jawaban lainnya, meski tidak salah, sedikit mempersulit masalah ini.

x3x1x2β3x3 akan diserap oleh istilah kesalahan (baru). Perkiraan OLS akan tidak bias, selama semua asumsi OLS lainnya berlaku.

Daniel Ludwinski
sumber