Model regresi linier yang paling sesuai untuk data dengan kesalahan

9

Saya mencari algoritma regresi linier yang paling cocok untuk data yang variabel independennya (x) memiliki kesalahan pengukuran konstan dan variabel dependen (y) memiliki kesalahan tergantung sinyal.

masukkan deskripsi gambar di sini

Gambar di atas menggambarkan pertanyaan saya.

user46178
sumber
1
Jika variabel konstan x memiliki kesalahan pengukuran konstan, dan kesalahan hanya digunakan untuk memberi bobot pada variabel secara relatif, bukankah situasi ini setara dengan tidak memiliki kesalahan dalam x?
pedrofigueira
2
@pedro Bukan itu masalahnya, karena kesalahan dalam bukan hanya bobot dalam rumus. Dengan regresi kesalahan-dalam-variabel, kecocokan akan berbeda dan estimasi kovarian parameter akan berbeda dari regresi biasa. x
whuber
1
Terimakasih atas klarifikasinya. Bisakah Anda sedikit mengembangkan alasannya?
pedrofigueira

Jawaban:

2

Kesalahan pengukuran dalam variabel dependen

Diberikan model linear umum dengan ε homosckedastic, tidak autokorelasi dan tidak berkorelasi dengan variabel independen, misalkan y menunjukkan variabel "benar", dan y dapat diamati mengukur. Kesalahan pengukuran didefinisikan sebagai perbedaannya e = y - y Dengan demikian, model yang diperkirakan adalah: y = β 0 + β 1 x

(1)y=β0+β1x1++βkxk+ε
εyy
e=yy
Sejaky,x1,...,xkdiamati, kita dapat memperkirakan model dengan OLS. Jika kesalahan pengukuran dalamysecara statistik independen dari setiap variabel penjelas, maka(e+ε)berbagi sifat yang sama denganεdan prosedur inferensi OLS yang biasa (tstatistik, dll.) Adalah valid. Namun, dalam kasus Anda, saya mengharapkan varian yang meningkat darie. Anda bisa menggunakan:
(2)y=β0+β1x1++βkxk+e+ε
y,x1,,xky(e+ε)εte
  • penaksir kuadrat terkecil tertimbang (misalnya Kutner et al. , §11.1; Verbeek , §4.3.1-3);

  • estimator OLS, yang masih tidak bias dan konsisten, dan kesalahan standar yang konsisten heteroskedastisitas, atau hanya kesalahan standar Wite ( Verbeek , §4.3.4).

Kesalahan pengukuran dalam variabel independen

xkxk

ek=xkxk
  • Cov(xk,ek)=0xkxk=xkek

    y=β0+β1x1++βkxk+(εβkek)
    εexjxk
  • Cov(xk,ηk)=0xkyx1,,xk

Sejauh yang bisa saya tebak dengan melihat plot Anda (kesalahan berpusat pada "benar" nilai-nilai variabel independen), skenario pertama bisa berlaku.

Sergio
sumber