Kesalahan sistematis / pengukuran pada regresi linier

8

Misalkan saya memiliki satu set data di mana ketidakpastian dalam pengukuran (yang berasal dari penyebaran kesalahan sistematis dari peralatan pengukuran) berbeda untuk masing-masing titik. Jika saya melakukan regresi linier pada set data, bagaimana cara menghitung ketidakpastian di lereng? Saya ingin prosedur atau formula yang eksplisit.(xi,yi)(Δxi,Δyi)

Iván Mauricio Burbano
sumber
2
Apakah Anda memahami kesalahan pengukuran mana yang lebih besar?
Dimitriy V. Masterov
1
Dengan delta, apakah maksud Anda perbedaan antara pengukuran berurutan? Apakah data Anda berurutan? Apakah Anda berharap kesalahan tersebut berkorelasi? Apakah Anda berharap korelasinya membusuk? Apakah Anda memiliki replikasi independen? Diperlukan lebih banyak informasi untuk memberikan jawaban yang konkret.
user3903581
Istilah yang Anda cari adalah propagasi kesalahan. Anda memiliki kesalahan di sisi input dan menghitung (lebih khusus: memperkirakan) dua parameter darinya. Sayangnya nama "regresi linier" hanya menggambarkan model (populer), tetapi bukan metode yang digunakan untuk memperkirakan parameter. Untuk metode yang paling sering digunakan, Anda mungkin dapat mencari solusinya (mis. Kuadrat terkecil). Jika tidak, Anda dapat menghitungnya secara analitik atau memperkirakannya dengan evaluasi numerik.
kerub

Jawaban:

4

Kita dapat memodelkan eksperimen sebagai mana menunjukkan nilai sebenarnya, adalah kesalahan pengukuran, adalah komponen "tetap" yang terlepas dari pengamatan (yang dapat timbul dari kalibrasi sensor yang salah) dan bervariasi dari pengamatan hingga observasi dan sesuai dengan banyak faktor yang mungkin kami perlakukan secara acak.

xi=xi+u~i
yi=yi+v~i
u~i=u¯+vi
v~i=v¯+ui
xi,yiu~i,v~iu¯,v¯u,v

Regresi linier sederhana adalah dan estimasi OLS dari slope adalah Namun yang kita dapatkan adalah

yi=α+βxi+ei
β^=Cov(x,y)Var(x)
β~=Cov(x,y)Var(x)=Cov(x+u,y+v)Var(x+u)=Cov(x,y)+Cov(x,v)+Cov(y,u)+Cov(u,v)Var(x)+Var(u)+2Cov(x,u)

Sekarang mari kita asumsikan bahwa tidak berkorelasi dengan dan satu sama lain (asumsi yang agak kuat yang dapat ditingkatkan jika kita memiliki lebih banyak kesimpulan tentang sifat kesalahan). Maka estimasi kami adalah Kita dapat memperkirakan sebagai variasi sampel . Kita juga perlu memperkirakan . Jika kami memiliki percobaan ketika kami dapat mengamati beberapa kali, maka satu pendekatan sederhana adalah memperkirakan ].v,ux,y

β~=βσx2σx2+σu2βσ^x2σ^u2σ^x2=βλ^
σ^x2xiσu2xiσu2=E[σx2|xi

Sekarang kita dapat menggunakan dihitung dengan, misalnya, metode bootstrap, dan memperbaikinya untuk sehingga .σ^β~2β^=β~/λ^

σ^β^2=σ^β~2λ^2
yshilov
sumber
3

Saya pikir jawaban yang diberikan oleh @yshilov pasti luar biasa dengan mempertimbangkan kesalahan pengukuran ke dalam istilah kesalahan dan secara signifikan, menyimpulkan hasil

β~=βσx2σx2+σu2

Untuk menguraikan, beta ini memiliki sifat khusus yang merupakan penaksir yang bias, tetapi bias ke arah 0. Secara khusus, untuk regresi linier,E(β^1)=β1[σx2+σxδσx2+2σxδ+σδ2]

Buktinya adalah sebagai berikut: dalam regresi linier sederhana, ingat Dalam hal kesalahan pengukuran, kita memiliki , , dan , jadi kami mendapatkan Dengan asumsi bahwa , , dan varian nilai prediktor sejati

β^1=i=1n(xix¯)yii=1n(xix¯)2
xiO=xiA=δiyiO=yiA+ϵiyiA=β0+β1xiA
yiO=β0+β1(xiOδi)+ϵi=β0+β1xiO+(ϵiβ1δi)
E(ϵi)=E(δi)=0var(ϵi)=σϵ2var(δi)=σδ2=1ni=1n(δiδ¯)2σx2=(xiAxA¯)2ndan korelasi prediktor dan kesalahan sebenarnya , laluσxδ=cov(xA,δ)=1ni=1n(xiAxiA¯)(δiδ¯)

cov(xiO,δ)=E(xiOδ)E(xiO)E(δ)=E(xiOδ)=E[(xiA+δ)δ]=E(xiAδ)+E(δ2)
=[E(xiAδ)E(xiA)E(δ)]+[var(δ)+[E(δ)]2]=cov(xiA,δ)+σδ2=σxδ+σδ2
Kemudian, dengan dan properti bilinearitas dalam kovarian, harapan adalah x¯=E(xi)β^1
E(β^1)=E[i=1n(xiOx¯O)yiOi=1n(xiOx¯O)2]=E(i=1nxiOyiO)E(i=1nx¯OyiO)i=1nE[(xiOE(xiO))2]=E(i=1nxiOyiO)E(xiO)E(i=1nyiO)i=1nvar(xiO)
=i=1ncov(yiO,xiO)i=1nvar(xiO)=i=1ncov(β0+β1xiO+ϵiβ1δi, xiO)i=1nvar(xiO)=β1i=1nvar(xiO)β1i=1ncov(xiO,δi)i=1nvar(xiO)
=β1[1i=1ncov(xiO,δi)/ni=1nvar(xiA+δi)/n]=β1[1σxδ+σδ2σx2+2cov(xiA,δi)+σδ2]=β1[σx2+σxδσx2+2σxδ+σδ2]
, seperti yang diinginkan. Karenanya, hasilnya mapan.E(β^1)=β1[σx2+σxδσx2+2σxδ+σδ2]
son520804
sumber
1

Saya memiliki masalah yang sama - diposting di sini - dan tidak ada jawaban pasti. Apa yang saya lakukan untuk saat ini hanyalah mengumpulkan satu set X yang sangat mirip dan memeriksa apakah ada variasi besar untuk Y dalam garis-garis itu. Jenis pendekatan lain bisa berupa simulasi: Anda menggunakan X tunggal dari dataset Anda, tetapi meniru garis mengikuti kesalahan prediktor sistematis (seperti rnorm (..., 0,0.3)). Interval kepercayaan untuk kemiringan mungkin sesuatu yang mirip dengan rentang kesalahan sistematis.

Paolo Nadalutti
sumber
0

Saya akan merekomendasikan bootstrap parametrik pada data. Itu berarti menghasilkan dataset baru yang mirip dengan dataset nyata, tetapi berbeda sejauh yang tersirat oleh ketidakpastian Anda dalam setiap pengamatan.

Berikut ini beberapa kode semu untuk itu. Perhatikan saya menggunakan input vektor untuk rnorm, seperti biasa dalam bahasa R. Saya juga berasumsi bahwa apa yang Anda panggil adalah kesalahan standar.Δ

For each b in 1...B:
    x_PB = rnorm(x, x_se)
    y_PB = rnorm(y, y_se)
    r[b] = cor(x_PB, y_PB)

Kemudian lihat distribusi nilai dalam r.

rcorty
sumber