Misalkan saya memiliki satu set data di mana ketidakpastian dalam pengukuran (yang berasal dari penyebaran kesalahan sistematis dari peralatan pengukuran) berbeda untuk masing-masing titik. Jika saya melakukan regresi linier pada set data, bagaimana cara menghitung ketidakpastian di lereng? Saya ingin prosedur atau formula yang eksplisit.
linear-model
measurement-error
errors-in-variables
Iván Mauricio Burbano
sumber
sumber
Jawaban:
Kita dapat memodelkan eksperimen sebagai mana menunjukkan nilai sebenarnya, adalah kesalahan pengukuran, adalah komponen "tetap" yang terlepas dari pengamatan (yang dapat timbul dari kalibrasi sensor yang salah) dan bervariasi dari pengamatan hingga observasi dan sesuai dengan banyak faktor yang mungkin kami perlakukan secara acak.
Regresi linier sederhana adalah dan estimasi OLS dari slope adalah Namun yang kita dapatkan adalah
Sekarang mari kita asumsikan bahwa tidak berkorelasi dengan dan satu sama lain (asumsi yang agak kuat yang dapat ditingkatkan jika kita memiliki lebih banyak kesimpulan tentang sifat kesalahan). Maka estimasi kami adalah Kita dapat memperkirakan sebagai variasi sampel . Kita juga perlu memperkirakan . Jika kami memiliki percobaan ketika kami dapat mengamati beberapa kali, maka satu pendekatan sederhana adalah memperkirakan ].v,u x∗,y∗
Sekarang kita dapat menggunakan dihitung dengan, misalnya, metode bootstrap, dan memperbaikinya untuk sehingga .σ^2β~ β^=β~/λ^
sumber
Saya pikir jawaban yang diberikan oleh @yshilov pasti luar biasa dengan mempertimbangkan kesalahan pengukuran ke dalam istilah kesalahan dan secara signifikan, menyimpulkan hasil
Untuk menguraikan, beta ini memiliki sifat khusus yang merupakan penaksir yang bias, tetapi bias ke arah 0. Secara khusus, untuk regresi linier,E(β^1)=β1⋅[σ2x+σxδσ2x+2σxδ+σ2δ]
Buktinya adalah sebagai berikut: dalam regresi linier sederhana, ingat Dalam hal kesalahan pengukuran, kita memiliki , , dan , jadi kami mendapatkan Dengan asumsi bahwa , , dan varian nilai prediktor sejati
sumber
Saya memiliki masalah yang sama - diposting di sini - dan tidak ada jawaban pasti. Apa yang saya lakukan untuk saat ini hanyalah mengumpulkan satu set X yang sangat mirip dan memeriksa apakah ada variasi besar untuk Y dalam garis-garis itu. Jenis pendekatan lain bisa berupa simulasi: Anda menggunakan X tunggal dari dataset Anda, tetapi meniru garis mengikuti kesalahan prediktor sistematis (seperti rnorm (..., 0,0.3)). Interval kepercayaan untuk kemiringan mungkin sesuatu yang mirip dengan rentang kesalahan sistematis.
sumber
Saya akan merekomendasikan bootstrap parametrik pada data. Itu berarti menghasilkan dataset baru yang mirip dengan dataset nyata, tetapi berbeda sejauh yang tersirat oleh ketidakpastian Anda dalam setiap pengamatan.
Berikut ini beberapa kode semu untuk itu. Perhatikan saya menggunakan input vektor untukΔ
rnorm
, seperti biasa dalam bahasa R. Saya juga berasumsi bahwa apa yang Anda panggil adalah kesalahan standar.Kemudian lihat distribusi nilai dalam r.
sumber