Ketika kita menghitung standard error dari koefisien regresi, kita tidak memperhitungkan keacakan dalam desain matriks . Dalam OLS misalnya, kita menghitung sebagai
Jika dianggap acak, hukum varians total akan, dalam arti tertentu, menuntut kontribusi tambahan dari varian juga. yaitu
Yang, jika penaksir OLS benar - benar tidak memihak, istilah pertama lenyap karena harapannya adalah konstan. Istilah kedua sebenarnya menjadi: .
Jika model parametrik untuk diketahui, mengapa tidak kita ganti dengan estimasi kovarians yang sebenarnya. Misalnya, jika adalah penugasan pengobatan secara acak, haruskah varian binomial menjadi estimasi yang lebih efisien?
Mengapa kita tidak mempertimbangkan untuk menggunakan model nonparametrik yang fleksibel untuk memperkirakan sumber bias yang mungkin dalam estimasi OLS dan memperhitungkan dengan tepat sensitivitas untuk merancang (yaitu distribusi ) dalam istilah varians law-of-total pertama ?
Jawaban:
Pertanyaan Anda (ditambah komentar lebih lanjut dalam komentar) tampaknya sebagian besar tertarik pada kasus di mana kami memiliki uji coba terkontrol secara acak di mana peneliti secara acak menetapkan satu atau lebih variabel penjelas, berdasarkan pada beberapa desain pengacakan. Dalam konteks ini, Anda ingin tahu mengapa kami menggunakan model yang memperlakukan variabel penjelas sebagai konstanta yang diketahui, daripada memperlakukannya sebagai variabel acak dari distribusi sampel yang dikenakan oleh pengacakan. (Pertanyaan Anda lebih luas dari ini, tetapi ini tampaknya merupakan masalah yang paling menarik dalam komentar, jadi ini adalah yang akan saya bahas.)
Alasan kami mengkondisikan pada variabel penjelas, dalam konteks ini, adalah bahwa dalam masalah regresi untuk RCT, kami masih tertarik pada distribusi kondisional dari variabel respons yang diberikan oleh para prediktor . Memang, dalam RCT kami tertarik untuk menentukan efek kausal dari variabel penjelasX pada variabel respons Y , yang akan kami tentukan melalui inferensi tentang distribusi kondisional (tunduk pada beberapa protokol untuk mencegah perancu). Pengacakan dikenakan untuk memutus ketergantungan antara variabel penjelas X dan setiap variabel pembaur (yaitu, mencegah asosiasi pintu belakang). †† Namun, objek kesimpulan dalam masalah masih distribusi kondisional dari variabel respon yang diberikan variabel penjelas. Dengan demikian, masih masuk akal untuk memperkirakan parameter dalam distribusi kondisional ini, menggunakan metode estimasi yang memiliki sifat yang baik untuk menyimpulkan distribusi kondisional .
Itu adalah kasus normal yang berlaku untuk RCT menggunakan teknik regresi. Tentu saja, ada beberapa situasi di mana kita memiliki minat lain, dan kita mungkin memang ingin memasukkan ketidakpastian tentang variabel penjelas. Menggabungkan ketidakpastian dalam variabel penjelas umumnya terjadi dalam dua kasus:
(1) Ketika kita melampaui analisis regresi dan analisis multivariat, kita kemudian tertarik pada distribusi gabungan variabel penjelas dan respons, bukan hanya distribusi kondisional dari yang disebutkan terakhir. Mungkin ada aplikasi di mana ini adalah minat kami, dan kemudian kami akan melampaui analisis regresi, dan memasukkan informasi tentang distribusi variabel penjelas.
(2) Dalam beberapa aplikasi regresi, minat kami adalah pada distribusi kondisional dari variabel respon bersyarat pada variabel penjelas yang tidak diamati yang mendasarinya, di mana kami mengasumsikan bahwa variabel penjelas yang diamati mengalami kesalahan ("kesalahan-dalam-variabel"). Dalam hal ini kami memasukkan ketidakpastian melalui "kesalahan-dalam-variabel". Alasan untuk ini adalah bahwa kepentingan kami dalam kasus-kasus ini adalah dalam distribusi bersyarat , bersyarat pada variabel mendasar yang tidak teramati .
Perhatikan bahwa kedua kasus ini secara matematis lebih rumit daripada analisis regresi, jadi jika kita dapat menggunakan analisis regresi, itu umumnya lebih disukai. Bagaimanapun, dalam sebagian besar aplikasi analisis regresi, tujuannya adalah untuk membuat kesimpulan tentang distribusi kondisional dari respons, mengingat variabel penjelas yang dapat diamati, sehingga generalisasi ini menjadi tidak perlu.
sumber
Judul "kesalahan dalam variabel" dan isi dari pertanyaan itu tampak berbeda, ketika ia menanyakan mengapa kita tidak memperhitungkan variasi dalamX ketika memodelkan respons bersyarat, yaitu, inferensi untuk parameter regresi. Kedua keasyikan itu tampaknya ortogonal bagi saya, jadi di sini saya merespons isinya.
Saya telah menjawab pertanyaan serupa sebelumnya, Apa perbedaan antara pengondisian pada regresor dan memperlakukan mereka sebagai tetap? , jadi di sini saya akan menyalin sebagian dari jawaban saya di sana:
Saya akan mencoba untuk menyempurnakan argumen untuk pengkondisian pada regressor agak lebih formal. Mari( Y, X) menjadi vektor acak, dan bunga dalam regresi Y pada X , di mana regresi diartikan ekspektasi bersyarat dari Y pada X . Di bawah asumsi multinormal yang akan menjadi fungsi linear, tetapi argumen kami tidak bergantung pada itu. Kita mulai dengan memfaktorkan kerapatan sambungan dengan cara biasa
f( y, x ) = f( y∣ x ) f( x )
tetapi fungsi-fungsi yang tidak diketahui sehingga kita menggunakan model parameter
f( y, x ; θ , ψ ) = fθ( y∣ x ) fψ( x )
di mana θ parameterizes distribusi bersyarat dan ψ distribusi marjinal X . Dalam model linear normal kita dapat memiliki θ = ( β, σ2) tetapi itu tidak diasumsikan. Ruang parameter penuh dari ( θ , ψ ) adalahΘ × Ψ , produk Cartesian, dan kedua parameter tidak memiliki bagian yang sama.
Dalam percobaan yang dirancang sebagian besar anggapannya akan berlaku, seringkali dengan data pengamatan tidak. Beberapa contoh masalah adalah: regresi dengan respons yang tertinggal sebagai prediktor. Pengkondisian pada prediktor dalam kasus ini juga akan mengkondisikan pada respons! (Saya akan menambahkan lebih banyak contoh).
Argumen pemisahan ini bermanfaat juga karena menunjuk ke kasus-kasus di mana ia tidak dapat digunakan, misalnya regresi dengan respons yang tertinggal sebagai prediktor.
sumber