Pertimbangkan pengambilan sampel data dari populasi berukuran dengan cara berikut: Untuk
Amati status "penyakit" individu
Jika mereka memiliki penyakit, masukkan mereka dalam sampel dengan probabilitas
Jika mereka tidak memiliki penyakit, sertakan mereka dengan probabilitas .
Misalkan Anda mengamati variabel hasil biner dan vektor prediktor , untuk subjek disampel dengan cara ini. Variabel hasil bukanlah status "penyakit". Saya ingin memperkirakan parameter model regresi logistik:
Yang saya pedulikan hanyalah rasio odds (log), . Mencegat itu tidak relevan bagi saya.
Pertanyaan saya adalah: Dapatkah saya mendapatkan estimasi yang masuk akal dari dengan mengabaikan probabilitas sampling , dan menyesuaikan model seolah-olah itu sampel acak biasa?
Saya cukup yakin jawaban untuk pertanyaan ini adalah "ya". Yang saya cari adalah referensi yang memvalidasi ini.
Ada dua alasan utama saya yakin tentang jawabannya:
Saya telah melakukan banyak studi simulasi dan tidak satupun yang bertentangan dengan ini, dan
Sangat mudah untuk menunjukkan bahwa, jika populasi diatur oleh model di atas, maka model yang mengatur data sampel adalah
Jika probabilitas pengambilan sampel tidak bergantung pada , maka ini akan mewakili pergeseran sederhana ke intersepsi dan estimasi titik jelas tidak akan terpengaruh. Tetapi, jika offset berbeda untuk setiap orang, logika ini tidak cukup berlaku karena Anda pasti akan mendapatkan estimasi titik yang berbeda, meskipun saya menduga sesuatu yang serupa tidak.
Terkait: Makalah klasik oleh Prentice dan Pyke (1979) mengatakan bahwa koefisien regresi logistik dari kasus-kontrol (dengan status penyakit sebagai hasilnya) memiliki distribusi yang sama dengan yang dikumpulkan dari studi prospektif. Saya menduga hasil yang sama ini akan berlaku di sini, tetapi saya harus mengakui bahwa saya tidak sepenuhnya memahami setiap bit kertas.
Terima kasih sebelumnya atas segala komentar / referensi.
sumber
Jawaban:
Ini adalah variasi dari model pemilihan dalam ekonometrika. Validitas estimasi hanya menggunakan sampel yang dipilih di sini tergantung pada kondisi bahwa . Berikut adalah 's status penyakit.Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0) Di i
Untuk memberikan perincian lebih lanjut, tentukan notasi berikut: dan ; merujuk pada peristiwa bahwa ada dalam sampel. Selain itu, anggap tidak bergantung pada untuk kesederhanaan.π1=Pr(Di=1) π0=Pr(Di=0) Si=1 i Di Xi
Probabilitas untuk unit dalam sampel adalah oleh hukum pengulangan yang diulangi. Misalkan bersyarat pada status penyakit dan kovariat lainnya , hasil tidak tergantung pada . Hasil dari,Yi=1 i
untuk memasukkan sebagai variabel penjelas tambahan, dan memperkirakan model berdasarkan . Untuk membenarkan validitas menggunakan , kita perlu membuktikan bahwa , yang setara dengan kondisi adalah statistik . Tanpa informasi lebih lanjut tentang proses pengambilan sampel Anda, saya tidak yakin apakah itu benar. Mari kita gunakan notasi abstrak. Variabel observabilitas dapat dilihat sebagai fungsi acak dan variabel acak lainnya, katakanlahDi Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di) Di Si Si Di Zi . Nyatakan . Jika
independen dari bersyarat pada dan , kita memiliki
oleh definisi kemerdekaan. Namun, jika tidak terlepas dari setelah dikondisikan pada dan ,
secara intuitif berisi beberapa informasi yang relevan tentang
, dan secara umum tidak diharapkan ituSi=S(Di,Zi) Zi Yi Xi Di Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) Zi Yi Xi Di Zi Yi Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) . Dengan demikian, dalam kasus 'bagaimanapun', ketidaktahuan pemilihan sampel bisa menyesatkan untuk inferensi. Saya tidak begitu terbiasa dengan literatur pemilihan sampel dalam ekonometrika. Saya akan merekomendasikan Bab 16
Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic book
variabel dependen dan kualitatif terbatas dalam ekonometrik 'adalah pengobatan sistematis masalah tentang pemilihan sampel dan hasil diskrit.sumber