Memperkirakan koefisien regresi logistik dalam desain kasus kontrol ketika variabel hasil bukan status kasus / kontrol

10

Pertimbangkan pengambilan sampel data dari populasi berukuran dengan cara berikut: UntukNk=1,...,N

  1. Amati status "penyakit" individuk

  2. Jika mereka memiliki penyakit, masukkan mereka dalam sampel dengan probabilitaspk1

  3. Jika mereka tidak memiliki penyakit, sertakan mereka dengan probabilitas .pk0

Misalkan Anda mengamati variabel hasil biner dan vektor prediktor , untuk subjek disampel dengan cara ini. Variabel hasil bukanlah status "penyakit". Saya ingin memperkirakan parameter model regresi logistik:YiXii=1,...,n

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

Yang saya pedulikan hanyalah rasio odds (log), β . Mencegat itu tidak relevan bagi saya.

Pertanyaan saya adalah: Dapatkah saya mendapatkan estimasi yang masuk akal dari β dengan mengabaikan probabilitas sampling {pi1,pi0} , i=1,...,n dan menyesuaikan model seolah-olah itu sampel acak biasa?


Saya cukup yakin jawaban untuk pertanyaan ini adalah "ya". Yang saya cari adalah referensi yang memvalidasi ini.

Ada dua alasan utama saya yakin tentang jawabannya:

  1. Saya telah melakukan banyak studi simulasi dan tidak satupun yang bertentangan dengan ini, dan

  2. Sangat mudah untuk menunjukkan bahwa, jika populasi diatur oleh model di atas, maka model yang mengatur data sampel adalah

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

Jika probabilitas pengambilan sampel tidak bergantung pada , maka ini akan mewakili pergeseran sederhana ke intersepsi dan estimasi titik jelas tidak akan terpengaruh. Tetapi, jika offset berbeda untuk setiap orang, logika ini tidak cukup berlaku karena Anda pasti akan mendapatkan estimasi titik yang berbeda, meskipun saya menduga sesuatu yang serupa tidak. iβ

Terkait: Makalah klasik oleh Prentice dan Pyke (1979) mengatakan bahwa koefisien regresi logistik dari kasus-kontrol (dengan status penyakit sebagai hasilnya) memiliki distribusi yang sama dengan yang dikumpulkan dari studi prospektif. Saya menduga hasil yang sama ini akan berlaku di sini, tetapi saya harus mengakui bahwa saya tidak sepenuhnya memahami setiap bit kertas.

Terima kasih sebelumnya atas segala komentar / referensi.

Makro
sumber
1
Anda menyatakan bahwa "variabel hasil bukanlah status penyakit ". Apa yang tunjukkan? Selamat datang kembali di CV, btw. Yi=1
gung - Reinstate Monica
1
Yi adalah variabel yang berbeda. Maksud saya adalah bahwa variabel yang menentukan probabilitas sampling Anda (biasanya status penyakit dalam kontrol kasus) tidak sama dengan variabel hasil - pikirkan analisis sekunder dari kumpulan data. Sebagai contoh, katakanlah sampel dihasilkan oleh pengambilan sampel secara sistematis pengguna narkoba dan seperangkat tambahan (frekuensi cocok, kovariat tertentu) dari pengguna non narkoba tetapi variabel hasil yang Anda pelajari adalah beberapa pengukuran perilaku lainnya. Dalam hal ini skema pengambilan sampel adalah gangguan. Terima kasih, btw!
Makro

Jawaban:

8

Ini adalah variasi dari model pemilihan dalam ekonometrika. Validitas estimasi hanya menggunakan sampel yang dipilih di sini tergantung pada kondisi bahwa . Berikut adalah 's status penyakit.Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

Untuk memberikan perincian lebih lanjut, tentukan notasi berikut: dan ; merujuk pada peristiwa bahwa ada dalam sampel. Selain itu, anggap tidak bergantung pada untuk kesederhanaan.π1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

Probabilitas untuk unit dalam sampel adalah oleh hukum pengulangan yang diulangi. Misalkan bersyarat pada status penyakit dan kovariat lainnya , hasil tidak tergantung pada . Hasil dari, Yi=1i

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSi
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
Sangat mudah untuk melihat bahwa Di sini dan sebagaimana didefinisikan skema sampling Anda. Jadi,
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
Jika , kami memiliki dan Anda dapat menghilangkan masalah pemilihan sampel. Di sisi lain, jika , secara umum. Sebagai kasus tertentu, pertimbangkan model logit, Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
Bahkan ketika dan konstan di , distribusi yang dihasilkan tidak akan menyimpan formasi logit. Lebih penting lagi, intepretasi parameter akan sangat berbeda. Semoga argumen di atas membantu sedikit memperjelas masalah Anda.pi1pi0i

untuk memasukkan sebagai variabel penjelas tambahan, dan memperkirakan model berdasarkan . Untuk membenarkan validitas menggunakan , kita perlu membuktikan bahwa , yang setara dengan kondisi adalah statistik . Tanpa informasi lebih lanjut tentang proses pengambilan sampel Anda, saya tidak yakin apakah itu benar. Mari kita gunakan notasi abstrak. Variabel observabilitas dapat dilihat sebagai fungsi acak dan variabel acak lainnya, katakanlahDiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi . Nyatakan . Jika independen dari bersyarat pada dan , kita memiliki oleh definisi kemerdekaan. Namun, jika tidak terlepas dari setelah dikondisikan pada dan , secara intuitif berisi beberapa informasi yang relevan tentang , dan secara umum tidak diharapkan ituSi=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di) . Dengan demikian, dalam kasus 'bagaimanapun', ketidaktahuan pemilihan sampel bisa menyesatkan untuk inferensi. Saya tidak begitu terbiasa dengan literatur pemilihan sampel dalam ekonometrika. Saya akan merekomendasikan Bab 16 Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookvariabel dependen dan kualitatif terbatas dalam ekonometrik 'adalah pengobatan sistematis masalah tentang pemilihan sampel dan hasil diskrit.

semibruin
sumber
2
Terima kasih. Ini adalah jawaban yang bagus dan sangat masuk akal. Dalam aplikasi saya, asumsi bahwa tidak realistis. Tapi, sama baiknya menambahkan sebagai prediktor dan mempertimbangkan distribusi . Dengan menggunakan derivasi serupa, saya pikir Anda dapat menunjukkan bahwa jika , maka Anda baik-baik saja. Ini asumsi yang masuk akal dalam kasus saya. Bagaimana menurut anda? BTW, apakah Anda memiliki referensi yang menyebutkan masalah ini? Saya tidak akrab dengan literatur ekonometrik. P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
Makro
Saya nyaman memikirkan proses seleksi sebagai uji coba , yaitu Di bawah asumsi yang menghasilkan data ini, uji coba ini bersyarat independen terhadap , jadi saya pikir kami baik-baik saja. Saya menghargai upaya dan wawasan Anda tentang masalah ini dan saya menerima jawabannya. Dengan asumsi tidak ada yang datang dengan referensi tepat yang saya cari (saya lebih suka hanya "mengutip" masalah ini daripada menyimpang dari diskusi panjang), saya juga akan memberi Anda hadiah. Bersulang.
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
Makro
Proses seleksi ini sesuai dengan strategi Anda. Berdasarkan masalah pemilihan seperti itu, masalah Anda menjadi contoh hilang secara acak (MAR) dalam literatur data yang hilang. Terima kasih atas penghargaan Anda.
semibruin