Memperkirakan koefisien regresi logistik dalam desain kasus kontrol ketika variabel hasil bukan status kasus / kontrol

Pertimbangkan pengambilan sampel data dari populasi berukuran dengan cara berikut: Untuk $N$ $k=1, ..., N$

Amati status "penyakit" individu $k$
Jika mereka memiliki penyakit, masukkan mereka dalam sampel dengan probabilitas $p_{k1}$
Jika mereka tidak memiliki penyakit, sertakan mereka dengan probabilitas . $p_{k0}$

Misalkan Anda mengamati variabel hasil biner dan vektor prediktor , untuk subjek disampel dengan cara ini. Variabel hasil bukanlah status "penyakit". Saya ingin memperkirakan parameter model regresi logistik: $Y_i$ ${\bf X}_i$ $i=1, ..., n$

\log (\frac{P (Y_{i} = 1 | X_{i})}{P (Y_{i} = 0 | X_{i})}) = α + X_{i} β

$\log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \alpha + {\bf X}_i {\boldsymbol \beta}$

Yang saya pedulikan hanyalah rasio odds (log), ${\boldsymbol \beta}$ . Mencegat itu tidak relevan bagi saya.

Pertanyaan saya adalah: Dapatkah saya mendapatkan estimasi yang masuk akal dari ${\boldsymbol \beta}$ dengan mengabaikan probabilitas sampling $\{ p_{i1}, p_{i0} \}$ , $i=1, ..., n$ dan menyesuaikan model seolah-olah itu sampel acak biasa?

Saya cukup yakin jawaban untuk pertanyaan ini adalah "ya". Yang saya cari adalah referensi yang memvalidasi ini.

Ada dua alasan utama saya yakin tentang jawabannya:

Saya telah melakukan banyak studi simulasi dan tidak satupun yang bertentangan dengan ini, dan
Sangat mudah untuk menunjukkan bahwa, jika populasi diatur oleh model di atas, maka model yang mengatur data sampel adalah

\log (\frac{P (Y_{i} = 1 | X_{i})}{P (Y_{i} = 0 | X_{i})}) = \log (p_{i 1}) - \log (p_{i 0}) + α + X_{i} β

$\log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \log(p_{i1}) - \log(p_{i0}) + \alpha + {\bf X}_i {\boldsymbol \beta}$

Jika probabilitas pengambilan sampel tidak bergantung pada , maka ini akan mewakili pergeseran sederhana ke intersepsi dan estimasi titik jelas tidak akan terpengaruh. Tetapi, jika offset berbeda untuk setiap orang, logika ini tidak cukup berlaku karena Anda pasti akan mendapatkan estimasi titik yang berbeda, meskipun saya menduga sesuatu yang serupa tidak. $i$ ${\boldsymbol \beta}$

Terkait: Makalah klasik oleh Prentice dan Pyke (1979) mengatakan bahwa koefisien regresi logistik dari kasus-kontrol (dengan status penyakit sebagai hasilnya) memiliki distribusi yang sama dengan yang dikumpulkan dari studi prospektif. Saya menduga hasil yang sama ini akan berlaku di sini, tetapi saya harus mengakui bahwa saya tidak sepenuhnya memahami setiap bit kertas.

Terima kasih sebelumnya atas segala komentar / referensi.

logistic case-control-study Makro
sumber

Anda menyatakan bahwa "variabel hasil bukanlah status penyakit ". Apa yang tunjukkan? Selamat datang kembali di CV, btw.

Y_{i} = 1

$Y_i=1$

gung - Reinstate Monica

Y_{i}

$Y_i$ adalah variabel yang berbeda. Maksud saya adalah bahwa variabel yang menentukan probabilitas sampling Anda (biasanya status penyakit dalam kontrol kasus) tidak sama dengan variabel hasil - pikirkan analisis sekunder dari kumpulan data. Sebagai contoh, katakanlah sampel dihasilkan oleh pengambilan sampel secara sistematis pengguna narkoba dan seperangkat tambahan (frekuensi cocok, kovariat tertentu) dari pengguna non narkoba tetapi variabel hasil yang Anda pelajari adalah beberapa pengukuran perilaku lainnya. Dalam hal ini skema pengambilan sampel adalah gangguan. Terima kasih, btw!

Makro

Ini adalah variasi dari model pemilihan dalam ekonometrika. Validitas estimasi hanya menggunakan sampel yang dipilih di sini tergantung pada kondisi bahwa . Berikut adalah 's status penyakit. $\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)=\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)$ $D_i$ $i$

Untuk memberikan perincian lebih lanjut, tentukan notasi berikut: dan ; merujuk pada peristiwa bahwa ada dalam sampel. Selain itu, anggap tidak bergantung pada untuk kesederhanaan. $\pi_{1}=\Pr\left(D_{i}=1\right)$ $\pi_{0}=\Pr\left(D_{i}=0\right)$ $S_{i}=1$ $i$ $D_{i}$ $X_{i}$

Probabilitas untuk unit dalam sampel adalah oleh hukum pengulangan yang diulangi. Misalkan bersyarat pada status penyakit dan kovariat lainnya , hasil tidak tergantung pada . Hasil dari, $Y_{i}=1$ $i$

\begin{array}{rcl} Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) & = & E (Y_{i} ∣ X_{i}, S_{i} = 1) \\ = & E {E (Y_{i} ∣ X_{i}, D_{i}, S_{i} = 1) ∣ X_{i}, S_{i} = 1} \\ = & Pr (D_{i} = 1 ∣ S_{i} = 1) Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1, S_{i} = 1) + \\ Pr (D_{i} = 0 ∣ S_{i} = 1) Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0, S_{i} = 1), \end{array}

$\begin{eqnarray*} \Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right) & = & \mathrm{{E}}\left(Y_{i}\mid X_{i},S_{i}=1\right)\\ & = & \mathrm{{E}}\left\{ \mathrm{{E}}\left(Y_{i}\mid X_{i},D_{i},S_{i}=1\right)\mid X_{i},S_{i}=1\right\} \\ & = & \Pr\left(D_{i}=1\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1,S_{i}=1\right)+\\ & & \Pr\left(D_{i}=0\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0,S_{i}=1\right), \end{eqnarray*}$

D_{i}

$D_{i}$

X_{i}

$X_{i}$

Y_{i}

$Y_{i}$

S_{i}

$S_{i}$

\begin{array}{rcl} Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) & = & Pr (D_{i} = 1 ∣ S_{i} = 1) Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) + \\ Pr (D_{i} = 0 ∣ S_{i} = 1) Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0) . \end{array}

$\begin{eqnarray*} \Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right) & = & \Pr\left(D_{i}=1\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)+\\ & & \Pr\left(D_{i}=0\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right). \end{eqnarray*}$ Sangat mudah untuk melihat bahwa Di sini dan sebagaimana didefinisikan skema sampling Anda. Jadi,

Pr (D_{i} = 1 ∣ S_{i} = 1) = \frac{π_{1} p_{i 1}}{π_{1} p_{i 1} + π_{0} p_{i 0}} and Pr (D_{i} = 0 ∣ S_{i} = 1) = \frac{π_{0} p_{i 0}}{π_{1} p_{i 1} + π_{0} p_{i 0}} .

$\Pr\left(D_{i}=1\mid S_{i}=1\right)=\frac{\pi_{1}p_{i1}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}\mbox{ and }\Pr\left(D_{i}=0\mid S_{i}=1\right)=\frac{\pi_{0}p_{i0}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}.$

p_{i 1}

$p_{i1}$

p_{i 0}

$p_{i0}$

Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) = \frac{π_{1} p_{i 1}}{π_{1} p_{i 1} + π_{0} p_{i 0}} Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) + \frac{π_{0} p_{i 0}}{π_{1} p_{i 1} + π_{0} p_{i 0}} Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0) .

$\Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right)=\frac{\pi_{1}p_{i1}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)+\frac{\pi_{0}p_{i0}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right).$ Jika , kami memiliki dan Anda dapat menghilangkan masalah pemilihan sampel. Di sisi lain, jika , secara umum. Sebagai kasus tertentu, pertimbangkan model logit,

Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) = Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0)

$\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)=\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)$

Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) = Pr (Y_{i} = 1 ∣ X_{i}),

$\Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right)=\Pr\left(Y_{i}=1\mid X_{i}\right),$

Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) \neq Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0)

$\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)\neq\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)$

Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) \neq Pr (Y_{i} = 1 ∣ X_{i})

$\Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right)\neq\Pr\left(Y_{i}=1\mid X_{i}\right)$

Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) = \frac{e^{X_{i}^{'} α}}{1 + e^{X_{i}^{'} α}} and Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0) = \frac{e^{X_{i}^{'} β}}{1 + e^{X_{i}^{'} β}} .

$\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)=\frac{e^{X_{i}'\alpha}}{1+e^{X_{i}'\alpha}}\mbox{ and }\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)=\frac{e^{X_{i}'\beta}}{1+e^{X_{i}'\beta}}.$ Bahkan ketika dan konstan di , distribusi yang dihasilkan tidak akan menyimpan formasi logit. Lebih penting lagi, intepretasi parameter akan sangat berbeda. Semoga argumen di atas membantu sedikit memperjelas masalah Anda.

p_{i 1}

$p_{i1}$

p_{i 0}

$p_{i0}$

i

$i$

untuk memasukkan sebagai variabel penjelas tambahan, dan memperkirakan model berdasarkan . Untuk membenarkan validitas menggunakan , kita perlu membuktikan bahwa , yang setara dengan kondisi adalah statistik . Tanpa informasi lebih lanjut tentang proses pengambilan sampel Anda, saya tidak yakin apakah itu benar. Mari kita gunakan notasi abstrak. Variabel observabilitas dapat dilihat sebagai fungsi acak dan variabel acak lainnya, katakanlah $D_{i}$ $\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ $\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ $\Pr\left(Y_{i}\mid X_{i},D_{i},S_{i}=1\right)=\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ $D_{i}$ $S_{i}$ $S_{i}$ $D_{i}$ $\mathbf{Z}_{i}$ . Nyatakan . Jika independen dari bersyarat pada dan , kita memiliki oleh definisi kemerdekaan. Namun, jika tidak terlepas dari setelah dikondisikan pada dan , secara intuitif berisi beberapa informasi yang relevan tentang , dan secara umum tidak diharapkan itu $S_{i}=S\left(D_{i},\mathbf{Z}_{i}\right)$ $\mathbf{Z}_{i}$ $Y_{i}$ $X_{i}$ $D_{i}$ $\Pr\left(Y_{i}\mid X_{i},D_{i},S\left(D_{i},\mathbf{Z}_{i}\right)\right)=\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ $\mathbf{Z}_{i}$ $Y_{i}$ $X_{i}$ $D_{i}$ $\mathbf{Z}_{i}$ $Y_{i}$ $\Pr\left(Y_{i}\mid X_{i},D_{i},S\left(D_{i},\mathbf{Z}_{i}\right)\right)=\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ . Dengan demikian, dalam kasus 'bagaimanapun', ketidaktahuan pemilihan sampel bisa menyesatkan untuk inferensi. Saya tidak begitu terbiasa dengan literatur pemilihan sampel dalam ekonometrika. Saya akan merekomendasikan Bab 16 Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookvariabel dependen dan kualitatif terbatas dalam ekonometrik 'adalah pengobatan sistematis masalah tentang pemilihan sampel dan hasil diskrit.

semibruin
sumber

Terima kasih. Ini adalah jawaban yang bagus dan sangat masuk akal. Dalam aplikasi saya, asumsi bahwa tidak realistis. Tapi, sama baiknya menambahkan sebagai prediktor dan mempertimbangkan distribusi . Dengan menggunakan derivasi serupa, saya pikir Anda dapat menunjukkan bahwa jika , maka Anda baik-baik saja. Ini asumsi yang masuk akal dalam kasus saya. Bagaimana menurut anda? BTW, apakah Anda memiliki referensi yang menyebutkan masalah ini? Saya tidak akrab dengan literatur ekonometrik.

P (Y_{i} | X_{i}, D_{i} = 1) = P (Y_{i} | X_{i}, D_{i} = 0)

$P(Y_i|X_i,D_i=1)=P(Y_i|X_i,D_i=0)$

D_{i}

$D_i$

P (Y_{i} | X_{i}, D_{i})

$P(Y_i|X_i,D_i)$

P (Y_{i} = 1 | X_{i}, D_{i}, S_{i} = 1) = P (Y_{i} = 1 | X_{i}, D_{i}, S_{i} = 0)

$P(Y_i=1|X_i,D_i,S_i=1)=P(Y_i=1|X_i,D_i,S_i=0)$

Makro

Saya nyaman memikirkan proses seleksi sebagai uji coba , yaitu Di bawah asumsi yang menghasilkan data ini, uji coba ini bersyarat independen terhadap , jadi saya pikir kami baik-baik saja. Saya menghargai upaya dan wawasan Anda tentang masalah ini dan saya menerima jawabannya. Dengan asumsi tidak ada yang datang dengan referensi tepat yang saya cari (saya lebih suka hanya "mengutip" masalah ini daripada menyimpang dari diskusi panjang), saya juga akan memberi Anda hadiah. Bersulang.

S_{i} | D_{i} = d, X_{i} = x \sim B e r n o u l l i (p (x, d))

$S_i | D_i=d, X_i=x \sim {\rm Bernoulli} \big( p(x, d) \big)$

Y_{i}

$Y_i$

Makro

Proses seleksi ini sesuai dengan strategi Anda. Berdasarkan masalah pemilihan seperti itu, masalah Anda menjadi contoh hilang secara acak (MAR) dalam literatur data yang hilang. Terima kasih atas penghargaan Anda.

semibruin

Memperkirakan koefisien regresi logistik dalam desain kasus kontrol ketika variabel hasil bukan status kasus / kontrol

Jawaban: