Haruskah pengambilan sampel untuk regresi logistik mencerminkan rasio nyata dari 1 dan 0?

23

Misalkan saya ingin membuat model regresi logistik yang dapat memperkirakan probabilitas kemunculan beberapa spesies hewan yang hidup di pohon berdasarkan karakteristik pohon (tinggi fe). Seperti biasa, waktu dan uang saya terbatas, oleh karena itu saya hanya dapat mengumpulkan ukuran sampel yang terbatas.

Saya memiliki pertanyaan berikut: Haruskah rasio 1 dan 0 dalam sampel saya mencerminkan rasio sebenarnya dari 1 dan 0? (setidaknya kira-kira) Saya perhatikan bahwa itu adalah praktik umum untuk melakukan model regresi logistik dengan sampel seimbang (jumlah yang sama antara 1 dan 0) - tetapi model seperti itu memberikan kemungkinan kejadian yang sangat tinggi secara realistis - bukan?

Apakah ada artikel / buku teks yang dapat saya gunakan untuk ** mendukung gagasan, bahwa model yang tidak mencerminkan rasio sebenarnya dari 1 dan 0 adalah " salah "? **

Dan akhirnya: Apakah mungkin untuk melakukan pengambilan sampel 1: 1 dan kemudian memperbaiki model dengan tau menurut Imai et al. 2007?

Kosuke Imai, Gary King, dan Olivia Lau. 2007. "relogit: Regresi Logistik Acara Langka untuk Variabel Ketergantungan pada Dikotomi," di Kosuke Imai, Gary King, dan Olivia Lau, "Zelig: Perangkat Lunak Statistik Semua Orang," http: //gking.harvard.edu/zelig.

masukkan deskripsi gambar di sini

Titik mewakili pohon (merah = diduduki, abu-abu = tidak dihuni). Saya dapat mengidentifikasi semua pohon yang ditempati dengan akurasi 100% (1) tetapi saya tidak dapat mengukur semua pohon di hutan. Model berbeda untuk setiap strategi pengambilan sampel (rasio).

Ladislav Naďo
sumber

Jawaban:

15

Jika tujuan dari model tersebut adalah prediksi, maka Anda tidak dapat menggunakan regresi logistik tanpa bobot untuk memprediksi hasil: Anda akan melebih-lebihkan risiko. Kekuatan model logistik adalah bahwa rasio odds (OR) - "kemiringan" yang mengukur hubungan antara faktor risiko dan hasil biner dalam model logistik - tidak berubah terhadap pengambilan sampel bergantung pada hasil. Jadi, jika kasus diambil sampel dalam rasio 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 untuk kontrol, itu sama sekali tidak masalah: OR tetap tidak berubah dalam skenario mana pun selama pengambilan sampel tanpa syarat. pada paparan (yang akan memperkenalkan bias Berkson). Memang, pengambilan sampel tergantung hasil adalah upaya penghematan biaya ketika pengambilan sampel acak sederhana lengkap tidak akan terjadi.

Mengapa prediksi risiko bias dari pengambilan sampel tergantung hasil menggunakan model logistik? Sampling dependen hasil berdampak pada intersep dalam model logistik. Hal ini menyebabkan kurva asosiasi berbentuk S "meluncur ke atas sumbu x" oleh perbedaan dalam log-odds pengambilan sampel kasus dalam sampel acak sederhana dalam populasi dan log-odds pengambilan sampel kasus dalam pseudo -populasi dari desain eksperimental Anda. (Jadi jika Anda memiliki 1: 1 kasus untuk kontrol, ada kemungkinan 50% untuk mengambil sampel kasus dalam populasi semu ini). Dalam hasil yang jarang terjadi, ini adalah perbedaan yang sangat besar, faktor 2 atau 3.

Ketika Anda berbicara tentang model seperti itu "salah", Anda harus fokus pada apakah tujuannya inferensi (kanan) atau prediksi (salah). Ini juga membahas rasio hasil terhadap kasus. Bahasa yang cenderung Anda lihat di sekitar topik ini adalah menyebut studi semacam itu sebagai studi "kontrol kasus", yang telah ditulis secara luas. Mungkin publikasi favorit saya tentang topik ini adalah Breslow and Day yang sebagai studi penting mengkarakterisasi faktor risiko untuk penyebab kanker yang langka (sebelumnya tidak dapat dilakukan karena kelangkaan peristiwa). Studi kontrol kasus memicu beberapa kontroversi seputar kesalahan interpretasi temuan: terutama menggabungkan OR dengan RR (melebih-lebihkan temuan) dan juga "basis studi" sebagai perantara sampel dan populasi yang meningkatkan temuan.memberikan kritik yang sangat baik terhadap mereka. Namun, tidak ada kritik yang mengklaim bahwa studi kasus-kontrol secara inheren tidak valid, maksud saya bagaimana Anda bisa? Mereka telah memajukan kesehatan masyarakat di jalan yang tak terhitung banyaknya. Artikel Miettenen bagus dalam menunjukkan bahwa, Anda bahkan dapat menggunakan model risiko relatif atau model lain dalam pengambilan sampel tergantung hasil dan menggambarkan perbedaan antara hasil dan temuan tingkat populasi dalam banyak kasus: itu tidak terlalu buruk karena OR biasanya merupakan parameter yang sulit menafsirkan.

Mungkin cara terbaik dan termudah untuk mengatasi bias oversampling dalam prediksi risiko adalah dengan menggunakan kemungkinan tertimbang. Scott dan Wild mendiskusikan bobot dan menunjukkan koreksi jangka waktu intersepsi dan prediksi risiko model. Ini adalah pendekatan terbaik ketika ada pengetahuan apriori tentang proporsi kasus dalam populasi. Jika prevalensi hasil sebenarnya 1: 100 dan Anda sampel kasus ke kontrol dalam mode 1: 1, Anda cukup mengontrol berat badan dengan besarnya 100 untuk mendapatkan parameter populasi yang konsisten dan prediksi risiko yang tidak bias. Kelemahan dari metode ini adalah tidak memperhitungkan ketidakpastian dalam prevalensi populasi jika telah diperkirakan ada kesalahan di tempat lain. Ini adalah area penelitian terbuka yang luas, Lumley dan Breslowdatang sangat jauh dengan beberapa teori tentang pengambilan sampel dua fase dan penduga ganda kuat. Saya pikir ini hal yang sangat menarik. Program Zelig tampaknya hanya menjadi implementasi dari fitur bobot (yang tampaknya sedikit berlebihan karena fungsi glm R memungkinkan untuk bobot).

AdamO
sumber
(+1) Apakah koreksi sebelumnya layak disebut sebagai cara termudah untuk menyesuaikan intersep untuk sampling kontrol kasus sederhana?
Scortchi
@ Scortchi Maksud Anda regresi logistik Bayesian dengan informasi informatif sebelum intersepsi? Atau optimasi yang dibatasi? Sebenarnya saya tidak terbiasa dengan apa itu.
AdamO
1
Hanya perhitungan sederhana di sini: stats.stackexchange.com/a/68726/17230 . (Saya tidak yakin sekarang di mana saya mengambil terminologi itu atau bagaimana standarnya.) Saya mendengar bahwa pembobotan bekerja lebih baik untuk model yang tidak ditentukan.
Scortchi
@Scortchi Ah, itu akan sangat mudah! Ini harus baik untuk prediksi selama estimasi kesalahan tidak diperlukan. Pembobotan akan memberi Anda SE yang berbeda untuk intersep dan kemiringan tetapi metode ini tidak akan memengaruhi keduanya.
AdamO