Jumlah minimum pengamatan untuk regresi logistik?

9

Saya menjalankan regresi logistik biner dengan 3 variabel numerik. Saya menekan intersep dalam model saya karena probabilitas harus nol jika semua variabel input nol.

Berapa jumlah minimal pengamatan yang harus saya gunakan?

pengguna333
sumber
10
Anda perlu intersep dari untuk melakukan itu! Pencegatan 0 sesuai dengan probabilitas 11+exp(0)=1/2 , bukan 0 , ketika semua variabel independen adalah nol.
whuber
2
Ada diskusi terkait di sini: sampel-ukuran-untuk-logistik-regresi .
gung - Reinstate Monica

Jawaban:

19

Ada satu cara untuk mencapai titik awal yang solid. Misalkan tidak ada kovariat, sehingga satu-satunya parameter dalam model adalah intersep. Berapa ukuran sampel yang diperlukan untuk memungkinkan estimasi intersep menjadi cukup tepat sehingga probabilitas yang diprediksi berada dalam 0,1 dari probabilitas sebenarnya dengan kepercayaan 95%, ketika intersep sebenarnya berada di lingkungan nol? Jawabannya adalah n = 96. Bagaimana jika ada satu kovariat, dan itu biner dengan prevalensi 0,5? Seseorang akan membutuhkan 96 subjek dengan x = 0 dan 96 dengan x = 1 untuk memiliki batas atas pada margin kesalahan untuk memperkirakan Prob [Y = 1 | X = x] tidak melebihi 0,1. Rumus umum untuk ukuran sampel yang diperlukan untuk mencapai margin kesalahan dalam memperkirakan probabilitas pada tingkat kepercayaan 0,95 adalahδpn=(1.96δ)2×p(1p) . Set untuk kasus terburuk.p=0.5

Frank Harrell
sumber
Saya menghargai bantuan Anda di forum ini. Saya memiliki ~ 90000 acara dan ~ 2000000 non-acara. Saya perlu model logistik dengan 65 prediktor. Sekarang bagaimana dan berapa banyak sampel yang bisa saya ambil. sebenarnya pertanyaan saya terkait dengan stats.stackexchange.com/questions/268201/…
SIslam
2
Tidak ada masalah dengan pemasangan 65 secara bersamaan dengan ukuran sampel efektif Anda.
Frank Harrell
tetapi saya disarankan bahwa terlalu banyak sampel dapat menyebabkan masalah karena saya mendapatkan psudo r kuadrat rendah.
SIslam
3
Apa Anda sedang bercanda? Jika rendah menggunakan sampel besar, itu adalah estimasi paling akurat dari dan menjatuhkan pengamatan tidak akan meningkatkan kinerja model; itu hanya akan memperburuknya. Melengkapi dengan lainnya lebih mudah untuk memahami metrik seperti -index (konkordansi probabilitas; daerah ROC). Dan yang terpenting, abaikan saran apa pun untuk "menyeimbangkan" frekuensi kategori hasil. R2R2R2c
Frank Harrell
Apakah saya perlu menggunakan glmnet ini untuk menemukan prediktor paling berguna pada tahap ini?
SIslam
9

Sebenarnya tidak ada jumlah minimum pengamatan. Pada dasarnya semakin banyak pengamatan yang Anda miliki, semakin banyak parameter model Anda dibatasi oleh data, dan semakin percaya diri model itu. Berapa banyak pengamatan yang Anda butuhkan tergantung pada sifat masalah dan seberapa percaya diri Anda dalam model Anda. Saya tidak berpikir itu adalah ide yang baik untuk terlalu mengandalkan "aturan praktis" tentang hal semacam ini, tetapi gunakan semua data yang bisa Anda dapatkan dan periksa interval kepercayaan / kredibilitas pada parameter model Anda dan prediksi.

Dikran Marsupial
sumber
tidak ada jumlah minimum! Saya memiliki ~ 90000 acara dan ~ 2000000 non-acara. Saya perlu model logistik dengan 65 regressor. Saya diberitahu bahwa ini terlalu banyak sampel, karena saya mengambil seluruh ~ 90000 peristiwa ini dan ~ 90000 bukan peristiwa yang dipilih secara acak dari ~ 2000000, cobalah untuk mengurangi sampel sementara sampel representatif. pada tahap ini berapa banyak sampel yang bisa saya ambil dan bagaimana caranya. Sebenarnya saya merujuk stats.stackexchange.com/questions/268201/…
SIslam
3
Tidak jangan lakukan itu
Frank Harrell
1
Saya setuju dengan @FrankHarrell (mungkin karena alasan yang berbeda?). Masalah "ketidakseimbangan kelas" cenderung hilang semakin banyak data yang Anda kumpulkan, dan jika Anda secara artifisial menyeimbangkan data pelatihan, Anda memberi tahu model bahwa frekuensi kelas operasional 50-50, yang mungkin tidak benar, dan Anda akan lebih mengklasifikasikan kelas minoritas dalam penggunaan operasional. Jika Anda melakukan ini, maka pasca-proses probabilitas output untuk menyesuaikan perbedaan dalam pelatihan dan frekuensi kelas operasional (pada titik mana Anda mungkin akan mendapatkan hasil yang sama seperti pelatihan dengan semua data).
Dikran Marsupial
0

Pembaruan: Saya tidak melihat komentar di atas, oleh @ David Harris, yang sangat mirip dengan saya. Maaf untuk itu. Kalian bisa menghapus jawaban saya jika terlalu mirip.

Saya akan posting Dikran Marsupail kedua dan menambahkan dua sen saya.

Pertimbangkan pengetahuan Anda sebelumnya tentang efek yang Anda harapkan dari variabel independen Anda. Jika Anda mengharapkan efek kecil, maka Anda akan membutuhkan sampel besar. Jika efeknya diharapkan besar, maka sampel kecil dapat melakukan pekerjaan itu.

Seperti yang Anda ketahui, kesalahan standar adalah fungsi dari ukuran sampel, jadi semakin besar ukuran sampel, semakin kecil kesalahan standar. Jadi, jika efeknya kecil, yaitu mendekati nol, hanya kesalahan standar kecil yang akan dapat mendeteksi efek ini, yaitu, untuk menunjukkan bahwa itu secara signifikan berbeda dari nol. Di sisi lain, jika efeknya besar (jauh dari nol), bahkan kesalahan standar yang besar akan menghasilkan hasil yang signifikan.

Jika Anda membutuhkan referensi, lihat Blog Andrew Gelmans.

Manoel Galdino
sumber
1
Blog Gelman semakin besar :-). Apakah Anda memiliki pos tertentu dalam pikiran?
whuber
@ Wouber, Anda benar, saya seharusnya menunjuk ke sesuatu yang lebih spesifik. Dia memiliki beberapa presentasi pembicaraan baru-baru ini tentang efek kecil dan beberapa perbandingan, tetapi saya pikir tautan berikut sudah cukup: stat.columbia.edu/ ~gelman
Manoel Galdino
1
tautan di komentar sudah mati dan tidak ada referensi ke posting tertentu dari blog yang disebutkan
baxx
0

Tampaknya untuk mendapatkan estimasi yang dapat diterima kita harus menerapkan aturan yang telah diteliti oleh peneliti lain. Saya setuju dengan dua aturan praktis di atas (10 obs untuk setiap var. Dan rumus oleh Harrell). Di sini, ada pertanyaan lain bahwa data itu diungkapkan atau dinyatakan preferensi. Hosmer dan Lemeshow dalam buku mereka telah memberikan aturan untuk diungkap dan Louviere dan Hensher dalam buku mereka (Metode preferensi yang tercantum) memberikan aturan untuk data preferensi yang dinyatakan

Ahmad
sumber
2
Ini akan mendapat manfaat dari penjelasan yang lebih lengkap dan juga referensi yang lengkap dan tepat.
Nick Cox