Saya menjalankan regresi logistik biner dengan 3 variabel numerik. Saya menekan intersep dalam model saya karena probabilitas harus nol jika semua variabel input nol.
Berapa jumlah minimal pengamatan yang harus saya gunakan?
regression
logistic
pengguna333
sumber
sumber
Jawaban:
Ada satu cara untuk mencapai titik awal yang solid. Misalkan tidak ada kovariat, sehingga satu-satunya parameter dalam model adalah intersep. Berapa ukuran sampel yang diperlukan untuk memungkinkan estimasi intersep menjadi cukup tepat sehingga probabilitas yang diprediksi berada dalam 0,1 dari probabilitas sebenarnya dengan kepercayaan 95%, ketika intersep sebenarnya berada di lingkungan nol? Jawabannya adalah n = 96. Bagaimana jika ada satu kovariat, dan itu biner dengan prevalensi 0,5? Seseorang akan membutuhkan 96 subjek dengan x = 0 dan 96 dengan x = 1 untuk memiliki batas atas pada margin kesalahan untuk memperkirakan Prob [Y = 1 | X = x] tidak melebihi 0,1. Rumus umum untuk ukuran sampel yang diperlukan untuk mencapai margin kesalahan dalam memperkirakan probabilitas pada tingkat kepercayaan 0,95 adalahδ p n=(1.96δ)2×p(1−p) . Set untuk kasus terburuk.p=0.5
sumber
glmnet
ini untuk menemukan prediktor paling berguna pada tahap ini?Sebenarnya tidak ada jumlah minimum pengamatan. Pada dasarnya semakin banyak pengamatan yang Anda miliki, semakin banyak parameter model Anda dibatasi oleh data, dan semakin percaya diri model itu. Berapa banyak pengamatan yang Anda butuhkan tergantung pada sifat masalah dan seberapa percaya diri Anda dalam model Anda. Saya tidak berpikir itu adalah ide yang baik untuk terlalu mengandalkan "aturan praktis" tentang hal semacam ini, tetapi gunakan semua data yang bisa Anda dapatkan dan periksa interval kepercayaan / kredibilitas pada parameter model Anda dan prediksi.
sumber
Pembaruan: Saya tidak melihat komentar di atas, oleh @ David Harris, yang sangat mirip dengan saya. Maaf untuk itu. Kalian bisa menghapus jawaban saya jika terlalu mirip.
Saya akan posting Dikran Marsupail kedua dan menambahkan dua sen saya.
Pertimbangkan pengetahuan Anda sebelumnya tentang efek yang Anda harapkan dari variabel independen Anda. Jika Anda mengharapkan efek kecil, maka Anda akan membutuhkan sampel besar. Jika efeknya diharapkan besar, maka sampel kecil dapat melakukan pekerjaan itu.
Seperti yang Anda ketahui, kesalahan standar adalah fungsi dari ukuran sampel, jadi semakin besar ukuran sampel, semakin kecil kesalahan standar. Jadi, jika efeknya kecil, yaitu mendekati nol, hanya kesalahan standar kecil yang akan dapat mendeteksi efek ini, yaitu, untuk menunjukkan bahwa itu secara signifikan berbeda dari nol. Di sisi lain, jika efeknya besar (jauh dari nol), bahkan kesalahan standar yang besar akan menghasilkan hasil yang signifikan.
Jika Anda membutuhkan referensi, lihat Blog Andrew Gelmans.
sumber
Tampaknya untuk mendapatkan estimasi yang dapat diterima kita harus menerapkan aturan yang telah diteliti oleh peneliti lain. Saya setuju dengan dua aturan praktis di atas (10 obs untuk setiap var. Dan rumus oleh Harrell). Di sini, ada pertanyaan lain bahwa data itu diungkapkan atau dinyatakan preferensi. Hosmer dan Lemeshow dalam buku mereka telah memberikan aturan untuk diungkap dan Louviere dan Hensher dalam buku mereka (Metode preferensi yang tercantum) memberikan aturan untuk data preferensi yang dinyatakan
sumber