Saya ingin membuat model logistik dari data survei saya. Ini adalah survei kecil dari empat koloni tempat tinggal di mana hanya 154 responden yang diwawancarai. Variabel dependen saya adalah "transisi yang memuaskan untuk bekerja". Saya menemukan bahwa, dari 154 responden, 73 mengatakan bahwa mereka telah beralih ke pekerjaan dengan memuaskan, sedangkan sisanya tidak. Jadi variabel dependen bersifat biner dan saya memutuskan untuk menggunakan regresi logistik. Saya memiliki tujuh variabel independen (tiga kontinu dan empat nominal). Satu pedoman menyarankan bahwa harus ada 10 kasus untuk setiap variabel prediktor / independen (Agresti, 2007). Berdasarkan pedoman ini, saya merasa tidak masalah menjalankan regresi logistik.
Apakah saya benar? Jika tidak, tolong beri tahu saya cara memutuskan jumlah variabel independen?
sumber
1
's) dan 90 non-kasus (0
' s), maka aturan mengatakan "sertakan hanya 1 prediktor". Tetapi bagaimana jika saya memodelkan0
's bukannya1
' dan kemudian saya mengambil kebalikan dari rasio odds yang diperkirakan? Apakah saya diizinkan memasukkan 9 prediktor? Itu tidak masuk akal bagi saya.Jawaban:
Ada beberapa masalah di sini.
Biasanya, kami ingin menentukan ukuran sampel minimum untuk mencapai tingkat kekuatan statistik yang dapat diterima secara minimal . Ukuran sampel yang diperlukan adalah fungsi dari beberapa faktor, terutama besarnya efek yang Anda inginkan agar dapat dibedakan dari 0 (atau nol apa pun yang Anda gunakan, tetapi 0 paling umum), dan probabilitas minimum penangkapan yang mempengaruhi Anda ingin memiliki. Bekerja dari perspektif ini, ukuran sampel ditentukan oleh analisis daya.
Pertimbangan lain adalah stabilitas model Anda (seperti catatan @cbeleites). Pada dasarnya, ketika rasio parameter yang diestimasi dengan jumlah data mendekati 1, model Anda akan menjadi jenuh, dan tentu saja akan overfit (kecuali, pada kenyataannya, tidak ada keacakan dalam sistem). Aturan praktis 1 banding 10 berasal dari perspektif ini. Perhatikan bahwa memiliki kekuatan yang memadai umumnya akan mencakup masalah ini untuk Anda, tetapi tidak sebaliknya.
Aturan 1 hingga 10 berasal dari dunia regresi linier, dan penting untuk mengetahui bahwa regresi logistik memiliki kompleksitas tambahan. Satu masalah adalah bahwa regresi logistik bekerja paling baik ketika persentase 1 dan 0 adalah sekitar 50% / 50% (seperti yang dibahas oleh @andrea dan @psj dalam komentar di atas). Masalah lain yang harus diperhatikan adalah pemisahan . Artinya, Anda tidak ingin semua 1 Anda dikumpulkan pada satu ekstrim dari variabel independen (atau kombinasi dari mereka), dan semua 0 di ekstrem lainnya. Meskipun ini akan tampak seperti situasi yang baik, karena itu akan membuat prediksi sempurna menjadi mudah, itu sebenarnya membuat proses estimasi parameter meledak. (@Scortchi memiliki diskusi yang sangat baik tentang bagaimana menghadapi pemisahan dalam regresi logistik di sini:Bagaimana cara mengatasi pemisahan yang sempurna dalam regresi logistik? ) Dengan lebih banyak IV, ini menjadi lebih mungkin, bahkan jika besaran sebenarnya dari efek dijaga konstan, dan terutama jika tanggapan Anda tidak seimbang. Dengan demikian, Anda dapat dengan mudah membutuhkan lebih dari 10 data per IV.
Satu masalah terakhir dengan aturan praktis itu, adalah mengasumsikan IV Anda ortogonal . Ini masuk akal untuk eksperimen yang dirancang, tetapi dengan studi observasional seperti milik Anda, IV Anda hampir tidak akan pernah menjadi hampir orthogonal. Ada strategi untuk menghadapi situasi ini (misalnya, menggabungkan atau menjatuhkan IV, melakukan analisis komponen utama terlebih dahulu, dll.), Tetapi jika tidak ditangani (yang umum), Anda akan memerlukan lebih banyak data.
Maka pertanyaan yang masuk akal, apakah seharusnya N minimum Anda, dan / atau apakah ukuran sampel Anda memadai? Untuk mengatasinya, saya sarankan Anda menggunakan metode yang membahas @cbeleites; mengandalkan aturan 1 hingga 10 tidak akan cukup.
sumber
Saya biasanya menggunakan aturan 15: 1 (rasio min (peristiwa, non-peristiwa) dengan jumlah parameter kandidat dalam model). Pekerjaan yang lebih baru menemukan bahwa untuk validasi yang lebih ketat 20: 1 diperlukan. Informasi lebih lanjut dapat ditemukan dalam handout mata kuliah saya yang ditautkan dari http://biostat.mc.vanderbilt.edu/rms , khususnya argumen untuk ukuran sampel minimum 96 hanya untuk memperkirakan intersep. Tetapi persyaratan ukuran sampel lebih bernuansa, dan kertas yang lebih baru membahas ini lebih komprehensif.
sumber
Biasanya, terlalu sedikit kasus wrt. kompleksitas model (jumlah parameter) berarti model tersebut stabil . Jadi jika Anda ingin tahu apakah ukuran sampel / kompleksitas modelnya OK, periksa apakah Anda mendapatkan model yang cukup stabil.
Ada (setidaknya) dua jenis ketidakstabilan:
Itu parameter model bervariasi banyak dengan perubahan hanya sedikit dalam data pelatihan.
Itu prediksi (untuk kasus yang sama) dari model dilatih dengan sedikit perubahan dalam data pelatihan bervariasi banyak.
Anda dapat mengukur 1. dengan melihat seberapa besar koefisien model Anda bervariasi jika data pelatihan sedikit terganggu. Sekelompok model yang sesuai dapat dihitung misalnya selama bootstrap atau (validasi) prosedur validasi silang.
Untuk beberapa jenis model atau masalah, berbagai parameter tidak menyiratkan berbagai prediksi. Anda dapat langsung memeriksa ketidakstabilan 2. dengan melihat variasi prediksi untuk kasus yang sama (terlepas dari apakah mereka benar atau tidak) dihitung selama out-of-bootstrap atau validasi silang berulang.
sumber
Tidak ada aturan ketat, tetapi Anda dapat memasukkan semua variabel independen selama variabel nominal tidak memiliki terlalu banyak kategori. Anda memerlukan satu "beta" untuk semua kecuali satu kelas untuk setiap variabel nominal. Jadi jika variabel nominal adalah "area kerja" dan Anda memiliki 30 area, maka Anda akan membutuhkan 29 beta.
Salah satu cara untuk mengatasi masalah ini adalah dengan mengatur beta - atau menghukum untuk koefisien yang besar. Ini membantu memastikan bahwa model Anda tidak sesuai dengan data. Regularisasi L2 dan L1 adalah pilihan populer.
Masalah lain yang perlu dipertimbangkan adalah seberapa representatif sampel Anda. Populasi apa yang ingin Anda simpulkan? apakah Anda memiliki semua tipe orang yang berbeda dalam sampel yang ada dalam populasi? akan sulit untuk membuat kesimpulan yang akurat jika sampel Anda memiliki "lubang" (mis. tidak ada perempuan berusia 35-50 dalam sampel atau tidak ada pekerja berpenghasilan tinggi dll)
sumber
Berikut adalah jawaban aktual dari situs web MedCalc yang ditulis pengguna41466
http://www.medcalc.org/manual/logistic_regress.php
Pertimbangan ukuran sampel
Perhitungan ukuran sampel untuk regresi logistik adalah masalah yang kompleks, tetapi didasarkan pada karya Peduzzi et al. (1996) pedoman berikut untuk jumlah minimum kasus untuk dimasukkan dalam penelitian Anda dapat disarankan. Misalkan p adalah proporsi terkecil dari kasus negatif atau positif dalam populasi dan k jumlah kovariat (jumlah variabel independen), maka jumlah minimum kasus untuk dimasukkan adalah: N = 10 k / p Misalnya: Anda memiliki 3 kovariat untuk dimasukkan dalam model dan proporsi kasus positif dalam populasi adalah 0,20 (20%). Jumlah minimum kasus yang diperlukan adalah N = 10 x 3 / 0,20 = 150 Jika jumlah yang dihasilkan kurang dari 100 Anda harus menambahnya menjadi 100 seperti yang disarankan oleh Long (1997).
Peduzzi P, Concato J, E Kemper, Holford TR, Feinstein AR (1996) Sebuah studi simulasi dari jumlah kejadian per variabel dalam analisis regresi logistik. Jurnal Epidemiologi Klinis 49: 1373-1379.
sumber
Hasil dari setiap model logistik dengan jumlah pengamatan per variabel independen mulai dari setidaknya lima hingga sembilan dapat diandalkan, terutama jika hasilnya signifikan secara statistik (Vittinghoff & McCulloch, 2007).
Vittinghoff, E., & McCulloch, CE 2007. Bersantai aturan sepuluh peristiwa per variabel dalam regresi logistik dan Cox. American Journal of Epidemiology, 165 (6): 710-718.
sumber