Ukuran sampel untuk regresi logistik?

26

Saya ingin membuat model logistik dari data survei saya. Ini adalah survei kecil dari empat koloni tempat tinggal di mana hanya 154 responden yang diwawancarai. Variabel dependen saya adalah "transisi yang memuaskan untuk bekerja". Saya menemukan bahwa, dari 154 responden, 73 mengatakan bahwa mereka telah beralih ke pekerjaan dengan memuaskan, sedangkan sisanya tidak. Jadi variabel dependen bersifat biner dan saya memutuskan untuk menggunakan regresi logistik. Saya memiliki tujuh variabel independen (tiga kontinu dan empat nominal). Satu pedoman menyarankan bahwa harus ada 10 kasus untuk setiap variabel prediktor / independen (Agresti, 2007). Berdasarkan pedoman ini, saya merasa tidak masalah menjalankan regresi logistik.

Apakah saya benar? Jika tidak, tolong beri tahu saya cara memutuskan jumlah variabel independen?

Braj-Stat
sumber
3
Saya tidak pernah benar-benar memahami aturan praktis yang mengatakan "10 kasus untuk setiap prediktor" (dan sayangnya saya tidak memiliki akses ke buku yang ditulis oleh Agresti). Yang saya maksud adalah: jika saya memiliki 100 subjek yang 10 di antaranya adalah kasus ( 1's) dan 90 non-kasus ( 0' s), maka aturan mengatakan "sertakan hanya 1 prediktor". Tetapi bagaimana jika saya memodelkan 0's bukannya 1' dan kemudian saya mengambil kebalikan dari rasio odds yang diperkirakan? Apakah saya diizinkan memasukkan 9 prediktor? Itu tidak masuk akal bagi saya.
boscovich
Andrea terkasih, saya telah mengatakan hal yang sama yang Anda maksudkan. Dari 154 responden ada 73 kasus (1 dan sisanya 0). Bisakah Anda menjelaskan pertanyaan saya. Terima kasih!
Braj-Stat
4
Dalam sebuah komentar saya telah membaca bahwa seseorang harus melihat pada jumlah minimum dari kejadian dan bukan kejadian. Jadi, dalam contoh 10/100 Anda berakhir dengan satu prediktor terlepas dari bagaimana Anda mengkodekannya.
psj
@ PSJ kedengarannya masuk akal. Apakah Anda punya referensi?
boscovich
1
Ada diskusi terkait di sini: jumlah minimum pengamatan-untuk-logistik-regresi .
gung - Reinstate Monica

Jawaban:

25

Ada beberapa masalah di sini.

Biasanya, kami ingin menentukan ukuran sampel minimum untuk mencapai tingkat kekuatan statistik yang dapat diterima secara minimal . Ukuran sampel yang diperlukan adalah fungsi dari beberapa faktor, terutama besarnya efek yang Anda inginkan agar dapat dibedakan dari 0 (atau nol apa pun yang Anda gunakan, tetapi 0 paling umum), dan probabilitas minimum penangkapan yang mempengaruhi Anda ingin memiliki. Bekerja dari perspektif ini, ukuran sampel ditentukan oleh analisis daya.

Pertimbangan lain adalah stabilitas model Anda (seperti catatan @cbeleites). Pada dasarnya, ketika rasio parameter yang diestimasi dengan jumlah data mendekati 1, model Anda akan menjadi jenuh, dan tentu saja akan overfit (kecuali, pada kenyataannya, tidak ada keacakan dalam sistem). Aturan praktis 1 banding 10 berasal dari perspektif ini. Perhatikan bahwa memiliki kekuatan yang memadai umumnya akan mencakup masalah ini untuk Anda, tetapi tidak sebaliknya.

Aturan 1 hingga 10 berasal dari dunia regresi linier, dan penting untuk mengetahui bahwa regresi logistik memiliki kompleksitas tambahan. Satu masalah adalah bahwa regresi logistik bekerja paling baik ketika persentase 1 dan 0 adalah sekitar 50% / 50% (seperti yang dibahas oleh @andrea dan @psj dalam komentar di atas). Masalah lain yang harus diperhatikan adalah pemisahan . Artinya, Anda tidak ingin semua 1 Anda dikumpulkan pada satu ekstrim dari variabel independen (atau kombinasi dari mereka), dan semua 0 di ekstrem lainnya. Meskipun ini akan tampak seperti situasi yang baik, karena itu akan membuat prediksi sempurna menjadi mudah, itu sebenarnya membuat proses estimasi parameter meledak. (@Scortchi memiliki diskusi yang sangat baik tentang bagaimana menghadapi pemisahan dalam regresi logistik di sini:Bagaimana cara mengatasi pemisahan yang sempurna dalam regresi logistik? ) Dengan lebih banyak IV, ini menjadi lebih mungkin, bahkan jika besaran sebenarnya dari efek dijaga konstan, dan terutama jika tanggapan Anda tidak seimbang. Dengan demikian, Anda dapat dengan mudah membutuhkan lebih dari 10 data per IV.

Satu masalah terakhir dengan aturan praktis itu, adalah mengasumsikan IV Anda ortogonal . Ini masuk akal untuk eksperimen yang dirancang, tetapi dengan studi observasional seperti milik Anda, IV Anda hampir tidak akan pernah menjadi hampir orthogonal. Ada strategi untuk menghadapi situasi ini (misalnya, menggabungkan atau menjatuhkan IV, melakukan analisis komponen utama terlebih dahulu, dll.), Tetapi jika tidak ditangani (yang umum), Anda akan memerlukan lebih banyak data.

Maka pertanyaan yang masuk akal, apakah seharusnya N minimum Anda, dan / atau apakah ukuran sampel Anda memadai? Untuk mengatasinya, saya sarankan Anda menggunakan metode yang membahas @cbeleites; mengandalkan aturan 1 hingga 10 tidak akan cukup.

gung - Reinstate Monica
sumber
6
Bisakah Anda memberikan referensi untuk pernyataan "Satu masalah adalah bahwa regresi logistik berfungsi paling baik ketika persentase 1 dan 0 adalah sekitar 50% / 50%"? Saya sendiri bertanya-tanya tentang ini, karena saya memiliki dataset yang sangat jauh dari 50/50 dan saya bertanya-tanya implikasinya. (maaf untuk menghidupkan kembali utas)
Trevor
3
Saya tidak melihat masalah dengan membangkitkan kembali utas lama saat yang tepat, @Trevor. Saya pikir apa yang Anda cari adalah sesuatu yang sejalan dengan jawaban yang bagus ini oleh konjugat sebelumnya: do-an-unbalanced-sample-matter-when-doing-logistic-regression .
gung - Reinstate Monica
2
+1 untuk pertanyaan Trevor. Saya percaya bahwa regresi logistik akan terus mendapat manfaat dari data baru, bahkan jika data itu dari kasus yang sama (meskipun pengembaliannya menurun). Itu sebenarnya sesuatu yang menggangguku tentang teknik pembelajaran mesin seperti hutan acak - yang bisa bertambah buruk dengan menambahkan data pelatihan yang lebih relevan. Mungkin ada titik di mana regresi logistik akan rusak karena pertimbangan numerik jika ketidakseimbangan menjadi terlalu parah. Akan tertarik mempelajari lebih lanjut tentang ini.
Ben Ogorek
+1, mungkin ini tersirat oleh jawaban Anda Saya tidak yakin, tapi saya ingin tahu bagaimana ini bekerja untuk variabel kategori dengan level yang berbeda? Apakah disarankan untuk memiliki 10 pengamatan per level?
baxx
1
Ini adalah aturan praktis, @baxx, tapi ya, untuk melakukan lebih dari sekedar memperkirakan persentase, Anda akan membutuhkan setidaknya 45.
gung - Reinstate Monica
16

Saya biasanya menggunakan aturan 15: 1 (rasio min (peristiwa, non-peristiwa) dengan jumlah parameter kandidat dalam model). Pekerjaan yang lebih baru menemukan bahwa untuk validasi yang lebih ketat 20: 1 diperlukan. Informasi lebih lanjut dapat ditemukan dalam handout mata kuliah saya yang ditautkan dari http://biostat.mc.vanderbilt.edu/rms , khususnya argumen untuk ukuran sampel minimum 96 hanya untuk memperkirakan intersep. Tetapi persyaratan ukuran sampel lebih bernuansa, dan kertas yang lebih baru membahas ini lebih komprehensif.

Frank Harrell
sumber
14

Biasanya, terlalu sedikit kasus wrt. kompleksitas model (jumlah parameter) berarti model tersebut stabil . Jadi jika Anda ingin tahu apakah ukuran sampel / kompleksitas modelnya OK, periksa apakah Anda mendapatkan model yang cukup stabil.

Ada (setidaknya) dua jenis ketidakstabilan:

  1. Itu parameter model bervariasi banyak dengan perubahan hanya sedikit dalam data pelatihan.

  2. Itu prediksi (untuk kasus yang sama) dari model dilatih dengan sedikit perubahan dalam data pelatihan bervariasi banyak.

Anda dapat mengukur 1. dengan melihat seberapa besar koefisien model Anda bervariasi jika data pelatihan sedikit terganggu. Sekelompok model yang sesuai dapat dihitung misalnya selama bootstrap atau (validasi) prosedur validasi silang.

Untuk beberapa jenis model atau masalah, berbagai parameter tidak menyiratkan berbagai prediksi. Anda dapat langsung memeriksa ketidakstabilan 2. dengan melihat variasi prediksi untuk kasus yang sama (terlepas dari apakah mereka benar atau tidak) dihitung selama out-of-bootstrap atau validasi silang berulang.

Cbeleites mendukung Monica
sumber
5

Tidak ada aturan ketat, tetapi Anda dapat memasukkan semua variabel independen selama variabel nominal tidak memiliki terlalu banyak kategori. Anda memerlukan satu "beta" untuk semua kecuali satu kelas untuk setiap variabel nominal. Jadi jika variabel nominal adalah "area kerja" dan Anda memiliki 30 area, maka Anda akan membutuhkan 29 beta.

Salah satu cara untuk mengatasi masalah ini adalah dengan mengatur beta - atau menghukum untuk koefisien yang besar. Ini membantu memastikan bahwa model Anda tidak sesuai dengan data. Regularisasi L2 dan L1 adalah pilihan populer.

Masalah lain yang perlu dipertimbangkan adalah seberapa representatif sampel Anda. Populasi apa yang ingin Anda simpulkan? apakah Anda memiliki semua tipe orang yang berbeda dalam sampel yang ada dalam populasi? akan sulit untuk membuat kesimpulan yang akurat jika sampel Anda memiliki "lubang" (mis. tidak ada perempuan berusia 35-50 dalam sampel atau tidak ada pekerja berpenghasilan tinggi dll)

probabilityislogic
sumber
4

Berikut adalah jawaban aktual dari situs web MedCalc yang ditulis pengguna41466

http://www.medcalc.org/manual/logistic_regress.php

Pertimbangan ukuran sampel

Perhitungan ukuran sampel untuk regresi logistik adalah masalah yang kompleks, tetapi didasarkan pada karya Peduzzi et al. (1996) pedoman berikut untuk jumlah minimum kasus untuk dimasukkan dalam penelitian Anda dapat disarankan. Misalkan p adalah proporsi terkecil dari kasus negatif atau positif dalam populasi dan k jumlah kovariat (jumlah variabel independen), maka jumlah minimum kasus untuk dimasukkan adalah: N = 10 k / p Misalnya: Anda memiliki 3 kovariat untuk dimasukkan dalam model dan proporsi kasus positif dalam populasi adalah 0,20 (20%). Jumlah minimum kasus yang diperlukan adalah N = 10 x 3 / 0,20 = 150 Jika jumlah yang dihasilkan kurang dari 100 Anda harus menambahnya menjadi 100 seperti yang disarankan oleh Long (1997).

Peduzzi P, Concato J, E Kemper, Holford TR, Feinstein AR (1996) Sebuah studi simulasi dari jumlah kejadian per variabel dalam analisis regresi logistik. Jurnal Epidemiologi Klinis 49: 1373-1379.

pengguna2387584
sumber
Jadi itu adalah 10 kasus yang sama per variabel independen (dengan lantai)
seanv507
1

Hasil dari setiap model logistik dengan jumlah pengamatan per variabel independen mulai dari setidaknya lima hingga sembilan dapat diandalkan, terutama jika hasilnya signifikan secara statistik (Vittinghoff & McCulloch, 2007).

Vittinghoff, E., & McCulloch, CE 2007. Bersantai aturan sepuluh peristiwa per variabel dalam regresi logistik dan Cox. American Journal of Epidemiology, 165 (6): 710-718.

pengguna143522
sumber
Perhatikan bahwa ini bukan "jumlah pengamatan per variabel independen" yang dipertanyakan, melainkan jumlah "peristiwa". Untuk regresi logistik, jumlah "peristiwa" adalah jumlah kasus dalam paling sedikit dari dua kelas hasil. Itu tidak akan lebih dari 1/2 dari jumlah pengamatan total, dan dalam beberapa aplikasi jauh lebih rendah dari itu.
EdM