Misalkan kita memiliki kovariat x 1 , ... , x n dan variabel hasil biner y . Beberapa kovariat ini termasuk kategori dengan banyak tingkatan. Lainnya kontinu. Bagaimana Anda memilih model "terbaik"? Dengan kata lain, bagaimana Anda memilih kovariat mana yang akan dimasukkan dalam model?
Apakah Anda memodelkan dengan masing-masing kovariat secara individual menggunakan regresi logistik sederhana dan memilih yang dengan asosiasi yang signifikan?
logistic
regression-strategies
Thomas
sumber
sumber
Jawaban:
Ini mungkin bukan hal yang baik untuk dilakukan. Melihat semua kovariat individu terlebih dahulu, dan kemudian membangun model dengan yang signifikan secara logika setara dengan prosedur pencarian otomatis. Walaupun pendekatan ini intuitif, kesimpulan yang dibuat dari prosedur ini tidak valid (misalnya, nilai-p sebenarnya berbeda dari yang dilaporkan oleh perangkat lunak). Masalahnya diperbesar semakin besar ukuran set awal kovariat. Jika Anda tetap melakukan ini (dan, sayangnya, banyak orang melakukannya), Anda tidak dapat menganggap serius model yang dihasilkan. Sebagai gantinya, Anda harus menjalankan studi yang sama sekali baru, mengumpulkan sampel independen dan menyesuaikan model sebelumnya, untuk mengujinya. Namun, ini membutuhkan banyak sumber daya, dan terlebih lagi, karena prosesnya cacat dan model sebelumnya kemungkinan yang buruk,buang banyak sumber daya.
Cara yang lebih baik adalah mengevaluasi model-model yang menarik bagi Anda. Kemudian gunakan kriteria informasi yang menghukum fleksibilitas model (seperti AIC) untuk diputuskan di antara model-model tersebut. Untuk regresi logistik, AIC adalah:
di mana adalah jumlah kovariat yang termasuk dalam model itu. Anda ingin model dengan nilai terkecil untuk AIC, semua hal dianggap sama. Namun, itu tidak selalu begitu sederhana; waspada ketika beberapa model memiliki nilai yang sama untuk AIC, meskipun satu mungkin paling rendah.k
Saya memasukkan formula lengkap untuk AIC di sini, karena perangkat lunak yang berbeda menghasilkan informasi yang berbeda. Anda mungkin harus menghitungnya hanya dari kemungkinan, atau Anda bisa mendapatkan AIC akhir, atau apa pun di antaranya.
sumber
Ada banyak cara untuk memilih variabel apa yang masuk dalam model regresi, beberapa layak, beberapa buruk, dan beberapa mengerikan. Orang dapat dengan mudah menelusuri publikasi dari Sander Greenland, yang banyak di antaranya menyangkut pemilihan variabel.
Namun secara umum, saya memiliki beberapa "aturan" umum:
sumber
Bagaimana Anda memilih model "terbaik"?
Tidak ada informasi yang cukup untuk menjawab pertanyaan ini; jika Anda ingin mendapatkan efek kausal pada y Anda akan perlu untuk mengimplementasikan regresi yang mencerminkan apa yang diketahui tentang pengganggu tersebut. Jika Anda ingin melakukan prediksi, AIC akan menjadi pendekatan yang masuk akal.
Pendekatan-pendekatan ini tidak sama; konteks akan menentukan mana dari (banyak) cara memilih variabel akan lebih / kurang tepat.
sumber