Saya punya pertanyaan tentang pemilihan model dan kinerja model dalam regresi logistik. Saya memiliki tiga model yang didasarkan pada tiga hipotesis berbeda. Dua model pertama (beri nama z dan x) hanya memiliki satu variabel penjelas di setiap model, dan yang ketiga (beri nama w) lebih rumit. Saya menggunakan AIC untuk pemilihan variabel untuk model w dan kemudian AIC untuk membandingkan mana dari tiga model yang menjelaskan variabel dependen terbaik. Saya telah menemukan bahwa model w memiliki AIC terendah dan sekarang ingin melakukan beberapa statistik kinerja pada model itu untuk mendapatkan beberapa gagasan tentang kekuatan prediksi model. Karena yang saya tahu adalah bahwa model ini lebih baik dari dua yang lain tetapi tidak seberapa baik itu.
Karena saya telah menggunakan semua data untuk mempelajari model (untuk dapat membandingkan ketiga model) bagaimana saya menjalankan kinerja model? Dari apa yang telah saya kumpulkan, saya tidak bisa hanya melakukan validasi k-fold pada model akhir yang saya dapatkan dari pemilihan model menggunakan AIC tetapi harus mulai dari awal dengan semua variabel penjelas yang disertakan, apakah ini benar? Saya akan berpikir bahwa itu adalah model terakhir yang saya pilih dengan AIC yang saya ingin tahu seberapa baik kinerjanya, tetapi menyadari bahwa saya telah melatih semua data sehingga model mungkin bias. Jadi jika saya harus mulai dari awal dengan semua variabel penjelas di semua lipatan saya akan mendapatkan model akhir yang berbeda untuk beberapa lipatan, dapatkah saya memilih model dari lipatan yang memberikan daya prediksi terbaik dan menerapkannya pada set data lengkap untuk membandingkan AIC dengan dua model lainnya (z dan x)? Atau bagaimana cara kerjanya?
Bagian kedua dari pertanyaan saya adalah pertanyaan dasar tentang over-parameterisasi. Saya memiliki 156 poin data, 52 adalah 1 sisanya 0. Saya memiliki 14 variabel penjelas untuk dipilih untuk model w, saya menyadari bahwa saya tidak dapat memasukkan semua karena parameterisasi berlebih, saya telah membaca bahwa Anda hanya boleh menggunakan 10% dari kelompok variabel dependen dengan pengamatan paling sedikit yang hanya akan menjadi 5 untuk saya. Saya mencoba menjawab pertanyaan dalam ekologi, apakah boleh memilih variabel awal yang menurut saya menjelaskan ketergantungan terbaik hanya berdasarkan ekologi? Atau bagaimana saya memilih variabel penjelas awal? Tidak terasa benar untuk sepenuhnya mengecualikan beberapa variabel.
Jadi saya benar-benar punya tiga pertanyaan:
- Mungkinkah menguji kinerja pada model yang dilatih pada set data lengkap dengan validasi silang?
- Jika tidak, bagaimana saya memilih model akhir saat melakukan cross-validation?
- Bagaimana saya memilih variabel awal sehingga saya ingin parameterisasi berlebihan?
Maaf atas pertanyaan berantakan dan ketidaktahuan saya. Saya tahu bahwa pertanyaan serupa telah diajukan tetapi masih merasa sedikit bingung. Hargai setiap pemikiran dan saran.
Untuk menjawab "Mungkinkah menguji kinerja pada model yang dilatih pada set data lengkap dengan validasi silang?" TIDAK, saya pikir ini tidak masalah. Anda harus memasukkan ketiga model ke subset yang sama dari dataset Anda. Kemudian lakukan validasi silang untuk melihat mana yang lebih baik.
sumber
Saya pikir tidak. Mungkin metode yang lebih baik adalah mengevaluasi masing-masing dari ketiga model menggunakan validasi silang berulang. Karena Anda telah memilih fitur berdasarkan pengetahuan sebelumnya, Anda tidak perlu khawatir tentang pemilihan fitur. Metode ini memungkinkan Anda untuk mengevaluasi kinerja model.
Setelah Anda mengevaluasi kinerja model Anda menggunakan validasi silang berulang, Anda dapat melatih model akhir menggunakan semua data yang tersedia.
Jika saya mengerti dengan benar: Seperti yang disarankan oleh kontributor di atas Anda dapat menambahkan fitur Anda berdasarkan pengetahuan sebelumnya dari area tersebut atau Anda perlu melakukan pemilihan fitur dalam validasi silang untuk menghindari overfitting. Prosedur pemilihan fitur yang sama ini kemudian akan diterapkan ke semua data saat melatih model akhir. Anda tidak dapat menggunakan model ini untuk melaporkan kinerja model yang digeneralisasi, ini harus berasal dari perkiraan validasi silang.
sumber