Saya telah menjelajahi berbagai utas di sini, tetapi saya rasa pertanyaan saya yang sebenarnya tidak dijawab.
Saya memiliki dataset ~ 50.000 siswa dan waktu mereka untuk putus sekolah. Saya akan melakukan regresi bahaya proporsional dengan sejumlah besar kovariat potensial. Saya juga akan melakukan regresi logistik pada dropout / tetap masuk. Tujuan utama akan menjadi prediksi untuk kohort siswa baru, tetapi kami tidak memiliki alasan untuk percaya bahwa mereka akan sangat bervariasi dari kohort tahun lalu.
Biasanya, saya tidak memiliki kemewahan data dan melakukan model yang sesuai dengan semacam hukuman, tapi kali ini saya berpikir untuk membagi pelatihan int dan menguji set data dan kemudian melakukan pemilihan variabel pada set pelatihan; kemudian menggunakan set data uji untuk memperkirakan parameter dan kapasitas prediksi.
Apakah ini strategi yang baik? Jika tidak, apa yang lebih baik?
Kutipan diterima tetapi tidak perlu.
sumber
Saya telah melihat makalah ini sendiri untuk tugas yang sama untuk memvalidasi silang prediksi bertahan hidup. Bit yang baik dimulai pada Bab 2.
sumber
Sejak itu saya menemukan makalah ini yang tidak hanya menjawab pertanyaan saya, tetapi juga menyediakan metode untuk mengetahui pemisahan optimal untuk set data tertentu. Saya menemukan ini berkat penggunaan @FrankHarrell dari istilah "konfigurasi split optimal" yang kemudian saya Googled.
sumber