Pelatihan, pengujian, validasi dalam masalah analisis kelangsungan hidup

14

Saya telah menjelajahi berbagai utas di sini, tetapi saya rasa pertanyaan saya yang sebenarnya tidak dijawab.

Saya memiliki dataset ~ 50.000 siswa dan waktu mereka untuk putus sekolah. Saya akan melakukan regresi bahaya proporsional dengan sejumlah besar kovariat potensial. Saya juga akan melakukan regresi logistik pada dropout / tetap masuk. Tujuan utama akan menjadi prediksi untuk kohort siswa baru, tetapi kami tidak memiliki alasan untuk percaya bahwa mereka akan sangat bervariasi dari kohort tahun lalu.

Biasanya, saya tidak memiliki kemewahan data dan melakukan model yang sesuai dengan semacam hukuman, tapi kali ini saya berpikir untuk membagi pelatihan int dan menguji set data dan kemudian melakukan pemilihan variabel pada set pelatihan; kemudian menggunakan set data uji untuk memperkirakan parameter dan kapasitas prediksi.

Apakah ini strategi yang baik? Jika tidak, apa yang lebih baik?

Kutipan diterima tetapi tidak perlu.

Peter Flom - Pasang kembali Monica
sumber

Jawaban:

8

n>20,000

Frank Harrell
sumber
Terima kasih. Apakah Anda merekomendasikan 80-20? 90-10? Sesuatu yang lain Adakah referensi tentang ini?
Peter Flom - Reinstate Monica
2
n
3

Saya telah melihat makalah ini sendiri untuk tugas yang sama untuk memvalidasi silang prediksi bertahan hidup. Bit yang baik dimulai pada Bab 2.

Cam.Davidson.Pilon
sumber
Ini tampaknya membandingkan 5 kali lipat dengan model estimasi berdasarkan CV (dan menyimpulkan bahwa 5 kali lebih baik). Tetapi saya lebih tertarik untuk hanya membagi data menjadi 2 bagian dan menggunakan satu untuk memvalidasi yang lain.
Peter Flom - Reinstate Monica
1
Kesimpulan yang saya temukan dari ini, dan mengapa saya awalnya tertarik pada makalah ini, adalah bagaimana berurusan dengan sensor dalam prediksi bertahan hidup, yaitu kehilangan fungsi apa yang digunakan (meskipun membaca ulang pertanyaan Anda, Anda mungkin tidak memiliki sensor).
Cam.Davidson.Pilon
Saya memang memiliki sensor dan disertasi itu menarik, tetapi itu bukan jawaban untuk pertanyaan saya, saya kira tidak.
Peter Flom - Reinstate Monica
1

Sejak itu saya menemukan makalah ini yang tidak hanya menjawab pertanyaan saya, tetapi juga menyediakan metode untuk mengetahui pemisahan optimal untuk set data tertentu. Saya menemukan ini berkat penggunaan @FrankHarrell dari istilah "konfigurasi split optimal" yang kemudian saya Googled.

Peter Flom - Pasang kembali Monica
sumber
2
Peter I berpikir bahwa kertas menggunakan aturan penilaian yang tidak tepat. Hasil yang berbeda dapat diperoleh saat menggunakan aturan penilaian yang tepat. Juga, makalah ini tidak membahas "volatilitas" analisis. Dengan ukuran sampel total yang kecil dipertimbangkan di sana, mengulangi proses menggunakan pemisahan acak yang berbeda akan menghasilkan model yang jauh berbeda dan akurasi yang jauh berbeda jika dibandingkan dengan pemisahan pertama. Saya melihat itu sangat tidak diinginkan.
Frank Harrell
@ FrankHarrell: Saya mengerti maksud Anda dan itu memang poin yang sangat bagus. Lalu apa yang Anda rekomendasikan lakukan? Peform Monte Carlo menjalankan kereta / uji split dan kemudian pada setiap menjalankan apakah ix k-folds CV (atau bootstrap)? Tapi kemudian ini akan mencemari seluruh dataset .... Saya melihat tidak ada solusi yang lebih baik daripada menemukan cara yang tepat untuk membagi dataset menjadi set kereta dan tes (apa yang akan menjadi kriteria?) Saya hanya tidak nyaman menggunakan semua dataset untuk melatih dan memvalidasi (menggunakan CV atau boot) model (dari mana satu (atau beberapa) akan digunakan untuk memprediksi nilai output yang tidak diketahui berdasarkan pada beberapa data input).
jpcgandre
Saya mengalamatkan hal itu di pos yang baru saja Anda letakkan di halaman topik lain.
Frank Harrell