Saya memiliki regresi hutan acak yang dibangun menggunakan skl dan saya perhatikan bahwa saya menghasilkan hasil yang berbeda berdasarkan pengaturan benih acak untuk nilai yang berbeda.
Jika saya menggunakan LOOCV untuk menetapkan seed mana yang paling berhasil, apakah ini metode yang valid?
cross-validation
random-forest
pengguna2723494
sumber
sumber
Jawaban:
Jawabannya adalah tidak .
Model Anda memberikan hasil yang berbeda untuk setiap benih yang Anda gunakan. Ini adalah hasil dari sifat non-deterministik model. Dengan memilih seed tertentu yang memaksimalkan kinerja pada set validasi berarti Anda memilih "pengaturan" yang paling cocok dengan set ini. Namun, ini tidak menjamin bahwa model dengan seed ini akan tampil lebih baik pada set tes terpisah . Ini berarti bahwa Anda memiliki pakaian berlebih pada set validasi .
Efek ini adalah alasan Anda melihat banyak orang yang berperingkat tinggi dalam kompetisi (misalnya kaggle) pada set ujian publik, jatuh jauh pada set tes tersembunyi. Pendekatan ini tidak dianggap sebagai pendekatan yang benar.
sumber