Saya telah mendengar ungkapan berikut sebelumnya:
"Optimasi adalah akar dari semua kejahatan dalam statistik".
Sebagai contoh, jawaban teratas di utas ini membuat pernyataan itu mengacu pada bahaya mengoptimalkan terlalu agresif selama pemilihan model.
Pertanyaan pertama saya adalah sebagai berikut: Apakah kutipan ini disebabkan oleh orang tertentu? (misalnya dalam literatur statistik)
Dari apa yang saya mengerti, pernyataan itu mengacu pada risiko overfitting. Kearifan tradisional akan mengatakan bahwa validasi silang yang tepat sudah berjuang melawan masalah ini, tetapi sepertinya ada lebih banyak masalah dari itu.
Haruskah ahli statistik & praktisi ML berhati-hati dalam mengoptimalkan model mereka secara berlebihan bahkan ketika mematuhi protokol validasi silang yang ketat (mis. 100 nested 10-fold CV)? Jika demikian, bagaimana kita tahu kapan harus berhenti mencari model "yang terbaik"?
sumber
Jawaban:
Kutipan itu adalah parafrase dari kutipan Donald Knuth , kutipan yang dia sendiri kaitkan dengan Hoare. Tiga ekstrak dari halaman di atas:
Saya tidak tahu bahwa saya setuju dengan parafrase statistik *. Ada banyak 'kejahatan' dalam statistik yang tidak berhubungan dengan optimasi.
Saya pikir hal yang penting adalah untuk sepenuhnya memahami (atau sepenuhnya layak) properti dari prosedur apa yang Anda lakukan.
sumber
Beberapa cara Anda dapat menguraikan kutipan (dalam statistik), dengan asumsi optimasi mengacu pada pemilihan model (didorong data):
sumber