Saya baru saja menemukan "kriteria informasi Akaike", dan saya melihat sejumlah besar literatur tentang pemilihan model (juga hal-hal seperti BIC tampaknya ada).
Mengapa metode pembelajaran mesin kontemporer tidak memanfaatkan kriteria pemilihan model BIC dan AIC ini?
Jawaban:
AIC dan BIC digunakan, misalnya dalam regresi bertahap. Mereka sebenarnya bagian dari kelas "heuristik" yang lebih besar, yang juga digunakan. Misalnya DIC (Deviance Information Criterion) sering digunakan dalam pemilihan Model Bayesian.
Namun, mereka pada dasarnya "heuristik". Meskipun dapat ditunjukkan, bahwa baik AIC dan BIC bertemu secara asimptotik menuju pendekatan cross-validation (saya pikir AIC mengarah ke cuti-keluar-keluar CV, dan BIC menuju beberapa pendekatan lain, tapi saya tidak yakin), mereka diketahui masing-masing kurang memberi penalti dan memberi penalti berlebihan. Yaitu menggunakan AIC Anda akan sering mendapatkan model, yang lebih rumit dari yang seharusnya, sedangkan dengan BIC Anda sering mendapatkan model yang terlalu sederhana.
Karena keduanya terkait dengan CV, CV sering merupakan pilihan yang lebih baik, yang tidak menderita masalah ini.
Lalu akhirnya ada masalah # parameter yang diperlukan untuk BIC dan AIC. Dengan penaksir fungsi umum (mis. KNN) pada input bernilai riil, dimungkinkan untuk "menyembunyikan" parameter, yaitu untuk membangun bilangan real yang berisi informasi yang sama dengan dua bilangan real (pikirkan misalnya memotong angka-angka). Dalam hal ini, berapa jumlah parameter yang sebenarnya? Di sisi lain, dengan model yang lebih rumit, Anda mungkin memiliki kendala pada parameter Anda, misalnya Anda hanya dapat memuat parameter sehinggaθ1>θ2 (lihat misalnya di sini ). Atau Anda mungkin tidak dapat diidentifikasi, dalam hal ini beberapa nilai parameter benar-benar memberikan model yang sama. Dalam semua kasus ini, penghitungan parameter tidak memberikan estimasi yang sesuai.
Karena banyak algoritma pembelajaran mesin kontemporer menunjukkan sifat-sifat ini (yaitu aproksimasi universal, jumlah parameter yang tidak jelas, tidak dapat diidentifikasi), AIC dan BIC kurang berguna untuk model ini, daripada yang mungkin tampak pada pandangan pertama.
EDIT :
Beberapa poin lagi yang bisa diklarifikasi:
sumber