Katakanlah saya memiliki dua metode pembelajaran untuk masalah klasifikasi , dan , dan bahwa saya memperkirakan kinerja generalisasi mereka dengan sesuatu seperti validasi silang berulang atau bootstrap. Dari proses ini saya mendapatkan distribusi skor dan untuk setiap metode di seluruh pengulangan ini (misalnya distribusi nilai AUC ROC untuk setiap model).
Melihat distribusi ini, bisa jadi itu tetapi itu (yaitu kinerja generalisasi yang diharapkan dari lebih tinggi dari , tetapi ada lebih banyak ketidakpastian tentang estimasi ini).
Saya pikir ini disebut dilema bias-varians dalam regresi.
Metode matematika apa yang dapat saya gunakan untuk membandingkan dan dan pada akhirnya membuat keputusan tentang model mana yang akan digunakan?
Catatan: Demi kesederhanaan, saya merujuk pada dua metode dan sini, tetapi saya tertarik pada metode yang dapat digunakan untuk membandingkan distribusi skor ~ 1000 metode pembelajaran (misalnya dari pencarian kotak) dan akhirnya membuat keputusan akhir tentang model mana yang akan digunakan.
sumber
Jawaban:
Jika hanya ada dua metode, A dan B, saya akan menghitung probabilitas bahwa untuk partisi pelatihan / uji arbitrer bahwa kesalahan (menurut beberapa metrik kinerja yang sesuai) untuk model A lebih rendah daripada kesalahan untuk model B. Jika probabilitas ini lebih besar dari 0,5, saya akan memilih model A dan sebaliknya model B (cf tes Mann-Whitney U?) Namun, saya sangat curiga bahwa akhirnya akan memilih model dengan rata-rata lebih rendah kecuali distribusi statistik kinerja sangat tidak -simetris.
Di sisi lain, untuk pencarian kisi, situasinya sedikit berbeda karena Anda tidak benar-benar membandingkan metode yang berbeda, tetapi menyetel parameter (hiper) model yang sama agar sesuai dengan sampel data yang terbatas (dalam hal ini secara tidak langsung melalui cross -validasi). Saya telah menemukan bahwa penyetelan jenis ini bisa sangat rawan pemasangan, lihat kertas saya
Gavin C. Cawley, Nicola LC Talbot, "Pada Over-fitting dalam Seleksi Model dan Seleksi Selanjutnya Bias dalam Evaluasi Kinerja", Jurnal Penelitian Pembelajaran Mesin, 11 (Jul): 2079−2107, 2010. ( www )
Saya memiliki makalah dalam tinjauan yang menunjukkan bahwa mungkin yang terbaik adalah menggunakan grid yang relatif kasar untuk mesin kernel (misalnya SVM) untuk menghindari pemasangan kriteria pemilihan model yang berlebihan. Pendekatan lain (yang belum saya selidiki, jadi peringatan lector!) Akan memilih model dengan kesalahan tertinggi yang secara statistik tidak kalah dengan model terbaik yang ditemukan dalam pencarian grid (meskipun itu mungkin pendekatan yang agak pesimistis, terutama untuk dataset kecil).
Solusi sebenarnya adalah mungkin bukan untuk mengoptimalkan parameter menggunakan pencarian jaringan, tetapi untuk rata-rata di atas nilai parameter, baik dalam pendekatan Bayesian, atau hanya sebagai metode ensemble. Jika Anda tidak mengoptimalkan, itu lebih sulit untuk menjadi terlalu pas!
sumber
"average over the parameter values"
saya pikir mengerti bagaimana melakukan ini melalui metode ensemble (misalnya membangun output ensemble sebagai rata-rata dari output classifier), tetapi saya tidak yakin bagaimana melakukan ini dengan pendekatan Bayesian ketika bekerja dengan model diskriminatif. Saya memahami teori pendekatan Bayesian sepenuhnya (yaitu menghindari estimasi titik, dan meminggirkan parameter untuk membangun posterior akhir), tetapi, dengan asumsi bahwa saya sebelumnya pada parameter adalah seragam, tidakkah ini akan setara dengan membangun ansambel rata-rata ?