Membandingkan distribusi kinerja generalisasi

Katakanlah saya memiliki dua metode pembelajaran untuk masalah klasifikasi , dan , dan bahwa saya memperkirakan kinerja generalisasi mereka dengan sesuatu seperti validasi silang berulang atau bootstrap. Dari proses ini saya mendapatkan distribusi skor dan untuk setiap metode di seluruh pengulangan ini (misalnya distribusi nilai AUC ROC untuk setiap model). $A$ $B$ $P_A$ $P_B$

Melihat distribusi ini, bisa jadi itu tetapi itu (yaitu kinerja generalisasi yang diharapkan dari lebih tinggi dari , tetapi ada lebih banyak ketidakpastian tentang estimasi ini). $\mu_A \ge \mu_B$ $\sigma_A \ge \sigma_B$ $A$ $B$

Saya pikir ini disebut dilema bias-varians dalam regresi.

Metode matematika apa yang dapat saya gunakan untuk membandingkan dan dan pada akhirnya membuat keputusan tentang model mana yang akan digunakan? $P_A$ $P_B$

Catatan: Demi kesederhanaan, saya merujuk pada dua metode dan sini, tetapi saya tertarik pada metode yang dapat digunakan untuk membandingkan distribusi skor ~ 1000 metode pembelajaran (misalnya dari pencarian kotak) dan akhirnya membuat keputusan akhir tentang model mana yang akan digunakan. $A$ $B$

cross-validation model-selection Amelio Vazquez-Reina
sumber

Saya pikir istilah tradeoff varians-bias tidak berlaku di sini, karena Anda tidak menguraikan rata-rata kesalahan kuadrat menjadi bias dan varians, dan Anda tidak berbicara tentang varians estimator tetapi tentang varians skor.

Lucas

Terima kasih @Lucas. Saya mencoba memperkirakan skor pengklasifikasi dan pada data yang tidak terlihat . Untuk ini, saya pikir saya bisa mengambil nilai rata-rata pada data yang terlihat sebagai penduga saya (yaitu dan untuk dan masing-masing). Apakah varians dari penaksir ini berbeda dari varian skor dan ?

A

$A$

B

$B$

E (P_{A})

$E(P_A)$

E (P_{B})

$E(P_B)$

A

$A$

B

$B$

P_{A}

$P_A$

P_{B}

$P_B$

Amelio Vazquez-Reina

@ user815423426 Saya pikir perbandingan tergantung pada fungsi kerugian yang Anda miliki. Diebold dan Mariano (2002) memiliki makalah yang bagus untuk mempelajari pertanyaan Anda. Mereka mengusulkan beberapa tes statistik yang membandingkan kinerja "generalisasi". Saya tidak tahu cara mengatur tautan dalam komentar. Makalahnya adalah: Diebold, Francis X., dan Robert S. Mariano. "Membandingkan Akurasi Prediktif." Jurnal Bisnis & Statistik Ekonomi 20.1 (2002): 134-144.

semibruin

Jawaban:

Jika hanya ada dua metode, A dan B, saya akan menghitung probabilitas bahwa untuk partisi pelatihan / uji arbitrer bahwa kesalahan (menurut beberapa metrik kinerja yang sesuai) untuk model A lebih rendah daripada kesalahan untuk model B. Jika probabilitas ini lebih besar dari 0,5, saya akan memilih model A dan sebaliknya model B (cf tes Mann-Whitney U?) Namun, saya sangat curiga bahwa akhirnya akan memilih model dengan rata-rata lebih rendah kecuali distribusi statistik kinerja sangat tidak -simetris.

Di sisi lain, untuk pencarian kisi, situasinya sedikit berbeda karena Anda tidak benar-benar membandingkan metode yang berbeda, tetapi menyetel parameter (hiper) model yang sama agar sesuai dengan sampel data yang terbatas (dalam hal ini secara tidak langsung melalui cross -validasi). Saya telah menemukan bahwa penyetelan jenis ini bisa sangat rawan pemasangan, lihat kertas saya

Gavin C. Cawley, Nicola LC Talbot, "Pada Over-fitting dalam Seleksi Model dan Seleksi Selanjutnya Bias dalam Evaluasi Kinerja", Jurnal Penelitian Pembelajaran Mesin, 11 (Jul): 2079−2107, 2010. ( www )

Saya memiliki makalah dalam tinjauan yang menunjukkan bahwa mungkin yang terbaik adalah menggunakan grid yang relatif kasar untuk mesin kernel (misalnya SVM) untuk menghindari pemasangan kriteria pemilihan model yang berlebihan. Pendekatan lain (yang belum saya selidiki, jadi peringatan lector!) Akan memilih model dengan kesalahan tertinggi yang secara statistik tidak kalah dengan model terbaik yang ditemukan dalam pencarian grid (meskipun itu mungkin pendekatan yang agak pesimistis, terutama untuk dataset kecil).

Solusi sebenarnya adalah mungkin bukan untuk mengoptimalkan parameter menggunakan pencarian jaringan, tetapi untuk rata-rata di atas nilai parameter, baik dalam pendekatan Bayesian, atau hanya sebagai metode ensemble. Jika Anda tidak mengoptimalkan, itu lebih sulit untuk menjadi terlalu pas!

Dikran Marsupial
sumber

Terima kasih Dikran. Ketika Anda mengatakan "average over the parameter values"saya pikir mengerti bagaimana melakukan ini melalui metode ensemble (misalnya membangun output ensemble sebagai rata-rata dari output classifier), tetapi saya tidak yakin bagaimana melakukan ini dengan pendekatan Bayesian ketika bekerja dengan model diskriminatif. Saya memahami teori pendekatan Bayesian sepenuhnya (yaitu menghindari estimasi titik, dan meminggirkan parameter untuk membangun posterior akhir), tetapi, dengan asumsi bahwa saya sebelumnya pada parameter adalah seragam, tidakkah ini akan setara dengan membangun ansambel rata-rata ?

Amelio Vazquez-Reina

Dalam pendekatan Bayesian, model akan diberi bobot oleh kemungkinan marginalnya (yaitu bukti Bayesian) dan setiap penempatan sebelumnya di atas parameter-hiper, jadi itu akan menjadi kasus khusus rata-rata atas ansambel dengan metode tertentu untuk menimbang model.

Dikran Marsupial