Caret - Validasi silang K-fold berulang vs Validasi silang K-fold bersarang, berulang kali n-kali

The tanda sisipan paket perpustakaan R brilian untuk membangun beberapa model pembelajaran mesin, dan memiliki beberapa fungsi untuk model bangunan dan evaluasi. Untuk pengaturan parameter dan pelatihan model, paket caret menawarkan 'repeatcv' sebagai salah satu metode.

Sebagai praktik yang baik, penyetelan parameter dapat dilakukan menggunakan validasi silang K-fold bersarang yang berfungsi sebagai berikut:

Partisi set pelatihan menjadi himpunan bagian 'K'
Di setiap iterasi, ambil himpunan bagian 'K minus 1' untuk pelatihan model, dan simpan 1 subset (set holdout) untuk pengujian model.
Selanjutnya partisi pelatihan 'K minus 1' diatur ke dalam himpunan bagian 'K', dan iteratif menggunakan subset 'K minus 1' yang baru dan 'set validasi' untuk penyetelan parameter (pencarian jaringan). Parameter terbaik yang diidentifikasi dalam langkah ini digunakan untuk menguji ketidaksepakatan set di langkah 2.

Di sisi lain, saya berasumsi, validasi silang K-fold yang diulang mungkin mengulangi langkah 1 dan 2 berulang kali kita memilih untuk menemukan varian model.

Namun, melalui algoritma dalam manual caret sepertinya metode 'repeatcv' mungkin melakukan validasi K-fold cross yang disarangkan juga, selain mengulangi validasi silang.

Pertanyaan saya adalah:

Apakah pendapat saya tentang metode 'repeatcv' tanda sisir benar?
Jika tidak, dapatkah Anda memberikan contoh menggunakan validasi K-fold cross yang disarangkan, dengan metode 'repeatcv' menggunakan paket caret?

Edit:

Berbagai strategi validasi silang dijelaskan dan dibandingkan dalam artikel metodologi ini.

Krstajic D, Buturovic LJ, Leahy DE dan Thomas S : perangkap validasi silang ketika memilih dan menilai model regresi dan klasifikasi . Jurnal Cheminformatika 2014 6 (1): 10. doi: 10.1186 / 1758-2946-6-10

Saya tertarik pada "Algoritma 2: pengulangan validasi silang bertingkat bertingkat" dan "Algoritma 3: validasi kisi-kisi pencarian jaringan berulang untuk pemilihan variabel dan penyetelan parameter" menggunakan paket caret.

cross-validation caret Mani
sumber

Jawaban:

Tidak ada yang salah dengan algoritme (bersarang) yang disajikan, dan pada kenyataannya, kemungkinan akan berkinerja baik dengan ketahanan yang layak untuk masalah bias-varians pada set data yang berbeda. Anda tidak pernah mengatakan, bagaimanapun, bahwa pembaca harus menganggap fitur yang Anda gunakan adalah yang paling "optimal", jadi jika itu tidak diketahui, ada beberapa masalah pemilihan fitur yang harus ditangani terlebih dahulu.

PEMILIHAN FITUR / PARAMETER

Pendekatan yang kurang bias adalah dengan tidak pernah membiarkan classifier / model mendekati apa pun yang terkait dengan pemilihan fitur / parameter, karena Anda tidak ingin rubah (classifier, model) menjadi penjaga ayam (fitur, parameter). Metode pemilihan fitur (parameter) Anda adalah - di mana pemilihan fitur dibundel dalam pembelajaran berulang yang dilakukan oleh classifier / model. Sebaliknya, saya selalu menggunakan fitur yang menggunakan metode berbeda yang jauh dari classifier / model, sebagai upaya untuk meminimalkan bias pemilihan fitur (parameter). Mencari pembungkus vs penyaringan dan bias pemilihan selama pemilihan fitur (GJ McLachlan). $wrapper$ $filter$

$\mathcal{D}_1$ $\mathcal{D}_2$ $n=50$ $\pi=0.1n, 0.2n, 0,3n, 0.4n, 0.5n$

OPTIMASI / MINIMASI

$y=f(x_1, x_2, \ldots, x_j)$ $y$ diskalakan terus menerus. Mengingat ini, dan mengingat kebutuhan untuk meminimalkan bias dalam prediksi Anda (bias seleksi, bias-varians, kebocoran informasi dari objek pengujian ke objek pelatihan, dll.) Anda mungkin melihat ke dalam penggunaan mempekerjakan CV selama penggunaan metode intelijen swarm, seperti optimasi partikel swarm (PSO), optimasi koloni semut, dll. PSO (lihat Kennedy & Eberhart, 1995) menambahkan parameter untuk pertukaran informasi sosial dan budaya antar partikel ketika mereka terbang melalui ruang parameter selama pembelajaran. Setelah Anda terbiasa dengan metode swarm intelligence, Anda akan melihat bahwa Anda dapat mengatasi banyak bias dalam penentuan parameter. Terakhir, saya tidak tahu apakah ada hutan acak (RF, lihat Breiman, Journ of Machine Learning) untuk pendekatan fungsi, tetapi jika ada,

JoleT
sumber