Jika Anda memasukkan fungsi non linear ke satu set poin (dengan asumsi hanya ada satu ordinat untuk setiap absis) hasilnya dapat berupa:
- fungsi yang sangat kompleks dengan residu kecil
- fungsi yang sangat sederhana dengan residu besar
Validasi silang umumnya digunakan untuk menemukan kompromi "terbaik" antara kedua ekstrem ini. Tapi apa artinya "terbaik"? Apakah itu "kemungkinan besar"? Bagaimana Anda bahkan mulai membuktikan apa solusi yang paling mungkin?
Suara hati saya memberi tahu saya bahwa CV sedang menemukan semacam solusi energi minimum. Ini membuat saya berpikir tentang entropi, yang saya tahu samar-samar terjadi dalam statistik dan fisika.
Sepertinya saya bahwa "terbaik" cocok dihasilkan dengan meminimalkan jumlah fungsi yaitu kompleksitas dan kesalahan
minimising m where m = c(Complexity) + e(Error)
Apakah ini masuk akal? Apa fungsi c dan e?
Tolong bisakah Anda menjelaskan menggunakan bahasa non matematika, karena saya tidak akan mengerti banyak matematika.
Jawaban:
Saya pikir ini adalah pertanyaan yang sangat bagus. Saya akan memparafrasekannya hanya untuk memastikan saya sudah benar:
Saya pikir jawabannya (jika ada) akan membawa Anda jauh melampaui validasi silang. Saya suka bagaimana pertanyaan ini (dan topik secara umum) berhubungan baik dengan Occam's Razor dan konsep umum kekikiran yang mendasar bagi sains. Saya sama sekali tidak ahli dalam bidang ini, tetapi saya menemukan pertanyaan ini sangat menarik. Teks terbaik yang saya tahu tentang pertanyaan-pertanyaan semacam ini adalah Universal Artificial Intelligence oleh Marcus Hutter (jangan tanya saya pertanyaan tentang itu, saya belum membaca sebagian besar dari itu). Saya pergi ke ceramah oleh Hutter dan beberapa tahun yang lalu dan sangat terkesan.
Anda benar dalam berpikir bahwa ada argumen entropi minimum di sana di suatu tempat (digunakan untuk fungsi penalti kompleksitas dalam beberapa cara). Hutter menganjurkan penggunaan kompleksitas Kolmogorov bukannya entropi. Juga, definisi Hutter tentang `terbaik '(sejauh yang saya ingat) adalah (secara informal) model yang paling baik memprediksi masa depan (yaitu memprediksi terbaik data yang akan diamati di masa depan). Saya tidak ingat bagaimana dia meresmikan gagasan ini.c
sumber
Saya akan menawarkan jawaban intuitif singkat (pada tingkat yang cukup abstrak) sampai jawaban yang lebih baik ditawarkan oleh orang lain:
Pertama, perhatikan bahwa fungsi / model yang kompleks mencapai kesesuaian yang lebih baik (yaitu, memiliki residu yang lebih rendah) karena mereka mengeksploitasi beberapa fitur lokal (think noise) dari dataset yang tidak ada secara global (pikirkan pola sistematis).
Kedua, saat melakukan validasi silang, kami membagi data menjadi dua set: set pelatihan dan set validasi.
Jadi, ketika kami melakukan validasi silang, model yang kompleks mungkin tidak dapat memprediksi dengan baik karena menurut definisi model yang kompleks akan mengeksploitasi fitur lokal dari set pelatihan. Namun, fitur lokal dari set pelatihan bisa sangat berbeda dibandingkan fitur lokal dari set validasi yang mengakibatkan kinerja prediksi yang buruk. Oleh karena itu, kami memiliki kecenderungan untuk memilih model yang menangkap fitur global dari pelatihan dan set data validasi.
Singkatnya, validasi silang melindungi terhadap overfitting dengan memilih model yang menangkap pola global dataset dan dengan menghindari model yang mengeksploitasi beberapa fitur lokal dari dataset.
sumber
Dalam tampilan pembelajaran mesin umum jawabannya cukup sederhana: kami ingin membangun model yang akan memiliki akurasi tertinggi ketika memprediksi data baru (tidak terlihat selama pelatihan). Karena kami tidak dapat langsung menguji ini (kami tidak memiliki data dari masa depan) kami melakukan simulasi Monte Carlo untuk tes semacam itu - dan ini pada dasarnya adalah ide di bawah validasi silang.
Mungkin ada beberapa masalah tentang apa itu keakuratan (misalnya klien bisnis dapat menyatakan bahwa melampaui biaya 5 € per unit dan undershoot 0,01 € per unit, jadi lebih baik untuk membangun model yang kurang akurat tetapi lebih rendah), tetapi secara umum adalah persen jawaban yang benar-benar intuitif dalam klasifikasi dan banyak menjelaskan perbedaan dalam regresi.
sumber
Banyak orang memiliki jawaban yang sangat baik, ini adalah $ 0,02 saya.
Ada dua cara untuk melihat "model terbaik", atau "pemilihan model", berbicara secara statistik:
1 Penjelasan yang sesederhana mungkin, tetapi tidak sederhana (Attrib. Einstein)
2 Prediksi adalah minat, mirip dengan pengembangan teknik.
Konsepsi luas (salah):
Pilihan Model setara dengan memilih model terbaik
Untuk penjelasan, kita harus waspada terhadap kemungkinan ada beberapa (secara kasar) model penjelasan yang sama baiknya. Kesederhanaan membantu mengkomunikasikan konsep-konsep yang terkandung dalam model dan dalam apa yang oleh para psikolog disebut generalisasi, kemampuan untuk 'bekerja' dalam skenario yang sangat berbeda dari yang di mana model tersebut dipelajari. Jadi ada premium pada beberapa model.
Untuk prediksi: Analogi yang baik (Dr Ripley) adalah memilih antara pendapat ahli: jika Anda memiliki akses ke panel ahli yang besar, bagaimana Anda menggunakan pendapat mereka?
Validasi Silang menangani aspek prediksi. Untuk detail tentang CV, silakan merujuk ke presentasi ini oleh Dr. BD Ripley Presentasi Dr. Brian D. Ripley tentang pemilihan model
Kutipan: Harap dicatat bahwa segala sesuatu dalam jawaban ini berasal dari presentasi yang dikutip di atas. Saya penggemar berat presentasi ini dan saya menyukainya. Pendapat lain mungkin berbeda. Judul presentasi adalah: "Memilih Model Kelas Besar" dan diberikan di Simposium untuk menghormati ulang tahun ke-80 John Nelder, Imperial College, 29/30 Maret 2004, oleh Dr. Brian D. Ripley.
sumber
Diskusi hebat di sini, tetapi saya berpikir tentang validasi silang dengan cara yang berbeda dari jawaban sejauh ini (mbq dan saya berada di halaman yang sama saya pikir). Jadi, saya akan memasukkan dua sen saya dengan risiko mengotori perairan ...
Validasi silang adalah teknik statistik untuk menilai variabilitas dan bias, karena kesalahan pengambilan sampel, dalam kemampuan model untuk mencocokkan dan memprediksi data. Dengan demikian, "terbaik" akan menjadi model yang menyediakan kesalahan generalisasi terendah, yang akan berada dalam unit variabilitas dan bias. Teknik seperti Bayesian dan Bootstrap Model Averaging dapat digunakan untuk memperbarui model dengan cara algoritmik berdasarkan hasil dari upaya validasi silang.
FAQ ini memberikan informasi yang baik untuk konteks lebih banyak tentang apa yang menginformasikan pendapat saya.
sumber
Fungsi kesalahan adalah kesalahan model Anda (fungsi) pada data pelatihan. Kompleksitasnya adalah beberapa norma (misalnya, kuadrat l2 norma) dari fungsi yang Anda coba pelajari. Meminimalkan istilah kompleksitas pada dasarnya mendukung fungsi yang halus, yang bekerja dengan baik tidak hanya pada data pelatihan tetapi juga pada data uji. Jika Anda merepresentasikan fungsi Anda dengan sekumpulan koefisien (katakanlah, jika Anda melakukan regresi linier), menghukum kompleksitas dengan norma kuadrat akan menyebabkan nilai koefisien kecil dalam fungsi Anda (menghukum norma-norma lain mengarah ke pengertian berbeda tentang kontrol kompleksitas).
sumber
setara dengan
Seperti pertanyaan Anda (mengapae ( ) = | | y- m ( x , β) | |hal ) ini karena untuk p = 1 (p = 2 ) ukuran jarak antara model dan pengamatan ini memiliki (mudah) sifat asimptot yang dapat diturunkan (konvergensi yang kuat dengan bagian populasi yang berarti dari m ( ) ).
sumber