Saya seorang mahasiswa fisika yang mempelajari pembelajaran mesin / ilmu data, jadi saya tidak bermaksud pertanyaan ini untuk memulai konflik apa pun :) Namun, sebagian besar program sarjana fisika adalah melakukan laboratorium / eksperimen, yang berarti banyak data pemrosesan dan analisis statistik. Namun, saya melihat perbedaan yang tajam antara cara fisikawan menangani data dan cara ilmu pengetahuan saya / buku pembelajaran statistik menangani data.
Perbedaan utama adalah bahwa ketika mencoba melakukan regresi terhadap data yang diperoleh dari eksperimen fisika, algoritma regresi diterapkan pada dataset WHOLE , sama sekali tidak ada pemisahan ke dalam set pelatihan dan tes. Dalam dunia fisika, R ^ 2 atau beberapa tipe pseudo-R ^ 2 dihitung untuk model berdasarkan seluruh kumpulan data. Di dunia statistik, data hampir selalu dipecah menjadi 80-20, 70-30, dll ... dan kemudian model dievaluasi terhadap dataset uji.
Ada juga beberapa eksperimen fisika utama (ATLAS, BICEP2, dll ...) yang tidak pernah melakukan pemisahan data ini, jadi saya bertanya-tanya mengapa ada perbedaan besar antara cara fisikawan / peneliti melakukan statistik dan cara ilmuwan data lakukan statistik.
sumber
Jawaban:
Tidak semua prosedur statistik terpecah menjadi data pelatihan / pengujian, juga disebut "validasi silang" (meskipun seluruh prosedur melibatkan sedikit lebih banyak dari itu).
Sebaliknya, ini adalah teknik yang secara khusus digunakan untuk memperkirakan kesalahan out-of-sample ; yaitu seberapa baik model Anda memprediksi hasil baru menggunakan dataset baru? Ini menjadi masalah yang sangat penting ketika Anda memiliki, misalnya, sejumlah besar prediktor relatif terhadap jumlah sampel dalam dataset Anda. Dalam kasus seperti itu, sangat mudah untuk membangun model dengan kesalahan sampel yang besar tetapi kesalahan sampel yang buruk (disebut "over fitting"). Dalam kasus di mana Anda memiliki sejumlah besar prediktor dan sejumlah besar sampel, validasi silang adalah alat yang diperlukan untuk membantu menilai seberapa baik model akan berperilaku ketika memprediksi pada data baru. Ini juga merupakan alat penting ketika memilih antara model prediksi yang bersaing.
Pada catatan lain, validasi silang hampir selalu hanya digunakan ketika mencoba membangun model prediksi . Secara umum, tidak terlalu membantu untuk model ketika Anda mencoba memperkirakan efek dari beberapa perawatan. Misalnya, jika Anda membandingkan distribusi kekuatan tarik antara bahan A dan B ("perlakuan" menjadi jenis bahan), validasi silang tidak akan diperlukan; sementara kami benar-benar berharap bahwa perkiraan efek pengobatan kami menggeneralisasi dari sampel, untuk sebagian besar masalah, teori statistik klasik dapat menjawab ini (yaitu "kesalahan standar" dari perkiraan) lebih tepatnya daripada validasi silang. Sayangnya, metodologi statistik klasik 1untuk kesalahan standar tidak tahan jika overfitting. Validasi silang seringkali jauh lebih baik dalam hal itu.
Di sisi lain, jika Anda mencoba memprediksi kapan suatu materi akan pecah berdasarkan 10.000 variabel terukur yang Anda masukkan ke dalam model pembelajaran mesin berdasarkan 100.000 pengamatan, Anda akan mengalami banyak masalah dalam membangun model yang hebat tanpa validasi silang!
Saya menduga dalam banyak percobaan fisika yang dilakukan, Anda umumnya tertarik pada estimasi efek. Dalam kasus-kasus itu, sangat sedikit kebutuhan untuk validasi silang.
1 Orang dapat berargumen bahwa metode Bayesian dengan prior informatif adalah metodologi statistik klasik yang membahas overfitting. Tapi itu diskusi lain.
Catatan: sementara validasi silang pertama kali muncul dalam literatur statistik, dan jelas digunakan oleh orang-orang yang menyebut diri mereka ahli statistik, itu menjadi alat yang diperlukan mendasar dalam komunitas pembelajaran mesin. Banyak model statistik akan bekerja dengan baik tanpa menggunakan cross-validation, tetapi hampir semua model yang dianggap "model prediksi pembelajaran mesin" memerlukan cross-validation, karena mereka sering memerlukan pemilihan parameter tuning, yang hampir mustahil dilakukan tanpa cross -validasi.
sumber
glment
'scv.glmnet
untuk seluruh prosedur dalam fungsi kompak bagus.Sebagai ahli kimia (analitik) , saya menemukan kedua pendekatan: perhitungan analitik angka-angka jasa [sebagian besar untuk regresi univariat] serta pengukuran langsung angka-angka prestasi prediksi.
Bagasi kereta / ujian bagi saya adalah "adik lelaki" dari percobaan validasi untuk mengukur kualitas prediksi.
Jawaban panjang:
Eksperimen khas yang kami lakukan misalnya dalam kimia fisik sarjana menggunakan regresi univariat. Properti yang menarik sering menjadi parameter model, misalnya konstanta waktu ketika mengukur kinetika reaksi, tetapi kadang-kadang juga prediksi (misalnya kalibrasi linier univariat untuk memprediksi / mengukur beberapa nilai bunga).
Situasi ini sangat jinak dalam hal tidak overfitting: biasanya ada sejumlah derajat kebebasan yang tersisa setelah semua parameter diperkirakan, dan mereka digunakan untuk melatih (seperti dalam pendidikan) siswa dengan kepercayaan klasik atau perhitungan interval prediksi, dan kesalahan klasik propagasi - mereka dikembangkan untuk situasi ini. Dan bahkan jika situasinya tidak sepenuhnya seperti buku teks (misalnya saya memiliki struktur dalam data saya, misalnya dalam kinetika, saya berharap data tersebut lebih baik dijelaskan oleh varians antara jalannya reaksi + varians antara pengukuran dalam menjalankan daripada oleh hanya pendekatan satu varian), saya biasanya dapat menjalankan cukup percobaan untuk masih mendapatkan hasil yang bermanfaat.
Pendekatan ini sebenarnya sangat kuat (walaupun mahal karena upaya percobaan yang meningkat), karena memungkinkan saya untuk menyelidiki kualitas prediktif juga untuk kondisi yang tidak tercakup dalam data pelatihan / kalibrasi. Misalnya saya dapat mengukur bagaimana kualitas prediktif memburuk dengan ekstrapolasi (ekstrapolasi juga mencakup misalnya pengukuran yang dilakukan, katakanlah, sebulan setelah data pelatihan diperoleh), saya dapat menyelidiki kekasaran terhadap faktor perancu yang saya harapkan penting, dll. Dengan kata lain , kita dapat mempelajari perilaku model kita sama seperti kita mempelajari perilaku sistem lain: kita menyelidiki titik-titik tertentu, atau mengganggunya dan melihat perubahan dalam jawaban sistem, dll.
Saya akan mengatakan bahwa kualitas prediktif yang lebih penting adalah (dan semakin tinggi risiko overfitting), semakin kita cenderung memilih pengukuran langsung kualitas prediktif daripada angka yang diturunkan secara analitis. (Tentu saja kami bisa memasukkan semua pembaur itu juga ke dalam desain percobaan pelatihan). Beberapa area seperti diagnosa medis menuntut agar studi validasi yang tepat dilakukan sebelum model "dilepaskan" pada pasien sungguhan.
Train / test split (apakah tahan * atau validasi silang atau out-of-bootstrap atau ...) menjadikan langkah ini lebih mudah. Kami menyimpan eksperimen tambahan dan tidak mengekstrapolasi (kami hanya menggeneralisasi untuk memprediksi kasus independen yang tidak diketahui dari distribusi data pelatihan yang sama). Saya akan menggambarkan ini sebagai verifikasi daripada validasi (meskipun validasi sangat dalam terminologi di sini). Ini sering merupakan cara pragmatis untuk pergi jika tidak ada tuntutan terlalu tinggi pada ketepatan angka-angka jasa (mereka mungkin tidak perlu dikenal sangat tepat dalam skenario pembuktian konsep).
* jangan membingungkan satu pemisahan acak menjadi kereta dan uji dengan studi yang dirancang dengan baik untuk mengukur kualitas prediksi.
sumber