Apakah membagi data menjadi set tes dan pelatihan semata-mata merupakan "statistik"?

11

Saya seorang mahasiswa fisika yang mempelajari pembelajaran mesin / ilmu data, jadi saya tidak bermaksud pertanyaan ini untuk memulai konflik apa pun :) Namun, sebagian besar program sarjana fisika adalah melakukan laboratorium / eksperimen, yang berarti banyak data pemrosesan dan analisis statistik. Namun, saya melihat perbedaan yang tajam antara cara fisikawan menangani data dan cara ilmu pengetahuan saya / buku pembelajaran statistik menangani data.

Perbedaan utama adalah bahwa ketika mencoba melakukan regresi terhadap data yang diperoleh dari eksperimen fisika, algoritma regresi diterapkan pada dataset WHOLE , sama sekali tidak ada pemisahan ke dalam set pelatihan dan tes. Dalam dunia fisika, R ^ 2 atau beberapa tipe pseudo-R ^ 2 dihitung untuk model berdasarkan seluruh kumpulan data. Di dunia statistik, data hampir selalu dipecah menjadi 80-20, 70-30, dll ... dan kemudian model dievaluasi terhadap dataset uji.

Ada juga beberapa eksperimen fisika utama (ATLAS, BICEP2, dll ...) yang tidak pernah melakukan pemisahan data ini, jadi saya bertanya-tanya mengapa ada perbedaan besar antara cara fisikawan / peneliti melakukan statistik dan cara ilmuwan data lakukan statistik.

Thomas Moore
sumber
1
(+1) pertanyaan yang sangat bagus (bahwa saya tidak punya waktu untuk menjawab dengan benar). Komentar: Fisika memiliki kemewahan "eksperimen nyata"; umumnya dikontrol / kondisi laboratorium, sebagian besar hasil / variabel yang terdefinisi dengan baik dan asumsi keterulangan. Proyek Statistik Kesehatan Masyarakat / Ekonometrika / Survei Biasa (untuk menyebutkan beberapa sub-bidang yang jelas) tidak mengerti. Perancu, musiman (ketergantungan waktu) dan umumnya penyimpangan konsep banyak terjadi di Statistik sehingga "pemisahan data" ini adalah salah satu cara yang jelas untuk mencegah hasil yang benar-benar konyol. Plus tidak semua estimator dibuat sama efisiennya. :)
usεr11852
3
Anda akan menemukan banyak diskusi dan latar belakang yang relevan dalam makalah diskusi baru-baru ini oleh David Donoho, seorang profesor statistik di Stanford: courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf Lihat khususnya diskusi tentang "Budaya Prediktif" "Berbeda dengan statistik tradisional.
Gordon Smyth
1
Saya pikir itu adalah "prediksi tanpa adanya teori" hal, yang merupakan bagian kecil dari "statistik", dan sebagian besar pembelajaran mesin.
The Laconic
ahli statistik tidak membagi data mereka juga (p <.05)
rep_ho
@rep_ho beberapa - mungkin banyak - ahli statistik yang terlibat dalam situasi di mana prediksi sampel penting dilakukan (dan beberapa telah melakukannya sejak lama). ide-ide seperti crossvalidation dan statistik tinggalkan satu (misalnya) telah ada sejak lama. Namun, para ahli statistik cenderung tidak berpisah sekali, kecuali jika itu tidak dapat dihindari. Ini mungkin bergantung pada ahli statistik yang Anda ajak bicara
Glen_b -Reinstate Monica

Jawaban:

6

Tidak semua prosedur statistik terpecah menjadi data pelatihan / pengujian, juga disebut "validasi silang" (meskipun seluruh prosedur melibatkan sedikit lebih banyak dari itu).

Sebaliknya, ini adalah teknik yang secara khusus digunakan untuk memperkirakan kesalahan out-of-sample ; yaitu seberapa baik model Anda memprediksi hasil baru menggunakan dataset baru? Ini menjadi masalah yang sangat penting ketika Anda memiliki, misalnya, sejumlah besar prediktor relatif terhadap jumlah sampel dalam dataset Anda. Dalam kasus seperti itu, sangat mudah untuk membangun model dengan kesalahan sampel yang besar tetapi kesalahan sampel yang buruk (disebut "over fitting"). Dalam kasus di mana Anda memiliki sejumlah besar prediktor dan sejumlah besar sampel, validasi silang adalah alat yang diperlukan untuk membantu menilai seberapa baik model akan berperilaku ketika memprediksi pada data baru. Ini juga merupakan alat penting ketika memilih antara model prediksi yang bersaing.

Pada catatan lain, validasi silang hampir selalu hanya digunakan ketika mencoba membangun model prediksi . Secara umum, tidak terlalu membantu untuk model ketika Anda mencoba memperkirakan efek dari beberapa perawatan. Misalnya, jika Anda membandingkan distribusi kekuatan tarik antara bahan A dan B ("perlakuan" menjadi jenis bahan), validasi silang tidak akan diperlukan; sementara kami benar-benar berharap bahwa perkiraan efek pengobatan kami menggeneralisasi dari sampel, untuk sebagian besar masalah, teori statistik klasik dapat menjawab ini (yaitu "kesalahan standar" dari perkiraan) lebih tepatnya daripada validasi silang. Sayangnya, metodologi statistik klasik 1untuk kesalahan standar tidak tahan jika overfitting. Validasi silang seringkali jauh lebih baik dalam hal itu.

Di sisi lain, jika Anda mencoba memprediksi kapan suatu materi akan pecah berdasarkan 10.000 variabel terukur yang Anda masukkan ke dalam model pembelajaran mesin berdasarkan 100.000 pengamatan, Anda akan mengalami banyak masalah dalam membangun model yang hebat tanpa validasi silang!

Saya menduga dalam banyak percobaan fisika yang dilakukan, Anda umumnya tertarik pada estimasi efek. Dalam kasus-kasus itu, sangat sedikit kebutuhan untuk validasi silang.

1 Orang dapat berargumen bahwa metode Bayesian dengan prior informatif adalah metodologi statistik klasik yang membahas overfitting. Tapi itu diskusi lain.

Catatan: sementara validasi silang pertama kali muncul dalam literatur statistik, dan jelas digunakan oleh orang-orang yang menyebut diri mereka ahli statistik, itu menjadi alat yang diperlukan mendasar dalam komunitas pembelajaran mesin. Banyak model statistik akan bekerja dengan baik tanpa menggunakan cross-validation, tetapi hampir semua model yang dianggap "model prediksi pembelajaran mesin" memerlukan cross-validation, karena mereka sering memerlukan pemilihan parameter tuning, yang hampir mustahil dilakukan tanpa cross -validasi.

Cliff AB
sumber
np
@ usεr11852: ya, tapi hampir tidak mungkin untuk memilih hukuman regularisasi yang masuk akal tanpa validasi silang (selain memikirkan hukuman sebagai prior Bayesian, tapi itu sulit dengan model kotak hitam!). Dan sementara kami ingin hasil kami dalam membandingkan A ke B untuk menahan sampel, ini biasanya bukan masalah yang memerlukan penyetelan model (seperti prediksi yang sering dilakukan), dan dengan jumlah parameter yang relatif rendah, teori statistik klasik dapat menangani ini tanpa menggunakan validasi silang.
Cliff AB
Ini adalah argumen melingkar, regularisasi menggunakan cross-validation tetapi cross-validation dilakukan untuk regularisasi. Itu sebabnya saya agak berkomentar menentangnya sejak awal. Saya pikir inferensi / kausalitas statistik bergerak menjauh dari pendekatan penyetelan non-model ini (lihat misalnya 2016 Johansson et al. "Representasi pembelajaran untuk inferensi kontrafaktual" - makalah yang indah dan berantakan). Akhirnya penelitian Fisika Mendasar ketika disajikan masalah sulit juga dapat mengandalkan pendekatan ML (mis. Higgs Boson Machine Learning Challenge )
usεr11852
@ usεr11852 Regularisasi tidak "menggunakan" cross-validation, melainkan parameter tuning Anda untuk regularisasi dipilih menggunakan validasi silang. Sebagai contoh, lihat glment's cv.glmnetuntuk seluruh prosedur dalam fungsi kompak bagus.
Cliff AB
1
Juga, saya tidak pernah membuat klaim bahwa penelitian fisika tidak dapat menggunakan pendekatan ML atau validasi silang! Saya hanya menjelaskan bahwa validasi silang biasanya digunakan secara khusus untuk memilih antara model kompleks / parameter tuning dalam model prediktif, dan bahwa dalam banyak eksperimen fisika klasik, validasi silang tidak diperlukan. Jadi apa yang dilakukan fisikawan dengan data itu tidak selalu bertentangan dengan apa yang akan dilakukan oleh ahli statistik dengan data itu, yang saya percaya adalah inti dari pertanyaan OP.
Cliff AB
3

Sebagai ahli kimia (analitik) , saya menemukan kedua pendekatan: perhitungan analitik angka-angka jasa [sebagian besar untuk regresi univariat] serta pengukuran langsung angka-angka prestasi prediksi.
Bagasi kereta / ujian bagi saya adalah "adik lelaki" dari percobaan validasi untuk mengukur kualitas prediksi.


Jawaban panjang:

Eksperimen khas yang kami lakukan misalnya dalam kimia fisik sarjana menggunakan regresi univariat. Properti yang menarik sering menjadi parameter model, misalnya konstanta waktu ketika mengukur kinetika reaksi, tetapi kadang-kadang juga prediksi (misalnya kalibrasi linier univariat untuk memprediksi / mengukur beberapa nilai bunga).
Situasi ini sangat jinak dalam hal tidak overfitting: biasanya ada sejumlah derajat kebebasan yang tersisa setelah semua parameter diperkirakan, dan mereka digunakan untuk melatih (seperti dalam pendidikan) siswa dengan kepercayaan klasik atau perhitungan interval prediksi, dan kesalahan klasik propagasi - mereka dikembangkan untuk situasi ini. Dan bahkan jika situasinya tidak sepenuhnya seperti buku teks (misalnya saya memiliki struktur dalam data saya, misalnya dalam kinetika, saya berharap data tersebut lebih baik dijelaskan oleh varians antara jalannya reaksi + varians antara pengukuran dalam menjalankan daripada oleh hanya pendekatan satu varian), saya biasanya dapat menjalankan cukup percobaan untuk masih mendapatkan hasil yang bermanfaat.

pnn<pnnndf, pendekatan klasik tidak berhasil. Tetapi karena saya kebanyakan melakukan prediksi, saya selalu memiliki kemungkinan yang sangat langsung untuk mengukur kemampuan prediksi model saya: saya melakukan prediksi, dan membandingkannya dengan nilai referensi.

Pendekatan ini sebenarnya sangat kuat (walaupun mahal karena upaya percobaan yang meningkat), karena memungkinkan saya untuk menyelidiki kualitas prediktif juga untuk kondisi yang tidak tercakup dalam data pelatihan / kalibrasi. Misalnya saya dapat mengukur bagaimana kualitas prediktif memburuk dengan ekstrapolasi (ekstrapolasi juga mencakup misalnya pengukuran yang dilakukan, katakanlah, sebulan setelah data pelatihan diperoleh), saya dapat menyelidiki kekasaran terhadap faktor perancu yang saya harapkan penting, dll. Dengan kata lain , kita dapat mempelajari perilaku model kita sama seperti kita mempelajari perilaku sistem lain: kita menyelidiki titik-titik tertentu, atau mengganggunya dan melihat perubahan dalam jawaban sistem, dll.

Saya akan mengatakan bahwa kualitas prediktif yang lebih penting adalah (dan semakin tinggi risiko overfitting), semakin kita cenderung memilih pengukuran langsung kualitas prediktif daripada angka yang diturunkan secara analitis. (Tentu saja kami bisa memasukkan semua pembaur itu juga ke dalam desain percobaan pelatihan). Beberapa area seperti diagnosa medis menuntut agar studi validasi yang tepat dilakukan sebelum model "dilepaskan" pada pasien sungguhan.

Train / test split (apakah tahan * atau validasi silang atau out-of-bootstrap atau ...) menjadikan langkah ini lebih mudah. Kami menyimpan eksperimen tambahan dan tidak mengekstrapolasi (kami hanya menggeneralisasi untuk memprediksi kasus independen yang tidak diketahui dari distribusi data pelatihan yang sama). Saya akan menggambarkan ini sebagai verifikasi daripada validasi (meskipun validasi sangat dalam terminologi di sini). Ini sering merupakan cara pragmatis untuk pergi jika tidak ada tuntutan terlalu tinggi pada ketepatan angka-angka jasa (mereka mungkin tidak perlu dikenal sangat tepat dalam skenario pembuktian konsep).

* jangan membingungkan satu pemisahan acak menjadi kereta dan uji dengan studi yang dirancang dengan baik untuk mengukur kualitas prediksi.

cbeleites tidak senang dengan SX
sumber
2
+1 untuk menunjukkan perbedaan dalam verifikasi dan validasi.
peramal