Model prediksi: statistik tidak mungkin mengalahkan pembelajaran mesin? [Tutup]

14

Saat ini saya mengikuti program magister yang berfokus pada statistik / ekonometrika. Di master saya, semua siswa harus melakukan 3 bulan penelitian. Pekan lalu, semua kelompok harus mempresentasikan penelitian mereka kepada siswa master lainnya.

Hampir setiap kelompok melakukan beberapa pemodelan statistik dan beberapa pemodelan pembelajaran mesin untuk topik penelitian mereka dan setiap kali prediksi out-of-sample datang untuk berbicara model pembelajaran mesin sederhana mengalahkan model statistik yang sangat canggih yang setiap orang bekerja sangat keras selama 3 terakhir. bulan. Tidak peduli sebagus apa pun model statistik setiap orang, hutan acak yang sederhana selalu mengalami kesalahan out-of-sample yang lebih rendah.

Saya bertanya-tanya apakah ini pengamatan yang diterima secara umum? Bahwa jika menyangkut peramalan out-of-sample tidak ada cara untuk mengalahkan hutan acak sederhana atau model peningkatan gradien ekstrim? Kedua metode ini sangat sederhana untuk diimplementasikan dengan menggunakan paket R, sedangkan semua model statistik yang dihasilkan oleh setiap orang membutuhkan cukup banyak keterampilan, pengetahuan, dan upaya untuk memperkirakan.

Apa pendapat Anda tentang ini? Apakah satu-satunya manfaat model statistik / ekonometrik yang Anda dapatkan interpretasinya? Atau apakah model kami tidak cukup baik sehingga gagal mengungguli prediksi hutan acak sederhana secara signifikan? Apakah ada makalah yang membahas masalah ini?

sulih suara
sumber
5
Ini mungkin ditutup sebagai "terlalu luas". (Semoga bukan sebagai "berbasis opini"!) Pendapat saya: Saya tidak berpikir ada jawaban universal. Pengalaman saya adalah bahwa model statistik lebih baik jika ada pengamatan yang lebih sedikit, karena kemudian memaksakan semacam struktur meningkat pada pendekatan yang sebagian besar bebas model. Sebaliknya, RF lebih baik jika ada banyak pengamatan. ...
Stephan Kolassa
4
... Pertanyaan lainnya adalah apa sebenarnya yang dievaluasi, dan bagaimana. Jika prediksi titik dievaluasi secara tepat (ukuran akurasi dapat secara mengejutkan menyesatkan), itu adalah masalah yang berbeda daripada jika prediksi kepadatan dilakukan. Model statistik mungkin lebih baik dalam ramalan kepadatan, lagi karena Anda membutuhkan lebih banyak data.
Stephan Kolassa
1
@StephanKolassa: Saya pikir jawaban yang baik (atau serangkaian jawaban) untuk pertanyaan ini akan terdiri dari alasan mengapa tidak ada jawaban universal - secara teoritis & praktis -, bagaimana kinerja prediksi dievaluasi, cara menggambar perbedaan antara statistik & mesin metode pembelajaran, tujuan apa yang mungkin melampaui prediksi, & beberapa hal yang belum saya pikirkan. Jadi cakupannya luas; tapi tidak terlalu luas menurut saya, & mencoba membatasi itu mungkin saja menghalangi pembuatan poin umum yang bermanfaat.
Scortchi
5
Apa yang tidak kita inginkan adalah kumpulan anekdot - saya mendesak pengguna untuk menandai jawaban penghapusan yang datang sedikit lebih dari misalnya "Saya selalu menemukan bahwa hutan acak mengalahkan regresi logistik", betapapun bertele-tele. Kami bisa sedikit malas tentang komentar, tetapi utas panjang akan dipindahkan ke obrolan.
Scortchi
14
Saya tidak berpikir bahwa ada perbedaan yang berarti antara statistik dan pembelajaran mesin. Sebagai contoh, Leo Breiman, seorang peneliti hutan acak terkemuka, adalah seorang profesor statistik di UC Berkeley. Dalam konteks anekdot Anda, RF kebetulan lebih baik daripada model lain yang cocok orang, tetapi saya tidak melihat alasan bahwa ini pasti benar secara umum (lihat juga teorema No Free Lunch). Mungkin ini mengatakan lebih banyak tentang kumpulan data (atau bahkan siswa) daripada metode.
Sycorax berkata Reinstate Monica

Jawaban:

20

Pemodelan statistik berbeda dari pembelajaran mesin. Sebagai contoh, regresi linier adalah model statistik dan model pembelajaran mesin. Jadi jika Anda membandingkan regresi linier dengan hutan acak, Anda hanya membandingkan model pembelajaran mesin yang lebih sederhana dengan yang lebih rumit. Anda tidak membandingkan model statistik dengan model pembelajaran mesin.

Pemodelan statistik memberikan lebih dari sekadar interpretasi; sebenarnya memberikan model beberapa parameter populasi. Itu tergantung pada kerangka besar matematika dan teori, yang memungkinkan rumus untuk hal-hal seperti varians koefisien, varians prediksi, dan pengujian hipotesis. Potensi hasil pemodelan statistik jauh lebih besar daripada pembelajaran mesin, karena Anda dapat membuat pernyataan yang kuat tentang parameter populasi daripada hanya mengukur kesalahan pada ketidaksepakatan, tetapi itu jauh lebih sulit untuk mendekati masalah dengan model statistik.

pengguna0
sumber
1
Sejauh yang saya mengerti Anda mengatakan bahwa dengan statistik Anda mendapatkan lebih banyak manfaat seperti varians koefisien, varians prediksi, dan pengujian hipotesis. Tetapi ketika itu benar-benar datang ke pemodelan prediktif, yaitu membuat perkiraan titik dari beberapa variabel respon, apakah Anda pikir model statistik dapat mengalahkan model pembelajaran mesin?
dubvice
5
Ini adalah yang jawabannya (1!). Dalam pandangan saya (dan mungkin orang lain juga) ada beberapa jenis analisis statistik: deskriptif, inferensial, prediktif, eksplorasi, dll. Pembelajaran mesin sebagian besar akan jatuh dalam analisis prediktif, dan sebagian besar tidak memungkinkan Anda untuk membuat inferensial pernyataan tentang berbagai hal, sehingga semuanya bermuara pada "menggunakan alat yang tepat untuk pekerjaan yang ada" (diberikan contoh regresi linier, dapat digunakan di semua bidang, misalnya memperkirakan ekspektasi kondisional, yang merupakan tugas deskriptif).
Firebug
2
Ini kedengarannya seperti pernyataan bahwa pemodelan statistik standar bisa lebih baik untuk inferensi (dibandingkan dengan prediksi) daripada pembelajaran mesin, yang dapat membantu model interpretabilitas. Meskipun memang benar jika kita membandingkan regresi kuadrat terkecil biasa dengan jaringan saraf yang dalam, mengingat bahwa pertanyaan awal secara khusus merujuk hutan acak (algoritma ML yang bagus untuk inferensi), pernyataan semacam itu agak kabur.
Greenstick
2
Berikut adalah beberapa bukti kuat dari domain deret waktu di mana model statistik secara konsisten mengalahkan pendekatan pembelajaran mesin: Makridakis "Metode peramalan Statistik dan Pembelajaran Mesin: Kekhawatiran dan cara maju" .
Richard Hardy
1
Itu hanya jawaban yang sempurna. Berikut ini sebuah contoh: katakanlah Anda memiliki ukuran yang memprediksi kelangsungan hidup pasien dengan penyakit tertentu. Ada standar internasional tentang cara menentukan apakah ukuran ini secara klinis valid (pada dasarnya jika koefisiennya berbeda dari 0 dengan pvalue di bawah 5% dalam model univariat atau multivariat). Meskipun saya benar-benar yakin bahwa 99% dari waktu hutan acak dengan data yang cukup akan menjadi model prediksi yang lebih baik.
Rémy Nicolle
5

Mengatakan pertanyaan itu salah dengan cara Anda mengucapkannya. Misalnya, sejumlah besar pembelajaran mesin dapat disebut pembelajaran statistik . Jadi, perbandingan Anda seperti apel dengan tart buah.

Namun, saya akan mengikuti cara Anda membingkainya, dan mengklaim yang berikut: ketika sampai pada prediksi, tidak ada yang dapat dilakukan tanpa beberapa bentuk statistik karena prediksi secara inheren memiliki keacakan (ketidakpastian) di dalamnya. Pertimbangkan ini: meskipun ada banyak pembelajaran mesin yang berhasil di beberapa aplikasi yang dimilikinya sama sekali tidak menunjukkan prediksi harga aset. Tidak ada sama sekali. Mengapa? Karena di sebagian besar pasar likuid harga aset secara inheren bersifat stokastik.

Anda dapat menjalankan pembelajaran mesin sepanjang hari untuk mengamati dan mempelajari peluruhan atom radioaktif, dan itu tidak akan pernah bisa memprediksi waktu peluruhan atom berikutnya, hanya karena itu acak.

Sebagai calon ahli statistik, akan bodoh jika Anda tidak menguasai pembelajaran mesin, karena ini adalah salah satu aplikasi statistik terhangat, kecuali, tentu saja, Anda tahu pasti bahwa Anda akan pergi ke dunia akademis. Siapa pun yang cenderung bekerja di industri perlu menguasai ML. Tidak ada permusuhan atau persaingan antara statistik dan kerumunan ML sama sekali. Bahkan, jika Anda suka pemrograman Anda akan merasa betah di bidang ML

Aksakal
sumber
2

Umumnya tidak, tetapi berpotensi ya di bawah salah spesifikasi. Masalah yang Anda cari disebut penerimaan. Suatu keputusan dapat diterima jika tidak ada cara yang tidak terlalu berisiko untuk menghitungnya.

Semua solusi Bayesian dapat diterima dan solusi non-Bayesian dapat diterima sejauh mereka cocok dengan solusi Bayesian di setiap sampel atau pada batas. Solusi Frequentist atau Bayesian yang dapat diterima akan selalu mengalahkan solusi ML kecuali jika itu juga dapat diterima. Dengan mengatakan itu, ada beberapa pernyataan praktis yang membuat pernyataan ini benar tetapi kosong.

Pertama, opsi prior untuk Bayesian harus menjadi prior asli Anda dan bukan distribusi sebelumnya yang digunakan untuk membuat editor di jurnal senang. Kedua, banyak solusi Frequentist tidak dapat diterima dan estimator penyusutan seharusnya digunakan sebagai pengganti solusi standar. Banyak orang tidak menyadari lemma Stein dan implikasinya terhadap kesalahan sampel. Akhirnya, ML bisa sedikit lebih kuat, dalam banyak kasus, untuk kesalahan spesifikasi kesalahan.

Ketika Anda pindah ke pohon keputusan dan sepupunya di hutan, Anda tidak menggunakan metodologi yang sama kecuali jika Anda juga menggunakan sesuatu yang mirip dengan jaring Bayes. Solusi grafik berisi sejumlah besar informasi implisit di dalamnya, khususnya grafik yang diarahkan. Setiap kali Anda menambahkan informasi ke proses probabilistik atau statistik, Anda mengurangi variabilitas hasil dan mengubah apa yang dianggap dapat diterima.

Jika Anda melihat pembelajaran mesin dari komposisi fungsi perspektif, itu hanya menjadi solusi statistik tetapi menggunakan perkiraan untuk membuat solusi mudah dikerjakan. Untuk solusi Bayesian, MCMC menghemat jumlah waktu yang tidak dapat dipercaya seperti halnya penurunan gradien untuk banyak masalah ML. Jika Anda harus membuat posterior yang tepat untuk diintegrasikan atau menggunakan kekuatan kasar pada banyak masalah ML, tata surya akan mati karena panas sebelum Anda mendapat jawaban.

Dugaan saya adalah bahwa Anda memiliki model yang tidak ditentukan spesifik untuk mereka yang menggunakan statistik, atau statistik yang tidak sesuai. Saya mengajar sebuah ceramah di mana saya membuktikan bahwa bayi yang baru lahir akan melayang keluar jendela jika tidak dibungkus dengan tepat dan di mana metode Bayesian secara radikal mengungguli metode Frequentist pada pilihan multinomial sehingga metode Frequentist mencapai titik impas, dengan harapan, sementara metode Bayesian menggandakan uang peserta . Sekarang saya menyalahgunakan statistik pada yang pertama dan mengambil keuntungan dari tidak dapatnya estimator Frequentist pada yang terakhir, tetapi pengguna statistik yang naif dapat dengan mudah melakukan apa yang saya lakukan. Saya hanya membuatnya ekstrem untuk membuat contoh menjadi jelas, tetapi saya menggunakan data yang benar-benar nyata.

Hutan acak adalah penduga yang konsisten dan tampaknya menyerupai proses Bayesian tertentu. Karena hubungan dengan penaksir kernel, mereka mungkin cukup dekat. Jika Anda melihat perbedaan material dalam kinerja antara jenis solusi, maka ada sesuatu dalam masalah mendasar yang Anda salah pahami dan jika masalah tersebut memiliki arti penting, maka Anda benar-benar perlu mencari sumber perbedaan karena mungkin juga hal bahwa semua model tidak ditentukan secara spesifik.

Dave Harris
sumber
1

Banyak pembelajaran mesin mungkin tidak jauh berbeda dari p-hacking, setidaknya untuk beberapa tujuan.

Jika Anda menguji setiap model yang mungkin untuk menemukan bahwa yang memiliki akurasi prediksi tertinggi (prediksi historis atau prediksi out-group) berdasarkan data historis, ini tidak berarti bahwa hasilnya akan membantu untuk memahami apa yang sedang terjadi. Namun, mungkin itu akan menemukan kemungkinan hubungan yang dapat menginformasikan hipotesis.

Memotivasi hipotesis tertentu dan kemudian mengujinya menggunakan metode statistik tentu saja bisa juga sama-sama diretas (atau serupa).

Tetapi intinya adalah jika kriteria tersebut adalah "akurasi prediksi tertinggi berdasarkan data historis", maka ada risiko tinggi menjadi terlalu percaya diri dalam beberapa model yang tidak dimengerti, tanpa benar-benar memiliki ide tentang apa yang mendorong hasil historis dan / atau apakah mereka informatif untuk masa depan.

nathanwww
sumber