Saat ini saya mengikuti program magister yang berfokus pada statistik / ekonometrika. Di master saya, semua siswa harus melakukan 3 bulan penelitian. Pekan lalu, semua kelompok harus mempresentasikan penelitian mereka kepada siswa master lainnya.
Hampir setiap kelompok melakukan beberapa pemodelan statistik dan beberapa pemodelan pembelajaran mesin untuk topik penelitian mereka dan setiap kali prediksi out-of-sample datang untuk berbicara model pembelajaran mesin sederhana mengalahkan model statistik yang sangat canggih yang setiap orang bekerja sangat keras selama 3 terakhir. bulan. Tidak peduli sebagus apa pun model statistik setiap orang, hutan acak yang sederhana selalu mengalami kesalahan out-of-sample yang lebih rendah.
Saya bertanya-tanya apakah ini pengamatan yang diterima secara umum? Bahwa jika menyangkut peramalan out-of-sample tidak ada cara untuk mengalahkan hutan acak sederhana atau model peningkatan gradien ekstrim? Kedua metode ini sangat sederhana untuk diimplementasikan dengan menggunakan paket R, sedangkan semua model statistik yang dihasilkan oleh setiap orang membutuhkan cukup banyak keterampilan, pengetahuan, dan upaya untuk memperkirakan.
Apa pendapat Anda tentang ini? Apakah satu-satunya manfaat model statistik / ekonometrik yang Anda dapatkan interpretasinya? Atau apakah model kami tidak cukup baik sehingga gagal mengungguli prediksi hutan acak sederhana secara signifikan? Apakah ada makalah yang membahas masalah ini?
Jawaban:
Pemodelan statistik berbeda dari pembelajaran mesin. Sebagai contoh, regresi linier adalah model statistik dan model pembelajaran mesin. Jadi jika Anda membandingkan regresi linier dengan hutan acak, Anda hanya membandingkan model pembelajaran mesin yang lebih sederhana dengan yang lebih rumit. Anda tidak membandingkan model statistik dengan model pembelajaran mesin.
Pemodelan statistik memberikan lebih dari sekadar interpretasi; sebenarnya memberikan model beberapa parameter populasi. Itu tergantung pada kerangka besar matematika dan teori, yang memungkinkan rumus untuk hal-hal seperti varians koefisien, varians prediksi, dan pengujian hipotesis. Potensi hasil pemodelan statistik jauh lebih besar daripada pembelajaran mesin, karena Anda dapat membuat pernyataan yang kuat tentang parameter populasi daripada hanya mengukur kesalahan pada ketidaksepakatan, tetapi itu jauh lebih sulit untuk mendekati masalah dengan model statistik.
sumber
Mengatakan pertanyaan itu salah dengan cara Anda mengucapkannya. Misalnya, sejumlah besar pembelajaran mesin dapat disebut pembelajaran statistik . Jadi, perbandingan Anda seperti apel dengan tart buah.
Namun, saya akan mengikuti cara Anda membingkainya, dan mengklaim yang berikut: ketika sampai pada prediksi, tidak ada yang dapat dilakukan tanpa beberapa bentuk statistik karena prediksi secara inheren memiliki keacakan (ketidakpastian) di dalamnya. Pertimbangkan ini: meskipun ada banyak pembelajaran mesin yang berhasil di beberapa aplikasi yang dimilikinya sama sekali tidak menunjukkan prediksi harga aset. Tidak ada sama sekali. Mengapa? Karena di sebagian besar pasar likuid harga aset secara inheren bersifat stokastik.
Anda dapat menjalankan pembelajaran mesin sepanjang hari untuk mengamati dan mempelajari peluruhan atom radioaktif, dan itu tidak akan pernah bisa memprediksi waktu peluruhan atom berikutnya, hanya karena itu acak.
Sebagai calon ahli statistik, akan bodoh jika Anda tidak menguasai pembelajaran mesin, karena ini adalah salah satu aplikasi statistik terhangat, kecuali, tentu saja, Anda tahu pasti bahwa Anda akan pergi ke dunia akademis. Siapa pun yang cenderung bekerja di industri perlu menguasai ML. Tidak ada permusuhan atau persaingan antara statistik dan kerumunan ML sama sekali. Bahkan, jika Anda suka pemrograman Anda akan merasa betah di bidang ML
sumber
Umumnya tidak, tetapi berpotensi ya di bawah salah spesifikasi. Masalah yang Anda cari disebut penerimaan. Suatu keputusan dapat diterima jika tidak ada cara yang tidak terlalu berisiko untuk menghitungnya.
Semua solusi Bayesian dapat diterima dan solusi non-Bayesian dapat diterima sejauh mereka cocok dengan solusi Bayesian di setiap sampel atau pada batas. Solusi Frequentist atau Bayesian yang dapat diterima akan selalu mengalahkan solusi ML kecuali jika itu juga dapat diterima. Dengan mengatakan itu, ada beberapa pernyataan praktis yang membuat pernyataan ini benar tetapi kosong.
Pertama, opsi prior untuk Bayesian harus menjadi prior asli Anda dan bukan distribusi sebelumnya yang digunakan untuk membuat editor di jurnal senang. Kedua, banyak solusi Frequentist tidak dapat diterima dan estimator penyusutan seharusnya digunakan sebagai pengganti solusi standar. Banyak orang tidak menyadari lemma Stein dan implikasinya terhadap kesalahan sampel. Akhirnya, ML bisa sedikit lebih kuat, dalam banyak kasus, untuk kesalahan spesifikasi kesalahan.
Ketika Anda pindah ke pohon keputusan dan sepupunya di hutan, Anda tidak menggunakan metodologi yang sama kecuali jika Anda juga menggunakan sesuatu yang mirip dengan jaring Bayes. Solusi grafik berisi sejumlah besar informasi implisit di dalamnya, khususnya grafik yang diarahkan. Setiap kali Anda menambahkan informasi ke proses probabilistik atau statistik, Anda mengurangi variabilitas hasil dan mengubah apa yang dianggap dapat diterima.
Jika Anda melihat pembelajaran mesin dari komposisi fungsi perspektif, itu hanya menjadi solusi statistik tetapi menggunakan perkiraan untuk membuat solusi mudah dikerjakan. Untuk solusi Bayesian, MCMC menghemat jumlah waktu yang tidak dapat dipercaya seperti halnya penurunan gradien untuk banyak masalah ML. Jika Anda harus membuat posterior yang tepat untuk diintegrasikan atau menggunakan kekuatan kasar pada banyak masalah ML, tata surya akan mati karena panas sebelum Anda mendapat jawaban.
Dugaan saya adalah bahwa Anda memiliki model yang tidak ditentukan spesifik untuk mereka yang menggunakan statistik, atau statistik yang tidak sesuai. Saya mengajar sebuah ceramah di mana saya membuktikan bahwa bayi yang baru lahir akan melayang keluar jendela jika tidak dibungkus dengan tepat dan di mana metode Bayesian secara radikal mengungguli metode Frequentist pada pilihan multinomial sehingga metode Frequentist mencapai titik impas, dengan harapan, sementara metode Bayesian menggandakan uang peserta . Sekarang saya menyalahgunakan statistik pada yang pertama dan mengambil keuntungan dari tidak dapatnya estimator Frequentist pada yang terakhir, tetapi pengguna statistik yang naif dapat dengan mudah melakukan apa yang saya lakukan. Saya hanya membuatnya ekstrem untuk membuat contoh menjadi jelas, tetapi saya menggunakan data yang benar-benar nyata.
Hutan acak adalah penduga yang konsisten dan tampaknya menyerupai proses Bayesian tertentu. Karena hubungan dengan penaksir kernel, mereka mungkin cukup dekat. Jika Anda melihat perbedaan material dalam kinerja antara jenis solusi, maka ada sesuatu dalam masalah mendasar yang Anda salah pahami dan jika masalah tersebut memiliki arti penting, maka Anda benar-benar perlu mencari sumber perbedaan karena mungkin juga hal bahwa semua model tidak ditentukan secara spesifik.
sumber
Banyak pembelajaran mesin mungkin tidak jauh berbeda dari p-hacking, setidaknya untuk beberapa tujuan.
Jika Anda menguji setiap model yang mungkin untuk menemukan bahwa yang memiliki akurasi prediksi tertinggi (prediksi historis atau prediksi out-group) berdasarkan data historis, ini tidak berarti bahwa hasilnya akan membantu untuk memahami apa yang sedang terjadi. Namun, mungkin itu akan menemukan kemungkinan hubungan yang dapat menginformasikan hipotesis.
Memotivasi hipotesis tertentu dan kemudian mengujinya menggunakan metode statistik tentu saja bisa juga sama-sama diretas (atau serupa).
Tetapi intinya adalah jika kriteria tersebut adalah "akurasi prediksi tertinggi berdasarkan data historis", maka ada risiko tinggi menjadi terlalu percaya diri dalam beberapa model yang tidak dimengerti, tanpa benar-benar memiliki ide tentang apa yang mendorong hasil historis dan / atau apakah mereka informatif untuk masa depan.
sumber