Apakah GLM model statistik atau pembelajaran mesin?

11

Saya berpikir bahwa model linier umum (GLM) akan dianggap sebagai model statistik, tetapi seorang teman mengatakan kepada saya bahwa beberapa makalah mengklasifikasikannya sebagai teknik pembelajaran mesin. Mana yang benar (atau lebih tepat)? Penjelasan apa pun akan dihargai.

pengguna77571
sumber
1
Saya pikir pembelajaran mesin biasanya merupakan aplikasi pemodelan statistik, jadi saya akan mengatakan keduanya.
joews

Jawaban:

21

GLM benar-benar merupakan model statistik, tetapi model statistik dan teknik pembelajaran mesin tidak saling eksklusif. Secara umum, statistik lebih memperhatikan parameter penyimpulan, sedangkan dalam pembelajaran mesin, prediksi adalah tujuan akhir.

Ben
sumber
15

Mengenai prediksi, statistik dan ilmu pembelajaran mesin mulai memecahkan sebagian besar masalah yang sama dari berbagai perspektif.

Pada dasarnya statistik mengasumsikan bahwa data dihasilkan oleh model stokastik tertentu. Jadi, dari perspektif statistik, model diasumsikan dan diberikan berbagai asumsi kesalahan diperlakukan dan parameter model dan pertanyaan lainnya disimpulkan.

Pembelajaran mesin berasal dari perspektif ilmu komputer. Modelnya algoritmik dan biasanya sangat sedikit asumsi yang diperlukan mengenai data. Kami bekerja dengan ruang hipotesis dan bias pembelajaran. Eksposisi pembelajaran mesin terbaik yang saya temukan terkandung dalam buku Tom Mitchell berjudul Machine Learning .

Untuk ide yang lebih lengkap dan lengkap mengenai kedua budaya ini, Anda dapat membaca makalah Leo Breiman yang disebut Statistical Modeling: The Two Cultures

Namun apa yang harus ditambahkan adalah bahwa bahkan jika kedua ilmu dimulai dengan perspektif yang berbeda, keduanya sekarang berbagi cukup banyak pengetahuan umum dan teknik. Mengapa, karena masalahnya sama, tetapi alatnya berbeda. Jadi sekarang pembelajaran mesin sebagian besar diperlakukan dari perspektif statistik (lihat buku Hastie, Tibshirani, Friedman The Elements of Statistics Learning dari sudut pandang pembelajaran mesin dengan perawatan statistik, dan mungkin buku Kevin P. Murphy Machine Learning: A perspektif probabilistik , untuk menyebutkan beberapa buku terbaik yang tersedia saat ini).

Bahkan sejarah perkembangan bidang ini menunjukkan manfaat dari gabungan perspektif ini. Saya akan menjelaskan dua peristiwa.

Yang pertama adalah penciptaan pohon CART, yang dibuat oleh Breiman dengan latar belakang statistik yang kuat. Pada waktu yang hampir bersamaan, Quinlan mengembangkan ID3, C45, See5, dan seterusnya, suite pohon keputusan dengan latar belakang ilmu komputer yang lebih banyak. Sekarang kedua kelompok pohon dan metode ensemble seperti mengantongi dan hutan menjadi sangat mirip.

Kisah kedua adalah tentang meningkatkan. Awalnya mereka dikembangkan oleh Freund dan Shapire ketika mereka menemukan AdaBoost. Pilihan untuk merancang AdaBoost dilakukan sebagian besar dari perspektif komputasi. Bahkan penulisnya tidak mengerti dengan baik mengapa ia bekerja. Hanya 5 tahun kemudian Breiman (lagi!) Menggambarkan model adaboost dari perspektif statistik dan memberikan penjelasan mengapa itu berhasil. Sejak itu, berbagai ilmuwan terkemuka, dengan kedua jenis latar belakang, mengembangkan lebih lanjut ide-ide yang mengarah ke Pleiads meningkatkan algoritma, seperti meningkatkan logistik, meningkatkan gradien, dan meningkatkan lembut dan sebagainya. Sekarang sulit untuk berpikir untuk meningkatkan tanpa latar belakang statistik yang kuat.

Generalized Linear Models adalah pengembangan statistik. Namun perawatan Bayesian baru menempatkan algoritma ini juga di taman bermain mesin. Jadi saya percaya kedua klaim itu mungkin benar, karena interpretasi dan perlakuan terhadap cara kerjanya bisa berbeda.

rapaio
sumber
5

Selain jawaban Ben, perbedaan halus antara model statistik dan model pembelajaran mesin adalah bahwa, dalam model statistik, Anda secara eksplisit memutuskan struktur persamaan output sebelum membangun model. Model dibangun untuk menghitung parameter / koefisien.

Ambil model linier atau GLM misalnya,

y = a1x1 + a2x2 + a3x3

Variabel independen Anda adalah x1, x2, x3 dan koefisien yang akan ditentukan adalah a1, a2, a3. Anda mendefinisikan struktur persamaan Anda dengan cara ini sebelum membangun model dan menghitung a1, a2, a3. Jika Anda percaya bahwa y entah bagaimana berkorelasi dengan x2 secara non-linear, Anda dapat mencoba sesuatu seperti ini.

y = a1x1 + a2(x2)^2 + a3x3.

Dengan demikian, Anda menempatkan batasan dalam hal struktur output. Model statistik inheren adalah model linier kecuali Anda secara eksplisit menerapkan transformasi seperti sigmoid atau kernel untuk membuatnya nonlinier (GLM dan SVM).

Dalam hal model pembelajaran mesin, Anda jarang menentukan struktur output dan algoritma seperti pohon keputusan secara inheren non-linear dan bekerja secara efisien.

Bertentangan dengan apa yang Ben tunjukkan, model pembelajaran mesin tidak hanya tentang prediksi, mereka melakukan klasifikasi, regresi dll yang dapat digunakan untuk membuat prediksi yang juga dilakukan oleh berbagai model statistik.

Binga
sumber
Menggunakan jaringan saraf logika adalah model statistik karena arsitektur diputuskan sebelumnya. Saya tidak berpikir upaya untuk mendefinisikan potongan yang jelas antara statistik dan pembelajaran mesin adalah mungkin atau perlu.
Marc Claesen
Inilah alasan mengapa saya menyebutkan kata 'jarang' dalam paragraf pembelajaran mesin. Saya belum mengatakan bahwa Anda benar-benar tidak! Nah, untuk orang-orang yang mulai mengeksplorasi hal-hal ini, ada baiknya untuk mengetahui nuansa antara pembelajaran statistik dan pembelajaran mesin
binga
Saya menyukai penjelasan ini. Saya telah menemukan bahwa di dunia statistik ada penekanan besar pada normalisasi data, rekayasa fitur dan pemasangan model. Di dunia ML sementara masih penting, tampaknya orang menggunakan regularisasi dan jumlah data yang lebih besar untuk 'menemukan model yang tepat', yang membutuhkan sedikit asumsi di muka. Catatan: Itulah perasaan saya karena telah melakukan Master di keduanya, tetapi saya menyambut orang lain yang mengoreksi saya jika mereka pikir saya salah.
user1761806
2

GLM benar-benar merupakan model statistik, sementara semakin banyak metode statistik yang diterapkan dalam produksi industri sebagai trik pembelajaran mesin . Meta-analisis yang paling banyak saya baca selama ini adalah contoh yang baik dalam bidang statistik.

Aplikasi industri yang sempurna dengan GLM dapat menjelaskan mengapa teman Anda memberi tahu Anda bahwa GLM dianggap sebagai teknik pembelajaran mesin . Anda dapat merujuk makalah sumber http://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdf tentang itu.

Saya menerapkan yang disederhanakan yang diperlakukan sebagai kerangka kerja utama untuk sistem rekomendasi saya dalam skenario produksi beberapa minggu yang lalu. Sangat dihargai jika Anda memberi saya beberapa tips, dan Anda dapat memeriksa kode sumber: https://github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala

Semoga ini bisa membantu Anda, selamat siang!

joe
sumber