Saya berpikir bahwa model linier umum (GLM) akan dianggap sebagai model statistik, tetapi seorang teman mengatakan kepada saya bahwa beberapa makalah mengklasifikasikannya sebagai teknik pembelajaran mesin. Mana yang benar (atau lebih tepat)? Penjelasan apa pun akan dihargai.
machine-learning
statistics
glm
pengguna77571
sumber
sumber
Jawaban:
GLM benar-benar merupakan model statistik, tetapi model statistik dan teknik pembelajaran mesin tidak saling eksklusif. Secara umum, statistik lebih memperhatikan parameter penyimpulan, sedangkan dalam pembelajaran mesin, prediksi adalah tujuan akhir.
sumber
Mengenai prediksi, statistik dan ilmu pembelajaran mesin mulai memecahkan sebagian besar masalah yang sama dari berbagai perspektif.
Pada dasarnya statistik mengasumsikan bahwa data dihasilkan oleh model stokastik tertentu. Jadi, dari perspektif statistik, model diasumsikan dan diberikan berbagai asumsi kesalahan diperlakukan dan parameter model dan pertanyaan lainnya disimpulkan.
Pembelajaran mesin berasal dari perspektif ilmu komputer. Modelnya algoritmik dan biasanya sangat sedikit asumsi yang diperlukan mengenai data. Kami bekerja dengan ruang hipotesis dan bias pembelajaran. Eksposisi pembelajaran mesin terbaik yang saya temukan terkandung dalam buku Tom Mitchell berjudul Machine Learning .
Untuk ide yang lebih lengkap dan lengkap mengenai kedua budaya ini, Anda dapat membaca makalah Leo Breiman yang disebut Statistical Modeling: The Two Cultures
Namun apa yang harus ditambahkan adalah bahwa bahkan jika kedua ilmu dimulai dengan perspektif yang berbeda, keduanya sekarang berbagi cukup banyak pengetahuan umum dan teknik. Mengapa, karena masalahnya sama, tetapi alatnya berbeda. Jadi sekarang pembelajaran mesin sebagian besar diperlakukan dari perspektif statistik (lihat buku Hastie, Tibshirani, Friedman The Elements of Statistics Learning dari sudut pandang pembelajaran mesin dengan perawatan statistik, dan mungkin buku Kevin P. Murphy Machine Learning: A perspektif probabilistik , untuk menyebutkan beberapa buku terbaik yang tersedia saat ini).
Bahkan sejarah perkembangan bidang ini menunjukkan manfaat dari gabungan perspektif ini. Saya akan menjelaskan dua peristiwa.
Yang pertama adalah penciptaan pohon CART, yang dibuat oleh Breiman dengan latar belakang statistik yang kuat. Pada waktu yang hampir bersamaan, Quinlan mengembangkan ID3, C45, See5, dan seterusnya, suite pohon keputusan dengan latar belakang ilmu komputer yang lebih banyak. Sekarang kedua kelompok pohon dan metode ensemble seperti mengantongi dan hutan menjadi sangat mirip.
Kisah kedua adalah tentang meningkatkan. Awalnya mereka dikembangkan oleh Freund dan Shapire ketika mereka menemukan AdaBoost. Pilihan untuk merancang AdaBoost dilakukan sebagian besar dari perspektif komputasi. Bahkan penulisnya tidak mengerti dengan baik mengapa ia bekerja. Hanya 5 tahun kemudian Breiman (lagi!) Menggambarkan model adaboost dari perspektif statistik dan memberikan penjelasan mengapa itu berhasil. Sejak itu, berbagai ilmuwan terkemuka, dengan kedua jenis latar belakang, mengembangkan lebih lanjut ide-ide yang mengarah ke Pleiads meningkatkan algoritma, seperti meningkatkan logistik, meningkatkan gradien, dan meningkatkan lembut dan sebagainya. Sekarang sulit untuk berpikir untuk meningkatkan tanpa latar belakang statistik yang kuat.
Generalized Linear Models adalah pengembangan statistik. Namun perawatan Bayesian baru menempatkan algoritma ini juga di taman bermain mesin. Jadi saya percaya kedua klaim itu mungkin benar, karena interpretasi dan perlakuan terhadap cara kerjanya bisa berbeda.
sumber
Selain jawaban Ben, perbedaan halus antara model statistik dan model pembelajaran mesin adalah bahwa, dalam model statistik, Anda secara eksplisit memutuskan struktur persamaan output sebelum membangun model. Model dibangun untuk menghitung parameter / koefisien.
Ambil model linier atau GLM misalnya,
Variabel independen Anda adalah x1, x2, x3 dan koefisien yang akan ditentukan adalah a1, a2, a3. Anda mendefinisikan struktur persamaan Anda dengan cara ini sebelum membangun model dan menghitung a1, a2, a3. Jika Anda percaya bahwa y entah bagaimana berkorelasi dengan x2 secara non-linear, Anda dapat mencoba sesuatu seperti ini.
Dengan demikian, Anda menempatkan batasan dalam hal struktur output. Model statistik inheren adalah model linier kecuali Anda secara eksplisit menerapkan transformasi seperti sigmoid atau kernel untuk membuatnya nonlinier (GLM dan SVM).
Dalam hal model pembelajaran mesin, Anda jarang menentukan struktur output dan algoritma seperti pohon keputusan secara inheren non-linear dan bekerja secara efisien.
Bertentangan dengan apa yang Ben tunjukkan, model pembelajaran mesin tidak hanya tentang prediksi, mereka melakukan klasifikasi, regresi dll yang dapat digunakan untuk membuat prediksi yang juga dilakukan oleh berbagai model statistik.
sumber
GLM benar-benar merupakan model statistik, sementara semakin banyak metode statistik yang diterapkan dalam produksi industri sebagai trik pembelajaran mesin . Meta-analisis yang paling banyak saya baca selama ini adalah contoh yang baik dalam bidang statistik.
Aplikasi industri yang sempurna dengan GLM dapat menjelaskan mengapa teman Anda memberi tahu Anda bahwa GLM dianggap sebagai teknik pembelajaran mesin . Anda dapat merujuk makalah sumber http://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdf tentang itu.
Saya menerapkan yang disederhanakan yang diperlakukan sebagai kerangka kerja utama untuk sistem rekomendasi saya dalam skenario produksi beberapa minggu yang lalu. Sangat dihargai jika Anda memberi saya beberapa tips, dan Anda dapat memeriksa kode sumber: https://github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala
Semoga ini bisa membantu Anda, selamat siang!
sumber