Saya bertemu dengan beberapa ahli statistik yang tidak pernah menggunakan model selain Regresi Linier untuk prediksi karena mereka percaya bahwa "model ML" seperti meningkatkan acak hutan atau gradien sulit untuk dijelaskan atau "tidak dapat ditafsirkan".
Dalam Regresi Linier, mengingat bahwa kumpulan asumsi diverifikasi (normalitas kesalahan, homoskedastisitas, tidak ada multi-collinearity), uji-t menyediakan cara untuk menguji signifikansi variabel, tes yang menurut pengetahuan saya tidak tersedia di hutan acak atau model peningkatan gradien.
Oleh karena itu, pertanyaan saya adalah apakah saya ingin memodelkan variabel dependen dengan satu set variabel independen, demi interpretasi, haruskah saya selalu menggunakan Regresi Linier?
Jawaban:
Sulit bagi saya untuk percaya bahwa Anda mendengar orang mengatakan ini, karena itu akan menjadi hal yang bodoh untuk dikatakan. Ini seperti mengatakan bahwa Anda hanya menggunakan palu (termasuk lubang pengeboran dan untuk mengganti bola lampu), karena mudah digunakan dan memberikan hasil yang dapat diprediksi.
Kedua, regresi linier tidak selalu "dapat ditafsirkan". Jika Anda memiliki model regresi linier dengan banyak istilah polinomial, atau hanya banyak fitur, akan sulit untuk ditafsirkan. Misalnya, Anda menggunakan nilai mentah masing-masing 784 piksel dari MNIST † sebagai fitur. Apakah mengetahui bahwa pixel 237 memiliki bobot sama dengan -2311.67 memberi tahu Anda apa-apa tentang model? Untuk data gambar, melihat peta aktivasi jaringan saraf convolutional akan jauh lebih mudah dipahami.
Akhirnya, ada model yang dapat diinterpretasikan secara setara, misalnya regresi logistik, pohon keputusan, algoritma naif Bayes, dan banyak lagi.
† - Seperti yang diperhatikan oleh Ingolifs dalam komentar, dan seperti yang dibahas dalam utas ini , MNIST mungkin bukan contoh terbaik, karena ini adalah dataset yang sangat sederhana. Untuk sebagian besar dataset gambar yang realistis, regresi logistik tidak akan bekerja dan melihat bobot tidak akan memberikan jawaban langsung. Jika Anda melihat lebih dekat pada bobot pada utas tertaut, maka interpretasinya juga tidak langsung, misalnya bobot untuk memprediksi "5" atau "9" tidak menunjukkan pola yang jelas (lihat gambar di bawah, disalin dari utas lainnya).
sumber
Pohon Keputusan akan menjadi pilihan lain. Atau Lasso Regression untuk membuat sistem yang jarang.
Lihat gambar ini dari buku Pengantar Pembelajaran Statistik . http://www.sr-sv.com/wp-content/uploads/2015/09/STAT01.png
sumber
Tidak, itu tidak perlu dibatasi. Ada sejumlah besar model yang dapat ditafsirkan termasuk tidak hanya (seperti kata Frans Rodenburg) model linier, model linier umum dan model aditif umum, tetapi juga metode pembelajaran mesin yang digunakan untuk regresi. Saya menyertakan hutan acak, mesin yang didorong gradien, jaringan saraf, dan banyak lagi. Hanya karena Anda tidak mendapatkan koefisien dari model pembelajaran mesin yang mirip dengan yang dari regresi linier tidak berarti bahwa cara kerjanya tidak dapat dipahami. Hanya butuh sedikit lebih banyak pekerjaan.
Untuk memahami alasannya, saya akan merekomendasikan membaca pertanyaan ini: Memperoleh pengetahuan dari hutan acak . Apa yang ditunjukkannya adalah bagaimana Anda dapat membuat hampir semua model pembelajaran mesin dapat ditafsirkan.
sumber
Saya akan setuju dengan jawaban Tim dan mkt - model ML belum tentu tidak dapat diartikan. Saya akan mengarahkan Anda ke Paket Pembelajaran mAchine Deskriptif, DALEX R, yang dikhususkan untuk membuat model ML dapat ditafsirkan.
sumber