Seringkali saya pernah mendengar data penambang di sini menggunakan istilah ini. Sebagai ahli statistik yang telah mengerjakan masalah klasifikasi, saya akrab dengan istilah "latihlah pengklasifikasi" dan saya menganggap "mempelajari model" berarti hal yang sama. Saya tidak keberatan dengan istilah "train a classifier". Itu tampaknya menggambarkan ide pemasangan model karena data pelatihan digunakan untuk mendapatkan estimasi parameter model yang baik atau "ditingkatkan". Tetapi belajar berarti mendapatkan pengetahuan. Dalam bahasa Inggris yang sederhana "belajar model" berarti mengetahui apa itu. Namun sebenarnya kita tidak pernah "tahu" modelnya. Model mendekati kenyataan tetapi tidak ada model yang benar. Seperti kata Box, "Tidak ada model yang benar tetapi ada yang berguna."
Saya akan tertarik mendengar tanggapan penambang data. Bagaimana istilah ini berasal? Jika Anda menggunakannya, mengapa Anda menyukainya?
sumber
Jawaban:
Saya menduga asal-usulnya ada dalam komunitas penelitian jaringan saraf tiruan, di mana jaringan saraf dapat dianggap sebagai pembelajaran model data melalui modifikasi bobot sinaptik dengan cara yang mirip dengan yang terjadi di otak manusia seperti yang kita sendiri pelajari dari pengalaman. Karier penelitian saya dimulai di jaringan saraf tiruan jadi saya kadang-kadang menggunakan frasa.
Mungkin lebih masuk akal jika Anda menganggap model sebagai dikodekan dalam parameter model, daripada persamaan, dengan cara yang sama bahwa model mental bukanlah komponen fisik otak yang dapat diidentifikasi sebanyak seperangkat parameter pengaturan untuk beberapa neuron kita.
Perhatikan bahwa tidak ada implikasi bahwa model mental juga benar!
sumber
Istilah ini cukup tua dalam kecerdasan buatan. Turing mengabdikan sebagian panjangnya pada "Mesin Pembelajaran" dalam makalahnya Computing Machinery and Intelligence in Mind , 1950 , dan membuat sketsa pembelajaran yang diawasi secara kualitatif. Makalah asli Rosenblatt: The Perceptron: Model Probabilistik untuk Penyimpanan Informasi dan Organisasi dalam makalah Otak dari tahun 1958 berbicara secara luas tentang "Model Pembelajaran Matematika". Di sini perceptron adalah "model pembelajaran"; model tidak "dipelajari".
Makalah Pitts dan McCullough 1943 - kertas "jaringan saraf" yang asli - tidak terlalu peduli dengan pembelajaran, lebih bagaimana seseorang dapat membangun kalkulus logis (seperti sistem Hilbert atau Gentzen, tapi saya pikir mereka merujuk pada Russell / Whitehead) yang bisa melakukan inferensi. Saya pikir itu adalah kertas "Perceptrons" yang memperkenalkan numerik, yang bertentangan dengan gagasan simbolis belajar dalam tradisi ini.
Apakah mungkin bagi mesin untuk belajar bermain catur hanya dari contoh? Iya. Apakah ada model untuk bermain catur? Iya. Apakah ini model yang optimal (dengan asumsi ada satu)? Hampir pasti tidak. Dalam bahasa Inggris yang sederhana saya sudah "belajar catur" jika saya bisa bermain catur ok - atau mungkin cukup baik. Itu tidak berarti saya pemain catur yang optimal. Ini adalah arti di mana Turing menggambarkan "belajar" ketika dia membahas belajar catur di makalahnya.
Saya sangat tidak konsisten dengan istilah apa yang saya gunakan. Jadi (misalnya) untuk belajar-dalam-batas saya akan mengatakan "mengidentifikasi", untuk belajar SVM saya akan mengatakan "melatih", tetapi untuk MCMC- "belajar" saya akan mengatakan "mengoptimalkan". Dan misalnya saya sebut regresi "regresi".
sumber
Sebagai seorang peneliti di Bioplausible Machine Learning, saya sangat setuju bahwa "tidak ada model yang benar tetapi ada yang berguna", dan pada kenyataannya model dan formalisme memiliki kegagalan yang kuat seperti yang digunakan oleh penulis yang berbicara tentang optimalisasi masalah, ketika apa yang mereka lakukan mengoptimalkan model, yaitu menjelajahi ruang parameternya dan menemukan lokal atau semoga global optimal. Hal ini tidak secara umum optimal untuk nyata masalah. Sementara penggagas model biasanya menggunakan terminologi yang benar, dan memaparkan semua asumsi, sebagian besar pengguna mengabaikan asumsi, yang paling sering diketahui tidak berlaku, dan juga menggunakan bahasa yang kurang tepat tentang "belajar" dan "optimasi" dan " parameterisasi ".
Saya pikir parameterisasi optimal dari model ini adalah apa yang orang maksudkan dalam Pembelajaran Mesin, khususnya dalam Pembelajaran Mesin yang diawasi, meskipun saya tidak bisa mengatakan saya sering mendengar "belajar model" - tetapi itu memang terjadi, dan ketika orang tersebut melatih model, komputer mempelajari parameter model. Bahkan dalam pembelajaran tanpa pengawasan, "pembelajaran" paling sering hanyalah parameterisasi model, dan mudah-mudahan "belajar model" dengan demikian parameterisasi optimal dari suatu model (walaupun sering kali berbagai cara mencari ruang parameter menemukan solusi yang berbeda meskipun mereka dapat dibuktikan. untuk mengoptimalkan hal yang sama). Saya memang lebih suka menggunakan "pelatihan model"
Pada kenyataannya, sebagian besar penelitian saya adalah tentang mempelajari model dalam hal menemukan model yang lebih baik, atau model yang lebih masuk akal secara komputasional / kognitif / biologis / ekologis.
sumber