Baru-baru ini di kelas Pembelajaran Mesin dari profesor Oriol Pujol di UPC / Barcelona ia menggambarkan algoritma, prinsip dan konsep yang paling umum digunakan untuk berbagai tugas terkait pembelajaran mesin. Di sini saya membaginya dengan Anda dan bertanya:
- apakah ada kerangka kerja komprehensif yang mencocokkan tugas dengan pendekatan atau metode yang terkait dengan berbagai jenis masalah terkait pembelajaran mesin?
Bagaimana saya belajar Gaussian sederhana? Probabilitas, variabel acak, distribusi; estimasi, konvergensi dan asimptotik, interval kepercayaan.
Bagaimana cara mempelajari campuran Gaussians (MoG)? Kemungkinan, Ekspektasi-Maksimalisasi (EM); generalisasi, pemilihan model, validasi silang; k-means, model markov tersembunyi (HMM)
Bagaimana saya mempelajari kepadatan? Estimasi parametrik vs non-parametrik, Sobolev, dan ruang fungsional lainnya; l ́ 2 kesalahan; Estimasi kepadatan kernel (KDE), kernel optimal, teori KDE
Bagaimana cara memprediksi variabel kontinu (regresi)? Regresi linier, regularisasi, regresi ridge, dan LASSO; regresi linier lokal; estimasi kepadatan bersyarat.
Bagaimana cara memprediksi variabel diskrit (klasifikasi)? Pengelompokan Bayes, Bayes naif, generatif vs diskriminatif; perceptron, pembusukan berat, mesin vektor dukungan linier; teori dan klasifikasi tetangga terdekat
Fungsi kerugian mana yang harus saya gunakan? Teori estimasi kemungkinan maksimum; l -2 estimasi; Estimasi Bayessian; minimax dan teori keputusan, Bayesianisme vs frequentism
Model mana yang harus saya gunakan? AIC dan BIC; Teori Vapnik-Chervonenskis; teori cross-validasi; bootstrap; Teori Kemungkinan Sekitar (PAC); Batas yang diturunkan dari Hoeffding
Bagaimana saya bisa belajar model yang lebih mewah (gabungan)? Teori belajar ensemble; meningkatkan; mengantongi; menumpuk
Bagaimana saya bisa belajar model yang lebih mewah (nonlinier)? Model linier umum, regresi logistik; Teorema Kolmogorov, model aditif umum; kernelisasi, mereproduksi ruang kernel Hilbert, SVM non-linear, regresi proses Gaussian
Bagaimana saya bisa belajar model yang lebih bagus (komposisi)? Model rekursif, pohon keputusan, pengelompokan hierarkis; jaringan saraf, propagasi balik, jaringan kepercayaan mendalam; model grafis, campuran HMM, bidang acak bersyarat, jaringan Markov max-margin; model log-linear; tata bahasa
Bagaimana cara saya mengurangi atau menghubungkan fitur? Pemilihan fitur vs pengurangan dimensi, metode pembungkus untuk pemilihan fitur; kausalitas vs korelasi, korelasi parsial, pembelajaran struktur Bayes net
Bagaimana cara membuat fitur baru? analisis komponen utama (PCA), analisis komponen independen (ICA), penskalaan multidimensi, pembelajaran berjenis, pengurangan dimensi yang diawasi, pembelajaran metrik
Bagaimana cara mengurangi atau menghubungkan data? Clustering, bi-clustering, dibatasi clustering; aturan asosiasi dan analisis keranjang pasar; peringkat / regresi ordinal; analisis tautan; data relasional
Bagaimana saya memperlakukan rangkaian waktu? ARMA; Filter Kalman dan model stat-space, filter partikel; analisis data fungsional; deteksi titik-perubahan; validasi silang untuk deret waktu
Bagaimana cara saya memperlakukan data yang tidak ideal? pergeseran kovariat; ketidakseimbangan kelas; data yang hilang, data sampel yang tidak teratur, kesalahan pengukuran; deteksi anomali, ketahanan
Bagaimana cara mengoptimalkan parameter? Unconstrained vs constrained / Convex optimization, metode bebas derivatif, metode urutan pertama dan kedua, backfitting; gradien alami; optimasi terikat dan EM
Bagaimana cara mengoptimalkan fungsi linear? aljabar linier komputasi, inversi matriks untuk regresi, dekomposisi nilai singular (SVD) untuk reduksi dimensi
Bagaimana cara saya mengoptimalkan dengan kendala? Convexity, pengganda Lagrange, kondisi Karush-Kuhn-Tucker, metode titik interior, algoritma SMO untuk SVM
Bagaimana saya mengevaluasi jumlah yang bersarang mendalam? Inferensi model grafis yang tepat, batas variasi pada jumlah, perkiraan inferensi model grafis, propagasi harapan
Bagaimana cara saya mengevaluasi jumlah besar dan pencarian? Masalah umum N-body (GNP), struktur data hierarkis, pencarian tetangga terdekat, banyak metode cepat; Integrasi Monte Carlo, Rantai Markov Monte Carlo, Monte Carlo SVD
Bagaimana cara saya menangani masalah yang lebih besar? EM paralel / terdistribusi, GNP paralel / terdistribusi; metode subgradien stokastik, pembelajaran online
Bagaimana saya menerapkan semua ini di dunia nyata? Tinjauan bagian-bagian ML, memilih antara metode yang akan digunakan untuk setiap tugas, pengetahuan sebelumnya dan asumsi; analisis data eksplorasi dan visualisasi informasi; evaluasi dan interpretasi, menggunakan interval kepercayaan dan uji hipotesis, kurva ROC; di mana masalah penelitian di ML adalah
sumber
Jawaban:
Saya setuju dengan @geogaffer. Ini daftar yang sangat bagus. Namun, saya melihat beberapa masalah dengan daftar ini karena saat ini dirumuskan. Sebagai contoh, satu masalah adalah bahwa solusi yang disarankan adalah tingkat granularitas yang berbeda - beberapa dari mereka mewakili pendekatan , beberapa - metode , beberapa - algoritma , dan beberapa konsep lainnya - adil (dengan kata lain, istilah dalam terminologi domain topik). Selain itu, - dan saya percaya bahwa ini jauh lebih penting daripada yang di atas - saya pikir itu akan jauh lebih berharga, jika semua solusi dalam daftar diatur dalam kerangka kerja statistik tematik terpadu. Gagasan ini diinspirasi oleh membaca buku yang sangat bagus oleh Lisa Harlow "Inti dari pemikiran multivarian". Oleh karena itu, baru-baru ini saya telah memulai diskusi yang sesuai, meskipun saat ini agak terbatas, pada situs StackExchange's Cross Validated . Jangan biarkan judul membingungkan Anda - maksud dan harapan saya yang tersirat adalah untuk membangun kerangka kerja terpadu , seperti yang disebutkan di atas.
sumber
Itu daftar yang bagus yang mencakup banyak hal. Saya telah menggunakan beberapa metode ini sejak sebelum apa pun disebut pembelajaran mesin, dan saya pikir Anda akan melihat beberapa metode yang Anda masukkan masuk dan keluar dari penggunaan dari waktu ke waktu. Jika metode terlalu lama tidak disukai, mungkin sudah saatnya untuk mengunjungi kembali. Beberapa metode dapat mengaburkan di balik nama berbeda yang dihasilkan dari berbagai bidang studi.
Salah satu area utama yang saya gunakan metode ini adalah dalam pemodelan potensi mineral, yang geospasial dan untuk mendukung bahwa Anda dapat menambahkan beberapa kategori tambahan yang berkaitan dengan metode data spasial dan berorientasi.
Membawa pertanyaan luas Anda ke bidang tertentu mungkin akan menjadi tempat Anda menemukan lebih banyak contoh metode yang tidak ada dalam daftar komprehensif Anda. Sebagai contoh, dua metode yang saya lihat dalam potensi mineral adalah regresi stepwise mundur dan bobot pemodelan bukti. Saya bukan ahli statistik; mungkin ini akan dianggap tercakup dalam daftar di bawah regresi linier dan metode Bayesian.
sumber
Saya pikir pendekatan Anda agak mundur.
"Apa arti dari distribusi Gaussian yang sesuai dengan data ini?" tidak pernah merupakan pernyataan masalah, jadi "bagaimana saya bisa cocok dengan seorang Gaussian?" tidak pernah masalah yang Anda benar-benar ingin pecahkan.
Perbedaannya lebih dari semantik. Pertimbangkan pertanyaan "bagaimana cara membuat fitur baru?" Jika tujuan Anda adalah untuk mengembangkan indeks, Anda mungkin menggunakan beberapa jenis analisis faktor. Jika tujuan Anda adalah hanya mengurangi ruang fitur sebelum memasang model linier, Anda dapat melewati langkah ini dan menggunakan regresi jaring elastis.
Pendekatan yang lebih baik adalah menyusun daftar tugas analisis data aktual yang ingin Anda atasi . Pertanyaan seperti:
Juga daftar Anda sekarang termasuk sejumlah besar bahan; terlalu banyak untuk "ditinjau" dan mendapatkan lebih dari sekadar pemahaman tingkat permukaan. Memiliki tujuan aktual dalam pikiran dapat membantu Anda memilah prioritas Anda.
sumber