Statistik untuk pembelajaran mesin, makalah untuk memulai?

10

Saya memiliki latar belakang dalam pemrograman komputer dan teori bilangan dasar, tetapi tidak ada pelatihan statistik nyata, dan baru-baru ini "menemukan" bahwa dunia yang menakjubkan dari berbagai teknik sebenarnya adalah dunia statistik. Tampaknya faktorisasi matriks, penyelesaian matriks, tensor dimensi tinggi, embedding, estimasi kepadatan, inferensi Bayesian, partisi Markov, perhitungan eigenvektor, PageRank semuanya adalah teknik statistik yang sangat tinggi, dan bahwa algoritma pembelajaran mesin yang menggunakan hal-hal seperti itu, menggunakan banyak statistik .

Tujuan saya adalah untuk dapat membaca makalah yang membahas hal-hal seperti itu, dan mengimplementasikan atau membuat algoritma, sambil memahami notasi, "bukti" dan argumen statistik yang digunakan. Saya kira hal tersulit adalah mengikuti semua bukti yang melibatkan matriks.

Makalah dasar apa yang bisa saya mulai? Atau buku teks yang bagus dengan latihan yang layak untuk dikerjakan?

Secara khusus, beberapa makalah yang ingin saya pahami sepenuhnya adalah:

  1. Penyelesaian Matriks yang Tepat melalui Optimasi Cembung, Candes, Recht, 2008
  2. Transformasi Cauchy Cepat dan Regresi Lini Kuat Kuat, Clarkson et al, 2013
  3. Proyeksi Acak untuk Mesin Vektor Pendukung, Paul et al, 2013
  4. Estimasi Probabilitas Dimensi Tinggi dengan Deep Density Model, Rippel, Adams, 2013
  5. Memperoleh Perkiraan Kesalahan-Minimisasi dan Batas Kesalahan Masuk-Bijaksana Universal untuk Penyelesaian Matriks Peringkat Rendah, Király, Theran, 2013
Cris Stringfellow
sumber
1
Apakah Anda sudah terbiasa dengan matriks, misalnya, melalui kursus aljabar linier terapan, atau apakah itu bagian dari apa yang ingin Anda pelajari? Saya akan mengatakan bahwa bagian pertama dari daftar yang Anda berikan adalah topik-topik yang penting dalam statistik daripada teknik statistik tinggi (yang menurut saya berlawanan arah). Ada beberapa pertanyaan di sini tentang buku-buku yang direkomendasikan untuk belajar pembelajaran mesin statistik. Saya sarankan Anda memberikan satu atau dua contoh makalah spesifik yang Anda temui yang ingin Anda pahami; yang akan membantu memfokuskan jawaban yang Anda terima dengan lebih baik.
kardinal
2
Ya, akrab dengan matriks, melalui aljabar linier, dan dengan konsep ruang vektor, basis, norma, tapi saya tidak sepenuhnya memahami hal-hal seperti faktorisasi LU, meskipun saya cukup jelas tentang ortogonisasi Gram-Schmidt dan algoritma QR yang tidak dioptimalkan, meskipun tidak sepenuhnya jelas mengapa mereka bekerja. Saya juga tidak mengerti bagaimana orang dapat memperoleh vektor eigen untuk matriks acak tanpa melakukan algoritma vektor eigen di atasnya.
Cris Stringfellow

Jawaban:

2

Saya akan merekomendasikan kursus Andrew Ngs Machine Learning di Coursera, yang mencakup semua dasar-dasar. Jika Anda mempelajari sesuatu yang berkaitan dengan model grafis probabilistik, Daphne Kollers tentu akan baik untuk melihatnya juga.

Ini adalah harta karun untuk sumber belajar mandiri juga http://ragle.sanukcode.net/articles/machine-learning-self-study-resources/ Ceramah Herb Grossman luar biasa.

Saya juga telah merekomendasikan buku ini https://www.openintro.org/stat/textbook.php karena saya selalu masih belajar sendiri dan statistik bukanlah latar belakang saya!

Dua sen saya adalah sisi matematika dari hal-hal dan kertas meskipun jangan terlalu terjebak pada matematika latar belakang. Pelajari dasar-dasar dan referensi makalah yang menjadi dasar pembuatan makalah yang Anda lihat dan lihat apakah lebih mudah (mungkin Anda harus kembali beberapa makalah untuk mendapatkan sesuatu yang dapat Anda pahami - itu yang saya lakukan sendiri) ada banyak berbagai elemen matematika dalam ML dan mudah untuk dihisap ke lubang kelinci (sekali lagi sesuatu yang telah saya lakukan sendiri lebih dari sekali!).

Semoga beruntung, ini bidang yang sangat menarik!

Jim
sumber