Apa perbedaan antara belajar dan mengambil kesimpulan?

20

Makalah penelitian pembelajaran mesin sering memperlakukan pembelajaran dan inferensi sebagai dua tugas yang terpisah, tetapi tidak cukup jelas bagi saya apa perbedaannya. Dalam buku ini misalnya mereka menggunakan statistik Bayesian untuk kedua jenis tugas, tetapi tidak memberikan motivasi untuk perbedaan itu. Saya punya beberapa ide yang tidak jelas tentang apa itu, tetapi saya ingin melihat definisi yang solid dan mungkin juga bantahan atau perluasan dari ide-ide saya:

  • Perbedaan antara menyimpulkan nilai variabel laten untuk titik data tertentu, dan mempelajari model yang cocok untuk data.
  • Perbedaan antara mengekstraksi varians (inferensi) dan mempelajari invariances sehingga dapat mengekstraksi varians (dengan mempelajari dinamika ruang input / proses / dunia).
  • Analogi neuroscientific mungkin adalah potensiasi / depresi jangka pendek (jejak memori) vs potensiasi / depresi jangka panjang.
Lenar Hoyt
sumber
4
Tidak yakin apakah ini membantu, tetapi dalam statistik satu perbedaan adalah antara apakah Anda ingin berpikir tentang belajar sebagai inferensi (kebanyakan Bayes) atau sebagai estimasi (kebanyakan Frequentist). Untuk yang pertama, belajar tentang segala sesuatu - variabel laten, parameter, prediksi, model - adalah inferensi (yang mengembalikan distribusi). Untuk yang terakhir beberapa masalah pembelajaran mungkin inferensi dan yang lainnya masalah estimasi (yang mengembalikan perkiraan dan sampling-range ketidakpastian teoritis termotivasi untuk itu).
conjugateprior
5
"Belajar" hanyalah metafora menggugah untuk proses pelatihan algoritma pembelajaran mesin. Saya tidak berpikir ada banyak wawasan yang bisa diperoleh di sini.
Sycorax berkata Reinstate Monica
1
Duplikat yang mungkin dari The Two Cultures: statistik vs pembelajaran mesin?
Mengedipkan mata
1
@Winks Apakah Anda membaca pertanyaan terkait sama sekali ? Tidak ada jawaban yang membuat perbedaan yang saya minta secara eksplisit.
Lenar Hoyt
1
@conjugateprior Dalam pembelajaran mesin, tidak ada yang akan mengatakan bahwa "belajar tentang segalanya - variabel laten, parameter, prediksi, model - adalah kesimpulan". Pembelajaran dan penarikan kesimpulan dianggap benar-benar terpisah walaupun keduanya dapat menghasilkan distribusi.
Neil G

Jawaban:

11

Saya setuju dengan jawaban Neil G, tetapi mungkin ungkapan alternatif ini juga membantu:

Pertimbangkan pengaturan model campuran Gaussian sederhana. Di sini kita dapat menganggap parameter model sebagai set komponen Gaussian dari model campuran (masing-masing mean dan variansnya, dan bobot masing-masing dalam campuran).

Diberikan seperangkat parameter model, kesimpulan adalah masalah mengidentifikasi komponen mana yang mungkin telah menghasilkan satu contoh, biasanya dalam bentuk "tanggung jawab" untuk setiap komponen. Di sini, variabel laten hanyalah pengidentifikasi tunggal untuk komponen mana yang menghasilkan vektor yang diberikan, dan kami menyimpulkan komponen mana yang mungkin. (Dalam hal ini, kesimpulan adalah sederhana, meskipun dalam model yang lebih kompleks itu menjadi sangat rumit.)

Belajar adalah proses, diberikan satu set sampel dari model, mengidentifikasi parameter model (atau distribusi lebih dari parameter model) yang paling sesuai dengan data yang diberikan: memilih cara, varian, dan bobot Gaussi '.

Algoritma pembelajaran Expectation-Maximization dapat dianggap sebagai melakukan inferensi untuk set pelatihan, kemudian mempelajari parameter terbaik mengingat inferensi itu, kemudian mengulanginya. Inferensi sering digunakan dalam proses pembelajaran dengan cara ini, tetapi juga merupakan kepentingan independen, misalnya untuk memilih komponen mana yang menghasilkan titik data tertentu dalam model campuran Gaussian, untuk memutuskan keadaan tersembunyi yang paling mungkin dalam model Markov tersembunyi, untuk menghubungkan nilai yang hilang dalam model grafis yang lebih umum, ....

Dougal
sumber
1
Dan peringatan kecil bahwa seseorang dapat memilih untuk memecah hal-hal menjadi pembelajaran dan inferensi dengan cara ini, tetapi seseorang juga dapat memilih melakukan semuanya sebagai inferensi: stats.stackexchange.com/questions/180582/…
conjugateprior
Mengapa banyak baris? Saya ingin melihat jawaban sederhana yang membedakan mereka dalam satu-dua kalimat. Juga, tidak semua orang terbiasa dengan GMM atau EM.
nbro
9

Inferensi adalah memilih konfigurasi berdasarkan input tunggal. Belajar adalah memilih parameter berdasarkan beberapa contoh pelatihan.

Dalam kerangka model berbasis energi (cara memandang hampir semua arsitektur pembelajaran mesin), inferensi memilih konfigurasi untuk meminimalkan fungsi energi sambil menahan parameter tetap; learning memilih parameter untuk meminimalkan fungsi kerugian .

Seperti yang ditunjukkan oleh conjugateprior, orang lain menggunakan terminologi berbeda untuk hal yang sama. Misalnya Bishop, menggunakan "inferensi" dan "keputusan" untuk masing-masing berarti pembelajaran dan inferensi. Kesimpulan kausal berarti belajar. Tapi apa pun istilah yang Anda putuskan, kedua konsep ini berbeda.

Analogi neurologis adalah pola menembakkan neuron adalah konfigurasi; satu set kekuatan tautan adalah parameternya.

Neil G
sumber
@ MCB Saya masih tidak tahu apa yang Anda maksud dengan "varian". "Invariances" bahkan bukan kata dalam kamus. Ya, ada banyak algoritma pembelajaran yang bergantung pada konfigurasi yang disimpulkan seperti EM yang dijelaskan dalam jawaban Dougal.
Neil G
@ mcb Saya juga tidak mengerti pertanyaan Anda; mungkin akan membantu untuk menentukan model contoh dan spesifik tentang apa distribusi / varians / invarian (?) yang Anda bicarakan.
Dougal
Terima kasih atas jawaban Anda. Mungkin saya salah paham tentang sesuatu.
Lenar Hoyt
@NeGG Saya percaya terminologi ini sebagian besar digunakan dalam pekerjaan visi ML di mana keputusan klasifikasi harus 'invarian' untuk terjemahan objek, rotasi, rescaling dll. Tidak dapat menemukan referensi pendek yang baik, tetapi ada ini: en.wikipedia.org/wiki / Prior_knowledge_for_pattern_recognition
conjugateprior
@conjugateprior Saya punya perasaan bahwa itulah yang dia maksudkan, tetapi saya ingin melihat apakah dia akan menjelaskan pertanyaannya.
Neil G
4

Ini terlihat seperti kebingungan istilah lintas-disiplin klasik. OP tampaknya menggunakan terminologi seperti ilmu saraf di mana kedua istilah yang dimaksud mungkin memiliki konotasi yang berbeda. Tetapi karena Cross Validated umumnya berkaitan dengan statistik dan pembelajaran maching, saya akan mencoba menjawab pertanyaan berdasarkan penggunaan umum dari istilah-istilah ini di bidang-bidang tersebut.

Dalam statistik klasik, inferensi hanyalah tindakan mengambil apa yang Anda ketahui tentang sampel dan membuat pernyataan matematis tentang populasi dari mana sampel itu (semoga) representatif. Dari buku teks kanonik Casella & Berger (2002): "Subjek teori probabilitas adalah dasar di mana semua statistik dibangun ... melalui model-model ini, ahli statistik dapat menarik kesimpulan tentang populasi, kesimpulan berdasarkan pemeriksaan hanya bagian dari keseluruhan ". Jadi dalam statistik, kesimpulan secara khusus terkait dengan nilai-p, statistik uji, dan distribusi sampel, dll.

Sedangkan untuk belajar, saya pikir tabel ini dari Wasserman's All of Statistics (2003) mungkin membantu:

masukkan deskripsi gambar di sini

Zoë Clark
sumber
Ini tidak setuju dengan banyak buku pelajaran lainnya termasuk buku Uskup yang disebutkan dalam komentar. Klasifikasi adalah sejenis pembelajaran yang diawasi ketika variabel targetnya adalah kategori. Kata "estimasi" saja tidak jelas: biasanya kita berarti "estimasi kepadatan" atau "estimasi parameter" atau "estimasi sekuensial" atau "estimasi kemungkinan maksimum".
Neil G
1
Juga, Bayes net bukan hanya grafik asiklik langsung! Ini adalah semacam barang yang simpulnya mewakili proposisi dan ujung-ujungnya mewakili dependensi probabilistik. Ini menentukan hubungan independensi bersyarat.
Neil G
1
@ NeilG Cukup begitu. Terjemahan statistik terdekat mungkin adalah "model persamaan struktural"
conjugateprior
2
Dan dalam jumlah statistik yang mencemaskan, harus ada dua baris tentang data: CS: data pelatihan, Statistik: data. CS: data uji, Statistik: wut?
conjugateprior
Stat 101: wut = sampel lain (semoga acak) dari populasi Anda ...
Zoë Clark
-1

Sungguh aneh tidak ada orang lain yang menyebutkan hal ini, tetapi Anda dapat memiliki inferensi hanya dalam kasus di mana Anda memiliki distribusi probabilitas. Di sini mengutip Wiki, yang mengutip kamus Oxford:

Statistik inferensi adalah proses menggunakan analisis data untuk menyimpulkan sifat-sifat dari distribusi probabilitas yang mendasarinya (Kamus Oxford)

https://en.wikipedia.org/wiki/Statribution_inference

Dalam kasus jaringan saraf tradisional, k-NN atau vanilla SVM Anda tidak memiliki kerapatan probabilitas untuk memperkirakan, atau asumsi tentang kerapatan apa pun, dengan demikian, tidak ada inferensi statistik di sana. Hanya pelatihan / pembelajaran. Namun, untuk sebagian besar (semua?) Prosedur statistik, Anda dapat menggunakan inferensi maupun pembelajaran, karena prosedur ini memiliki beberapa asumsi tentang distribusi populasi yang dipertanyakan.

SWIM S.
sumber
Ini salah. Bagaimanapun, Anda dapat mengartikan jaringan saraf sebagai menghasilkan distribusi jika Anda mau. Lihat, misalnya Amari 1998.
Neil G
Itu tidak salah, atau sebutkan. Anda BISA menafsirkan, tetapi awalnya tidak ada interpretasi seperti itu.
SWIM S.
Itu salah karena orang menggunakan istilah inferensi dengan model seperti autoencider.
Neil G
Jadi, apakah itu salah karena beberapa kelompok orang menggunakan istilah ini secara tidak benar? Atau karena mereka memiliki beberapa interpretasi probabilistik untuk NN mereka (saya tidak terlalu akrab dengan autoencoder)? Saya secara logis membenarkan mengapa satu istilah berbeda dari yang lain. Jadi, mengingat definisi di atas, saya melihat bahwa mereka yang menggunakan istilah inferensi dengan NNs, k-NNs, atau SVMs (kecuali dengan interpretasi probabilistik) cukup banyak menyalahgunakan notasi.
SWIM S.