Jika saya mengerti dengan benar, dalam algoritma pembelajaran mesin, model harus belajar dari pengalamannya, yaitu ketika model memberikan prediksi yang salah untuk kasus-kasus baru, ia harus beradaptasi dengan pengamatan baru, dan seiring waktu, model menjadi semakin lebih baik. . Saya tidak melihat bahwa regresi logistik memiliki karakteristik ini. Jadi mengapa masih dianggap sebagai algoritma pembelajaran mesin? Apa perbedaan antara regresi logistik dengan regresi normal dalam hal "belajar"?
Saya memiliki pertanyaan yang sama untuk hutan acak!
Dan apa definisi "pembelajaran mesin"?
machine-learning
logistic
random-forest
Metariat
sumber
sumber
Jawaban:
Pembelajaran Mesin bukanlah istilah yang didefinisikan dengan baik.
Bahkan, jika Anda Google "Definisi Pembelajaran Mesin" dua hal pertama yang Anda dapatkan sangat berbeda.
Dari WhatIs.com ,
Dari Wikipedia ,
Regresi logistik tidak diragukan lagi cocok dengan definisi Wikipedia dan Anda dapat berdebat apakah cocok dengan definisi WhatIs atau tidak.
Saya pribadi mendefinisikan Pembelajaran Mesin seperti halnya Wikipedia dan menganggapnya sebagai bagian dari statistik.
sumber
Machine Learning itu panas dan merupakan tempat uang itu berada. Orang menyebut hal-hal yang mereka coba jual apa pun yang sedang panas saat ini dan karena itu "jual". Itu bisa menjual perangkat lunak. Itu bisa menjual diri mereka sendiri sebagai karyawan saat ini yang berusaha untuk dipromosikan, sebagai calon karyawan, sebagai konsultan, dll. Itu bisa menjadi manajer yang berusaha mendapatkan anggaran yang disetujui dari perusahaan besar untuk mempekerjakan orang dan membeli barang, atau untuk meyakinkan investor untuk berinvestasi di Startup barunya yang panas yang melakukan Machine Learning sebagai kunci untuk membuat aplikasi sexting yang lebih baik. Jadi perangkat lunak melakukan Machine Learning dan manusia adalah ahli Machine Learning, karena itulah yang panas dan oleh karena itu apa yang dijual ... setidaknya untuk saat ini.
Saya melakukan semua jenis pemasangan model statistik linier dan nonlinier lebih dari 30 tahun yang lalu. Itu tidak disebut Machine Learning saat itu. Sekarang, sebagian besar akan terjadi.
Sama seperti semua orang dan paman mereka sekarang menjadi "Ilmuwan" Data. Itu panas, itu seharusnya seksi, jadi itulah yang orang sebut diri mereka. Dan itulah yang mempekerjakan manajer yang harus mendapatkan anggaran yang disetujui untuk menyewa posisi daftar seseorang. Jadi seseorang yang tidak tahu hal pertama tentang matematika, probabilitas, statistik, optimasi, atau perhitungan numerik / floating point, menggunakan paket R atau Python tentang kebenaran yang meragukan dan kekokohan implementasi, dan yang diberi label sebagai algoritma Machine Learning, untuk menerapkan data yang tidak mereka pahami, dan menyebut diri mereka Ilmuwan Data berdasarkan pengalaman mereka dalam melakukannya.
Ini mungkin terdengar kurang ajar, tetapi saya percaya itu adalah esensi dari situasi.
Sunting: Berikut ini tweeted pada 26 September 2019:
https://twitter.com/daniela_witten/status/1177294449702928384
sumber
Seperti yang telah disebutkan orang lain, tidak ada pemisahan yang jelas antara statistik, pembelajaran mesin, kecerdasan buatan dan sebagainya, jadi ambillah definisi apa pun dengan sebutir garam. Regresi logistik mungkin lebih sering dilabeli sebagai statistik daripada pembelajaran mesin, sementara jaringan saraf biasanya diberi label sebagai pembelajaran mesin (meskipun jaringan saraf sering hanya kumpulan model regresi logistik).
Menurut pendapat saya, pembelajaran mesin metode yang entah bagaimana dapat belajar dari data, biasanya dengan membangun model dalam beberapa bentuk atau bentuk. Regresi logistik, seperti SVM, jaringan saraf, hutan acak dan banyak teknik lainnya, memang belajar dari data ketika membangun model.
Itu tidak benar-benar bagaimana pembelajaran mesin biasanya didefinisikan. Tidak semua metode pembelajaran mesin menghasilkan model yang secara dinamis beradaptasi dengan data baru (subbidang ini disebut pembelajaran online ).
Banyak metode regresi juga diklasifikasikan sebagai pembelajaran mesin (misalnya SVM).
sumber
Regresi logistik ditemukan oleh ahli statistik DR Cox pada tahun 1958 dan mendahului bidang pembelajaran mesin. Regresi logistik bukan metode klasifikasi, syukurlah. Ini adalah model probabilitas langsung.
Jika Anda berpikir bahwa suatu algoritma harus memiliki dua fase (tebakan awal, maka "perbaiki" prediksi "kesalahan") pertimbangkan ini: Regresi logistik membuatnya benar saat pertama kali. Artinya, dalam ruang model aditif (dalam logit). Regresi logistik adalah pesaing langsung dari banyak metode pembelajaran mesin dan mengungguli banyak dari mereka ketika prediktor terutama bertindak aditif (atau ketika pengetahuan materi pelajaran dengan benar menentukan interaksi sebelumnya). Beberapa menyebut regresi logistik suatu jenis pembelajaran mesin tetapi kebanyakan tidak. Anda dapat memanggil beberapa metode pembelajaran mesin (jaringan saraf contoh) model statistik.
sumber
Saya harus tidak setuju dengan sebagian besar jawaban di sini dan mengklaim bahwa Pembelajaran Mesinmemiliki cakupan yang sangat tepat dan perbedaan yang jelas dari Statistik. ML adalah sub-bidang ilmu komputer dengan sejarah panjang, yang hanya dalam beberapa tahun terakhir telah menemukan aplikasi di luar domainnya. Bidang paternal dan domain aplikasi ML terletak di dalam Artificial Intelligence (robotika, perangkat lunak pengenalan pola, dll), oleh karena itu, itu bukan hanya "istilah panas" seperti "Big Data" atau "Ilmu Data". Statistik, di sisi lain, (yang berasal dari kata "negara") dikembangkan dalam ilmu sosial dan ekonomi sebagai alat bagi manusia, bukan mesin. ML berevolusi secara terpisah dari statistik dan, meskipun di suatu tempat di mana ia mulai sangat bergantung pada prinsip-prinsip statistik, itu tidak berarti subbidang statistik. ML dan statistik adalah bidang yang saling melengkapi, tidak tumpang tindih.
Jawaban panjang :
Seperti yang tersirat dari namanya, metode ML dibuat untuk perangkat lunak / mesin sedangkan metode statistik dibuat untuk manusia. Baik ML dan statistik berurusan dengan prediksi pada data, namun, metode ML mengikuti pendekatan yang diotomatiskan secara non-parametrik sedangkan metode statistik memerlukan banyak pekerjaan pembuatan model manual dengan faktor penjelas tambahan. Ini masuk akal jika Anda menganggap bahwa algoritma ML dikembangkan dalam penelitian AI sebagai sarana pembuatan prediksi otomatis yang dimaksudkan untuk diintegrasikan dalam perangkat lunak robotika (misalnya untuk keperluan pengenalan suara dan wajah). Ketika "mesin" membuat prediksi, itu tidak peduli tentang alasan di baliknya. Mesin tidak peduli untuk mengetahui driver / prediktor di balik model yang mengklasifikasikan email sebagai spam atau non-spam, hanya peduli untuk memiliki akurasi prediksi terbaik.kotak hitam , itu bukan karena mereka tidak memiliki model, itu karena model dibangun secara algoritmik dan tidak dimaksudkan untuk terlihat oleh manusia maupun mesin.
Konsep "pelatihan" dalam ML bergantung pada kekuatan komputasi, sedangkan pembuatan model statistik dengan metode tipe OLS untuk estimasi parameter bergantung pada pengetahuan ahli manusia. Dalam skenario regresi berganda, terserah pada ahli statistik untuk menggunakan penilaian ahli untuk memilih modelnya dan memverifikasi semua asumsi statistik yang diperlukan. Tujuan seorang ahli statistik bukan hanya untuk menemukan pola dan menggunakannya untuk prediksi tetapi juga untuk memahami data dan masalahnya dalam kedalaman yang jauh lebih besar daripada ML.
Tentu saja dalam beberapa kesempatan ML dan statistik tumpang tindih, seperti halnya dengan banyak disiplin ilmu. Regresi logistik adalah salah satu dari kesempatan ini; awalnya metode statistik, yang memiliki banyak kemiripan dengan Perceptron sederhana (salah satu teknik ML paling mendasar), yang oleh beberapa orang dipandang sebagai metode ML.
sumber
Pembelajaran mesin cukup longgar didefinisikan dan Anda benar dalam berpikir bahwa model regresi - dan bukan hanya yang regresi logistik - juga "belajar" dari data. Saya tidak begitu yakin apakah ini berarti pembelajaran mesin benar-benar statistik atau statistik benar-benar pembelajaran mesin - atau jika ada yang penting sama sekali.
Yang mengatakan, beberapa algoritma belajar dari kesalahan prediksi - ini sangat umum dalam pembelajaran penguatan , di mana agen mengambil beberapa tindakan, mengamati hasilnya, dan kemudian menggunakan hasilnya untuk merencanakan tindakan di masa depan. Sebagai contoh, sebuah robot vakum mungkin dimulai dengan model dunia di mana ia membersihkan semua lokasi secara merata, dan kemudian belajar untuk menyedot debu tempat-tempat kotor (di mana ia "dihargai" dengan menemukan kotoran) lebih banyak dan membersihkan tempat-tempat lebih sedikit.
Algoritme online atau tambahan dapat diperbarui berulang kali dengan data pelatihan baru. Ini tidak selalu tergantung pada akurasi prediksi model, tetapi saya bisa membayangkan sebuah algoritma di mana bobot diperbarui lebih agresif jika, misalnya, data baru tampaknya sangat tidak mungkin diberikan model saat ini. Ada versi online untuk regresi logistik: misalnya, McMahan dan Streeeter (2012) .
sumber
Saya akhirnya menemukan jawabannya. Saya sekarang tahu perbedaan antara pemasangan model statistik dan pembelajaran mesin.
Jadi jika Anda belajar regresi logistik, itu adalah algoritma pembelajaran mesin.
Komentar: Maafkan saya karena sudah tua, tetapi setiap kali saya mendengar orang berbicara tentang belajar model, atau belajar regresi, itu membuat saya berpikir tentang Yitro, "Saya sudah belajar saya tentang pendidikan".
AKHIR BENANG
sumber
Regresi logistik (dan lebih umum, GLM) BUKAN milik Machine Learning! Sebaliknya, metode ini milik pemodelan parametrik .
Kedua model parametrik dan algoritmik (ML) menggunakan data, tetapi dengan cara yang berbeda . Model algoritma belajar dari data bagaimana prediktor memetakan ke prediksi dan, tetapi mereka tidak membuat asumsi tentang proses yang telah menghasilkan pengamatan (atau asumsi lain, sebenarnya). Mereka menganggap bahwa hubungan yang mendasari antara input dan output variabel kompleks dan tidak diketahui, dan dengan demikian, mengadopsi pendekatan yang didorong data untuk memahami apa yang terjadi, daripada memaksakan persamaan formal.
Di sisi lain, model parametrik ditentukan secara apriori berdasarkan pengetahuan proses yang dipelajari, menggunakan data untuk memperkirakan parameternya, dan membuat banyak asumsi tidak realistis yang jarang dipegang dalam praktik (seperti independensi, varian yang sama, dan Distribusi kesalahan yang normal).
Juga, model parametrik (seperti regresi logistik) adalah model global . Mereka tidak dapat menangkap pola lokal dalam data (tidak seperti metode ML yang menggunakan pohon sebagai model dasar mereka, misalnya RF atau Boosted Trees). Lihat makalah ini halaman 5. Sebagai strategi remediasi, GLM lokal (yaitu, nonparametrik) dapat digunakan (lihat misalnya paket locfit R).
Seringkali, ketika sedikit pengetahuan tentang fenomena yang mendasarinya tersedia, lebih baik untuk mengadopsi pendekatan berbasis data dan menggunakan pemodelan algoritmik. Misalnya, jika Anda menggunakan regresi logistik dalam kasus di mana interaksi antara variabel input dan output tidak linier, model Anda akan jelas tidak memadai dan banyak sinyal tidak akan ditangkap. Namun, ketika proses dipahami dengan baik, model parametrik memiliki keunggulan dalam memberikan persamaan formal untuk merangkum semuanya, yang kuat dari sudut pandang teoritis.
Untuk diskusi yang lebih terperinci, bacalah makalah yang sangat bagus ini oleh Leo Breiman.
sumber
Saya pikir jawaban lain melakukan pekerjaan yang baik dalam mengidentifikasi lebih atau kurang apa itu Pembelajaran Mesin (seperti yang ditunjukkan, itu bisa menjadi hal yang kabur). Saya akan menambahkan bahwa Regresi Logistik (dan versi multinomial yang lebih umum) sangat umum digunakan sebagai sarana untuk melakukan klasifikasi dalam jaringan saraf tiruan (yang saya pikir secara jelas tercakup oleh definisi pembelajaran mesin masuk akal apa pun yang Anda pilih), dan jadi jika Anda menyebutkan Regresi Logistik untuk orang yang bersih, mereka cenderung segera memikirkannya dalam konteks ini. Terikat dengan pemukul berat dalam pembelajaran mesin adalah cara yang baik untuk menjadi teknik pembelajaran mesin sendiri, dan saya pikir sampai batas tertentu itulah yang terjadi dengan berbagai teknik regresi, meskipun saya tidak akan mengabaikan mereka dari menjadi teknik pembelajaran mesin yang tepat. di dalam dan dari diri mereka sendiri.
sumber
Saya pikir setiap prosedur yang "berulang" dapat dianggap sebagai kasus pembelajaran mesin. Regresi dapat dianggap sebagai pembelajaran mesin. Kita bisa melakukannya dengan tangan, tetapi itu akan memakan waktu lama, jika memungkinkan. Jadi sekarang kita punya program ini, mesin, yang melakukan iterasi untuk kita. Semakin dekat dan lebih dekat ke solusi, atau ke solusi terbaik atau paling cocok. Jadi, "pembelajaran mesin". Tentu saja hal-hal seperti jaringan saraf mendapatkan sebagian besar perhatian dalam hal pembelajaran mesin, jadi kami biasanya mengaitkan pembelajaran mesin dengan prosedur seksi ini. Juga, perbedaan antara pembelajaran mesin "diawasi" dan "tanpa pengawasan" relevan di sini
sumber
Ini adalah kesalahan yang sangat umum yang dilakukan kebanyakan orang dan saya dapat melihatnya di sini juga (dilakukan oleh hampir semua orang). Biarkan saya jelaskan secara rinci ... Regresi Logistik dan model Regresi linier, keduanya adalah model parametrik dan juga Teknik Pembelajaran Mesin. Itu hanya tergantung pada metode yang Anda gunakan untuk memperkirakan parameter model (theta's). Ada 2 cara untuk menemukan parameter model dalam Regresi Linier dan Reg Logistik.
Gradient Descent Technique : Di sini kita mulai dengan memberikan nilai acak ke parameter dan menemukan fungsi biaya (kesalahan). Dalam setiap iterasi kami memperbarui parameter kami dan meminimalkan fungsi biaya. Setelah sejumlah iterasi, fungsi biaya dikurangi menjadi nilai yang diinginkan dan nilai parameter yang sesuai adalah nilai akhir kami. Inilah yang seharusnya dilakukan teknik pembelajaran mesin. Jadi, jika Anda menggunakan teknik Gradient Descent, regresi logistik dapat disebut sebagai teknik pembelajaran mesin.
Dengan menggunakan Metode Least Square: Di sini kita memiliki rumus langsung untuk menemukan parameter kita (beberapa aljabar matriks diperlukan untuk memahami derivasi rumus ini) yang dikenal sebagai persamaan normal.
Di sini b yang mewakili parameter X adalah desain Matrix. Kedua Metode memiliki kelebihan dan keterbatasan masing-masing. Untuk mendapatkan detail lebih lanjut: ikuti kursus Pembelajaran Mesin coursera yang masih berjalan.
Semoga postingan ini bisa membantu .. :-)
sumber