Mengapa regresi logistik disebut algoritma pembelajaran mesin?

19

Jika saya mengerti dengan benar, dalam algoritma pembelajaran mesin, model harus belajar dari pengalamannya, yaitu ketika model memberikan prediksi yang salah untuk kasus-kasus baru, ia harus beradaptasi dengan pengamatan baru, dan seiring waktu, model menjadi semakin lebih baik. . Saya tidak melihat bahwa regresi logistik memiliki karakteristik ini. Jadi mengapa masih dianggap sebagai algoritma pembelajaran mesin? Apa perbedaan antara regresi logistik dengan regresi normal dalam hal "belajar"?

Saya memiliki pertanyaan yang sama untuk hutan acak!

Dan apa definisi "pembelajaran mesin"?

machine-learning logistic random-forest Metariat
sumber

4

Saya telah mengedit pertanyaan Anda untuk kejelasan tata bahasa, tetapi saya tidak yakin apa yang Anda maksud secara keseluruhan ... Regresi Logistik berada di bawah ML karena itu adalah algoritma klasifikasi. Machine Learning tidak menyiratkan bahwa algoritma harus adaptif (walaupun ada algoritma yang belajar dari pengamatan baru). Beradaptasi lebih merupakan pilihan implementasi, biasanya dicapai dengan algoritma pembelajaran mesin generatif yang memodelkan probabilitas gabungan.

Zhubarb

12

"Pembelajaran mesin" adalah konsep yang agak longgar. Sungguh, semua prosedur statistik yang melibatkan pemasangan model dapat dianggap pembelajaran mesin. (Dengan asumsi pemasangan model dapat dilakukan oleh komputer, sampai batas tertentu!). Inilah sebabnya mengapa beberapa ahli statistik merasa frustrasi dengan "data besar", "pembelajaran mesin", dll. Masyarakat mengerubungi perairan tentang apa itu statistik (dan bukan!)

P.Windridge

1

Terkait: Apakah ada algoritma untuk menghitung "menjalankan" parameter regresi linier atau logistik? .

Scortchi

1

@ P.Windridge: jika "semua prosedur statistik yang melibatkan pemasangan model dapat dianggap sebagai pembelajaran mesin" jadi saya tidak melihat mengapa kita membedakan pembelajaran mesin dan statistik

Metariat

4

@XuanQuangDO Kita mungkin seharusnya tidak membedakan pembelajaran mesin dan statistik.

Sycorax berkata Reinstate Monica

21

Pembelajaran Mesin bukanlah istilah yang didefinisikan dengan baik.

Bahkan, jika Anda Google "Definisi Pembelajaran Mesin" dua hal pertama yang Anda dapatkan sangat berbeda.

Dari WhatIs.com ,

Pembelajaran mesin adalah jenis kecerdasan buatan (AI) yang memberi komputer kemampuan untuk belajar tanpa diprogram secara eksplisit. Pembelajaran mesin berfokus pada pengembangan program komputer yang dapat mengajar diri mereka sendiri untuk tumbuh dan berubah ketika terpapar dengan data baru.

Dari Wikipedia ,

Pembelajaran mesin mengeksplorasi konstruksi dan studi algoritma yang dapat belajar dari dan membuat prediksi pada data.

Regresi logistik tidak diragukan lagi cocok dengan definisi Wikipedia dan Anda dapat berdebat apakah cocok dengan definisi WhatIs atau tidak.

Saya pribadi mendefinisikan Pembelajaran Mesin seperti halnya Wikipedia dan menganggapnya sebagai bagian dari statistik.

TrynnaDoStat
sumber

1

Saya setuju dengan sebagian besar dari apa yang Anda katakan, kecuali bahwa itu adalah bagian dari statistik. Ini memiliki tumpang tindih yang besar, tetapi ada beberapa jenis pembelajaran, seperti pembelajaran penguatan, yang tidak dapat benar-benar dianggap sebagai bagian dari statistik.

George

2

Ini bukan sumber yang bagus.

Neil G

@George Right, tapi mari kita hadapi itu, jika Anda harus menerapkan label semua pengumpulan data, analisis, dan metodologi pemodelan, apakah itu pembelajaran mesin, diawasi atau tidak diawasi, parameter atau nonparametrik, itu semua statistik. ML adalah bidang khusus dalam statistik.

RobertF

@ RoberttF saya tidak setuju. Pembelajaran mesin adalah bidang yang mempelajari bagaimana mesin dapat belajar. Saya setuju bahwa sebagian besar metode yang digunakan dalam ML dapat dianggap sebagai metode statistik, tetapi bidang ini tidak menjadi bagian dari statistik. Sebagai contoh, saya tidak berpikir proses pengambilan keputusan Markov dianggap sebagai metode statistik.

George

1

@George Discrete time Model Markov adalah model probabilitas. Setelah Anda memperkirakan parameter yang tidak diketahui dari model probabilitas (mis. Proses keputusan Markov) itu adalah definisi buku teks dari prosedur statistik. Saya pikir kelas utama kegiatan yang bisa disebut ML dan bukan statistik adalah aplikasi spesifik, seperti membangun robot yang bermain catur. Algoritma yang mendasarinya pasti akan melibatkan probabilitas dan statistik, tetapi aplikasi tersebut tidak benar-benar "statistik". Agak seperti bagaimana penelitian genomik banyak menggunakan statistik, tetapi mereka jelas bidang yang berbeda.

ahfoss

20

Machine Learning itu panas dan merupakan tempat uang itu berada. Orang menyebut hal-hal yang mereka coba jual apa pun yang sedang panas saat ini dan karena itu "jual". Itu bisa menjual perangkat lunak. Itu bisa menjual diri mereka sendiri sebagai karyawan saat ini yang berusaha untuk dipromosikan, sebagai calon karyawan, sebagai konsultan, dll. Itu bisa menjadi manajer yang berusaha mendapatkan anggaran yang disetujui dari perusahaan besar untuk mempekerjakan orang dan membeli barang, atau untuk meyakinkan investor untuk berinvestasi di Startup barunya yang panas yang melakukan Machine Learning sebagai kunci untuk membuat aplikasi sexting yang lebih baik. Jadi perangkat lunak melakukan Machine Learning dan manusia adalah ahli Machine Learning, karena itulah yang panas dan oleh karena itu apa yang dijual ... setidaknya untuk saat ini.

Saya melakukan semua jenis pemasangan model statistik linier dan nonlinier lebih dari 30 tahun yang lalu. Itu tidak disebut Machine Learning saat itu. Sekarang, sebagian besar akan terjadi.

Sama seperti semua orang dan paman mereka sekarang menjadi "Ilmuwan" Data. Itu panas, itu seharusnya seksi, jadi itulah yang orang sebut diri mereka. Dan itulah yang mempekerjakan manajer yang harus mendapatkan anggaran yang disetujui untuk menyewa posisi daftar seseorang. Jadi seseorang yang tidak tahu hal pertama tentang matematika, probabilitas, statistik, optimasi, atau perhitungan numerik / floating point, menggunakan paket R atau Python tentang kebenaran yang meragukan dan kekokohan implementasi, dan yang diberi label sebagai algoritma Machine Learning, untuk menerapkan data yang tidak mereka pahami, dan menyebut diri mereka Ilmuwan Data berdasarkan pengalaman mereka dalam melakukannya.

Ini mungkin terdengar kurang ajar, tetapi saya percaya itu adalah esensi dari situasi.

Sunting: Berikut ini tweeted pada 26 September 2019:

https://twitter.com/daniela_witten/status/1177294449702928384

Daniela Witten @daniela_witten "Ketika kami mengumpulkan uang, itu AI, ketika kami menyewa pembelajaran mesin, dan ketika kami melakukan pekerjaan itu adalah regresi logistik."

(Saya tidak yakin siapa yang membuat ini tetapi ini adalah permata 💎)

Mark L. Stone
sumber

16

Saya tidak akan menyembunyikan bahwa saya membagikan beberapa pendapat ini dan bersimpati kepada yang lain. Namun, agar mereka sesuai sebagai jawaban di situs SE mereka perlu memiliki semacam dukungan. Jelas itu tidak akan melalui penalaran deduktif: itu harus berasal dari menambahkan fakta dan / atau mengutip sumber-sumber resmi. Akan sangat keren jika Anda bisa melakukan itu!

whuber

10

Mudah posting paling menghibur yang pernah saya baca hari ini di situs ini, dan saya setuju dengan sebagian besar dari itu. Tapi saya harus setuju dengan @whuber bahwa itu tidak benar-benar menjawab pertanyaan dalam bentuk saat ini.

Nick Cox

6

Sebagai klarifikasi kecil. Saya bekerja di kedua pengembangan perangkat lunak dan "Ilmu Data" difitnah. Saya mewawancarai banyak orang. Tingkat orang yang diwawancarai untuk posisi pengembangan perangkat lunak dan posisi ilmu data yang tidak memiliki keterampilan untuk melakukan pekerjaan hampir sama. Jadi apa yang spesial dari judul ilmu data? Orang-orang akan meningkatkan keterampilan mereka dalam semua disiplin ilmu teknis. Saya yakin pemrograman pertukaran stack memiliki banyak keluhan yang sama.

Matthew Drury

7

Ini terasa lebih seperti kata-kata kasar daripada jawaban. Tentu saja, nama berubah, branding itu penting dan pembelajaran mesin itu panas (dan karenanya banyak praktisi yang menyatakan diri sendiri tidak tahu apa yang mereka lakukan). Namun, menggunakan itu sebagai argumen untuk mengecilkan bidang yang telah mapan dan sangat relevan baik dalam penelitian dan industri tampaknya murah bagi saya.

Marc Claesen

7

@ MarkL.Stone Saya mengerti situasi Anda dan saya sepenuhnya setuju bahwa ada banyak istilah panas yang tidak kompeten di sini. Namun, menurut saya fakta bahwa orang-orang seperti itu menemukan (dan mempertahankan!) Pekerjaan adalah kesalahan manajemen. Jika manajer tidak puas dengan hasil analis, dan memperlakukan semua analis dengan sama tanpa memandang keterampilan / hasil individu, maka manajemen sama tidak kompetennya dengan analis yang buruk. Pekerjaan apa pun yang memiliki aroma uang tunai memiliki dukun, ambil obat misalnya. Generalisasi menyeluruh tentang ilmuwan data / pembelajaran mesin sama buruknya dengan tidak mempercayai semua analis.

Marc Claesen

18

Seperti yang telah disebutkan orang lain, tidak ada pemisahan yang jelas antara statistik, pembelajaran mesin, kecerdasan buatan dan sebagainya, jadi ambillah definisi apa pun dengan sebutir garam. Regresi logistik mungkin lebih sering dilabeli sebagai statistik daripada pembelajaran mesin, sementara jaringan saraf biasanya diberi label sebagai pembelajaran mesin (meskipun jaringan saraf sering hanya kumpulan model regresi logistik).

Menurut pendapat saya, pembelajaran mesin metode yang entah bagaimana dapat belajar dari data, biasanya dengan membangun model dalam beberapa bentuk atau bentuk. Regresi logistik, seperti SVM, jaringan saraf, hutan acak dan banyak teknik lainnya, memang belajar dari data ketika membangun model.

Jika saya mengerti dengan benar, dalam algoritma Machine Learning, model harus belajar dari pengalamannya

Itu tidak benar-benar bagaimana pembelajaran mesin biasanya didefinisikan. Tidak semua metode pembelajaran mesin menghasilkan model yang secara dinamis beradaptasi dengan data baru (subbidang ini disebut pembelajaran online ).

Apa perbedaan antara regresi logistik dengan regresi normal dalam hal "belajar"?

Banyak metode regresi juga diklasifikasikan sebagai pembelajaran mesin (misalnya SVM).

Marc Claesen
sumber

2

Perhatikan bahwa pembelajaran tanpa pengawasan masih disebut pembelajaran (mesin), jadi Anda tidak perlu memiliki umpan balik untuk mengklasifikasikan sesuatu sebagai "pembelajaran mesin".

vsz

Ini bukan pada topik untuk pertanyaan, tetapi jawaban ini menyebutkan pemisahan antara AI dan ML juga. Saya selalu menyukai definisi AI ini: en.wikipedia.org/wiki/…

Davis Yoshida

10

Regresi logistik ditemukan oleh ahli statistik DR Cox pada tahun 1958 dan mendahului bidang pembelajaran mesin. Regresi logistik bukan metode klasifikasi, syukurlah. Ini adalah model probabilitas langsung.

Jika Anda berpikir bahwa suatu algoritma harus memiliki dua fase (tebakan awal, maka "perbaiki" prediksi "kesalahan") pertimbangkan ini: Regresi logistik membuatnya benar saat pertama kali. Artinya, dalam ruang model aditif (dalam logit). Regresi logistik adalah pesaing langsung dari banyak metode pembelajaran mesin dan mengungguli banyak dari mereka ketika prediktor terutama bertindak aditif (atau ketika pengetahuan materi pelajaran dengan benar menentukan interaksi sebelumnya). Beberapa menyebut regresi logistik suatu jenis pembelajaran mesin tetapi kebanyakan tidak. Anda dapat memanggil beberapa metode pembelajaran mesin (jaringan saraf contoh) model statistik.

Frank Harrell
sumber

1

Lucunya layanan pembelajaran mesin Amazon hanya menggunakan satu algoritma (afaik) - regresi logistik - untuk tugas klasifikasi : p aws.amazon.com/machine-learning/faqs

stmax

Anda bisa menyajikan data secara bertahap - seperti dalam masalah pembelajaran online . Dalam hal itu, regresi logistik tidak "benar pertama kali". Saya semakin belajar. Ini memiliki kerugian standar, dan pembaruannya adalah aplikasi standar keturunan gradien. Regresi logistik ada di setiap buku teks pembelajaran mesin yang saya lihat.

Neil G

1

β

$\beta$

@ Frankharrell: Benar, dan begitulah perkiraan kemungkinan maksimum dari solusi dari masalah regresi logistik dihasilkan.

Neil G

Regresi logistik dapat mendahului istilah "Pembelajaran Mesin", tetapi tidak mendahului bidang : SNARC dikembangkan pada tahun 1951 dan merupakan mesin pembelajaran . Juga, desakan bahwa regresi logistik hanya memodelkan probabilitas, dan bukan, dengan sendirinya, sebuah penggolong, yang memecah belah. Dengan logika itu, jaringan syaraf bukanlah penggolong (kecuali lapisan keluaran terdiri dari neuron biner, tetapi itu akan membuat propagasi balik tidak mungkin).

Igor F.

8

Saya harus tidak setuju dengan sebagian besar jawaban di sini dan mengklaim bahwa Pembelajaran Mesinmemiliki cakupan yang sangat tepat dan perbedaan yang jelas dari Statistik. ML adalah sub-bidang ilmu komputer dengan sejarah panjang, yang hanya dalam beberapa tahun terakhir telah menemukan aplikasi di luar domainnya. Bidang paternal dan domain aplikasi ML terletak di dalam Artificial Intelligence (robotika, perangkat lunak pengenalan pola, dll), oleh karena itu, itu bukan hanya "istilah panas" seperti "Big Data" atau "Ilmu Data". Statistik, di sisi lain, (yang berasal dari kata "negara") dikembangkan dalam ilmu sosial dan ekonomi sebagai alat bagi manusia, bukan mesin. ML berevolusi secara terpisah dari statistik dan, meskipun di suatu tempat di mana ia mulai sangat bergantung pada prinsip-prinsip statistik, itu tidak berarti subbidang statistik. ML dan statistik adalah bidang yang saling melengkapi, tidak tumpang tindih.

Jawaban panjang :

Seperti yang tersirat dari namanya, metode ML dibuat untuk perangkat lunak / mesin sedangkan metode statistik dibuat untuk manusia. Baik ML dan statistik berurusan dengan prediksi pada data, namun, metode ML mengikuti pendekatan yang diotomatiskan secara non-parametrik sedangkan metode statistik memerlukan banyak pekerjaan pembuatan model manual dengan faktor penjelas tambahan. Ini masuk akal jika Anda menganggap bahwa algoritma ML dikembangkan dalam penelitian AI sebagai sarana pembuatan prediksi otomatis yang dimaksudkan untuk diintegrasikan dalam perangkat lunak robotika (misalnya untuk keperluan pengenalan suara dan wajah). Ketika "mesin" membuat prediksi, itu tidak peduli tentang alasan di baliknya. Mesin tidak peduli untuk mengetahui driver / prediktor di balik model yang mengklasifikasikan email sebagai spam atau non-spam, hanya peduli untuk memiliki akurasi prediksi terbaik.kotak hitam , itu bukan karena mereka tidak memiliki model, itu karena model dibangun secara algoritmik dan tidak dimaksudkan untuk terlihat oleh manusia maupun mesin.

Konsep "pelatihan" dalam ML bergantung pada kekuatan komputasi, sedangkan pembuatan model statistik dengan metode tipe OLS untuk estimasi parameter bergantung pada pengetahuan ahli manusia. Dalam skenario regresi berganda, terserah pada ahli statistik untuk menggunakan penilaian ahli untuk memilih modelnya dan memverifikasi semua asumsi statistik yang diperlukan. Tujuan seorang ahli statistik bukan hanya untuk menemukan pola dan menggunakannya untuk prediksi tetapi juga untuk memahami data dan masalahnya dalam kedalaman yang jauh lebih besar daripada ML.

Tentu saja dalam beberapa kesempatan ML dan statistik tumpang tindih, seperti halnya dengan banyak disiplin ilmu. Regresi logistik adalah salah satu dari kesempatan ini; awalnya metode statistik, yang memiliki banyak kemiripan dengan Perceptron sederhana (salah satu teknik ML paling mendasar), yang oleh beberapa orang dipandang sebagai metode ML.

Digio
sumber

1

Mungkin Anda belum pernah mendengar statistik nonparametrik dan model statistik nonparametrik dan pembangunan model?

Mark L. Stone

1

Ya, saya menggunakan statistik nonparametrik setiap hari. Saya tidak mengatakan bahwa ML adalah jawaban nonparametrik untuk statistik, saya hanya menemukan bahwa metode ML menjadi nonparametrik datang sebagai efek samping. Statistik nonparametrik adalah opsi alternatif ahli statistik ketika statistik parametrik gagal, tetapi masih merupakan hasil dari pilihan sadar seorang ahli. Saya mungkin tidak cukup jelas dalam mengomunikasikan pandangan saya dan untuk itu saya minta maaf.

Digio

3

Ada banyak ahli statistik yang melakukan model nonparametrik, statistik setiap saat. Pernahkah Anda mendengar kemungkinan empiris - ditemukan oleh ahli statistik, digunakan oleh ahli statistik, dan cukup nonparametrik, meskipun juga dapat digunakan secara semi-parametrik. Jadi saya tidak setuju dengan Anda, tetapi saya tidak memilih Anda.

Mark L. Stone

1

Tidak setuju itu baik-baik saja, tapi saya masih belum mengerti apa maksud argumen Anda. Apakah Anda menyiratkan bahwa statistik nonparametrik tidak perlu pembelajaran mesin (sesuatu yang tidak pernah saya tolak)? Atau apakah Anda mengklaim bahwa pembelajaran mesin sebenarnya hanyalah nama lain untuk statistik nonparametrik (sesuatu yang saya tolak)?

Digio

3

Ada banyak hal yang tidak disetujui di sini. Model regresi multivariabel, ketika digunakan bersama dengan alat statistik modern, bisa fleksibel dan sangat kompetitif dengan ML.

Frank Harrell

3

Pembelajaran mesin cukup longgar didefinisikan dan Anda benar dalam berpikir bahwa model regresi - dan bukan hanya yang regresi logistik - juga "belajar" dari data. Saya tidak begitu yakin apakah ini berarti pembelajaran mesin benar-benar statistik atau statistik benar-benar pembelajaran mesin - atau jika ada yang penting sama sekali.

$k$

Yang mengatakan, beberapa algoritma belajar dari kesalahan prediksi - ini sangat umum dalam pembelajaran penguatan , di mana agen mengambil beberapa tindakan, mengamati hasilnya, dan kemudian menggunakan hasilnya untuk merencanakan tindakan di masa depan. Sebagai contoh, sebuah robot vakum mungkin dimulai dengan model dunia di mana ia membersihkan semua lokasi secara merata, dan kemudian belajar untuk menyedot debu tempat-tempat kotor (di mana ia "dihargai" dengan menemukan kotoran) lebih banyak dan membersihkan tempat-tempat lebih sedikit.

Algoritme online atau tambahan dapat diperbarui berulang kali dengan data pelatihan baru. Ini tidak selalu tergantung pada akurasi prediksi model, tetapi saya bisa membayangkan sebuah algoritma di mana bobot diperbarui lebih agresif jika, misalnya, data baru tampaknya sangat tidak mungkin diberikan model saat ini. Ada versi online untuk regresi logistik: misalnya, McMahan dan Streeeter (2012) .

Matt Krause
sumber

3

Saya akhirnya menemukan jawabannya. Saya sekarang tahu perbedaan antara pemasangan model statistik dan pembelajaran mesin.

Jika Anda cocok dengan model (regresi), itu cocok dengan model statistik
Jika Anda mempelajari model (regresi), itu pembelajaran mesin

Jadi jika Anda belajar regresi logistik, itu adalah algoritma pembelajaran mesin.

Komentar: Maafkan saya karena sudah tua, tetapi setiap kali saya mendengar orang berbicara tentang belajar model, atau belajar regresi, itu membuat saya berpikir tentang Yitro, "Saya sudah belajar saya tentang pendidikan".

AKHIR BENANG

Mark L. Stone
sumber

??? Saya juga bisa belajar model logistik, apa yang Anda bicarakan?

SmallChess

1

@Student T, jika Anda cocok dengan model logistik, itu adalah pemasangan model statistik. Jika Anda mempelajari model logistik, itu adalah pembelajaran mesin. Yaitu, ini benar-benar masalah terminologi yang digunakan oleh berbagai bidang. Hal yang sama dapat disebut hal yang berbeda oleh bidang yang berbeda (Statistik dan Pembelajaran Mesin).

Mark L. Stone

0

Regresi logistik (dan lebih umum, GLM) BUKAN milik Machine Learning! Sebaliknya, metode ini milik pemodelan parametrik .

Kedua model parametrik dan algoritmik (ML) menggunakan data, tetapi dengan cara yang berbeda . Model algoritma belajar dari data bagaimana prediktor memetakan ke prediksi dan, tetapi mereka tidak membuat asumsi tentang proses yang telah menghasilkan pengamatan (atau asumsi lain, sebenarnya). Mereka menganggap bahwa hubungan yang mendasari antara input dan output variabel kompleks dan tidak diketahui, dan dengan demikian, mengadopsi pendekatan yang didorong data untuk memahami apa yang terjadi, daripada memaksakan persamaan formal.

Di sisi lain, model parametrik ditentukan secara apriori berdasarkan pengetahuan proses yang dipelajari, menggunakan data untuk memperkirakan parameternya, dan membuat banyak asumsi tidak realistis yang jarang dipegang dalam praktik (seperti independensi, varian yang sama, dan Distribusi kesalahan yang normal).

Juga, model parametrik (seperti regresi logistik) adalah model global . Mereka tidak dapat menangkap pola lokal dalam data (tidak seperti metode ML yang menggunakan pohon sebagai model dasar mereka, misalnya RF atau Boosted Trees). Lihat makalah ini halaman 5. Sebagai strategi remediasi, GLM lokal (yaitu, nonparametrik) dapat digunakan (lihat misalnya paket locfit R).

Seringkali, ketika sedikit pengetahuan tentang fenomena yang mendasarinya tersedia, lebih baik untuk mengadopsi pendekatan berbasis data dan menggunakan pemodelan algoritmik. Misalnya, jika Anda menggunakan regresi logistik dalam kasus di mana interaksi antara variabel input dan output tidak linier, model Anda akan jelas tidak memadai dan banyak sinyal tidak akan ditangkap. Namun, ketika proses dipahami dengan baik, model parametrik memiliki keunggulan dalam memberikan persamaan formal untuk merangkum semuanya, yang kuat dari sudut pandang teoritis.

Untuk diskusi yang lebih terperinci, bacalah makalah yang sangat bagus ini oleh Leo Breiman.

Antoine
sumber

4

Silakan luangkan waktu untuk memahami regresi logistik. Itu tidak membuat asumsi distribusi apa pun. Itu membuat asumsi independensi yang persis sama dengan yang dibuat oleh ML. ML membutuhkan ukuran sampel yang jauh lebih besar daripada regresi logistik. Sebagai contoh, hutan acak dan SVM dapat mensyaratkan 200 peristiwa per fitur kandidat untuk menjadi stabil sedangkan regresi logistik biasanya membutuhkan 200 peristiwa per variabel kandidat.

Frank Harrell

2

Anda harus meluangkan waktu untuk memahami regresi logistik! Ini adalah Model Linear Umum di mana tautannya adalah fungsi logit. Ini parametrik. Diasumsikan bahwa pengamatan adalah IID. Juga, semoga sukses dengan menangkap hubungan nonlinear. Juga, apa arti bagian kedua dari kalimat Anda? Bagi saya, fitur adalah variabel (?)

Antoine

5

Ada banyak buku bagus tentang masalah ini dan saya sarankan Anda berkonsultasi sebelum melanjutkan. Regresi logistik tidak mengasumsikan distribusi yang identik dan pada dasarnya mengasumsikan tidak ada distribusi sama sekali. Kecuali Anda dapat menunjukkan bagaimana Anda faktor dalam struktur korelasi dalam ML, kedua pendekatan tersebut mengasumsikan independensi. Regresi splines telah digunakan sejak 1982 untuk mengendurkan asumsi linearitas dalam regresi logistik. Untuk fitur diskusi ini = variabel kecuali diperluas dalam spline.

Frank Harrell

5

Breiman memahami banyak hal dengan baik. Dia hanya tidak berurusan dengan perkembangan pasca 1982 dalam regresi logistik, misalnya estimasi kemungkinan maksimum dihukum, regresi splines, dan kombinasi dengan metode pengurangan data. Satu-satunya batasan serius untuk regresi logistik adalah bahwa seperti metode lain tidak baik dalam menemukan interaksi yang tepat jika seseorang mencari interaksi dan mereka tidak ditentukan sebelumnya. Sebagian besar metode yang dimaksudkan untuk dapat melakukan ini tidak menghasilkan temuan yang dapat ditiru. Selain itu, Breiman menggunakan skor akurasi yang tidak tepat yang dapat dioptimalkan oleh model palsu.

Frank Harrell

3

@Antoine: "mengapa regresi logistik secara radikal berbeda dari ML". Perhatikan bahwa beberapa metode dalam ML (paling nyata, SVM) sangat terkait dengan regresi logistik. Dengan pengecualian dari beberapa interaksi - seperti Frank menulis - reg logistik dengan non-linearitas dan hukuman memberikan hasil yang sangat mirip dengan SVM dan metode ML lainnya. Itu terus membuat saya takjub bagaimana beberapa makalah mengutip peningkatan kinerja berdasarkan metode ML vs model statistik stat101 untuk membingkai negatif regresi logistik.

Thomas Speidel

-1

Saya pikir jawaban lain melakukan pekerjaan yang baik dalam mengidentifikasi lebih atau kurang apa itu Pembelajaran Mesin (seperti yang ditunjukkan, itu bisa menjadi hal yang kabur). Saya akan menambahkan bahwa Regresi Logistik (dan versi multinomial yang lebih umum) sangat umum digunakan sebagai sarana untuk melakukan klasifikasi dalam jaringan saraf tiruan (yang saya pikir secara jelas tercakup oleh definisi pembelajaran mesin masuk akal apa pun yang Anda pilih), dan jadi jika Anda menyebutkan Regresi Logistik untuk orang yang bersih, mereka cenderung segera memikirkannya dalam konteks ini. Terikat dengan pemukul berat dalam pembelajaran mesin adalah cara yang baik untuk menjadi teknik pembelajaran mesin sendiri, dan saya pikir sampai batas tertentu itulah yang terjadi dengan berbagai teknik regresi, meskipun saya tidak akan mengabaikan mereka dari menjadi teknik pembelajaran mesin yang tepat. di dalam dan dari diri mereka sendiri.

adamconkey
sumber

Perhatikan bahwa regresi logistik bukan penggolong tetapi metode estimasi probabilitas langsung.

Frank Harrell

Untuk informasi lebih lanjut tentang poin Dr. Harrell, silakan lihat posting saya di sini. stats.stackexchange.com/questions/127042/...

Sycorax mengatakan

@ Frankharrell Kita juga bisa menggunakan probabilitas untuk klasifikasi, jadi itu benar-benar sebuah classifier.

SmallChess

@ StudentT4 Itu tidak bisa lebih salah. Jika adalah penaksir probabilitas langsung. Bagaimana Anda menggunakan hasil akhir dari model logistik terserah Anda. Dengan logika Anda mean sampel adalah classifier.

Frank Harrell

-1

Saya pikir setiap prosedur yang "berulang" dapat dianggap sebagai kasus pembelajaran mesin. Regresi dapat dianggap sebagai pembelajaran mesin. Kita bisa melakukannya dengan tangan, tetapi itu akan memakan waktu lama, jika memungkinkan. Jadi sekarang kita punya program ini, mesin, yang melakukan iterasi untuk kita. Semakin dekat dan lebih dekat ke solusi, atau ke solusi terbaik atau paling cocok. Jadi, "pembelajaran mesin". Tentu saja hal-hal seperti jaringan saraf mendapatkan sebagian besar perhatian dalam hal pembelajaran mesin, jadi kami biasanya mengaitkan pembelajaran mesin dengan prosedur seksi ini. Juga, perbedaan antara pembelajaran mesin "diawasi" dan "tanpa pengawasan" relevan di sini

dailyl
sumber

-2

Ini adalah kesalahan yang sangat umum yang dilakukan kebanyakan orang dan saya dapat melihatnya di sini juga (dilakukan oleh hampir semua orang). Biarkan saya jelaskan secara rinci ... Regresi Logistik dan model Regresi linier, keduanya adalah model parametrik dan juga Teknik Pembelajaran Mesin. Itu hanya tergantung pada metode yang Anda gunakan untuk memperkirakan parameter model (theta's). Ada 2 cara untuk menemukan parameter model dalam Regresi Linier dan Reg Logistik.

Gradient Descent Technique : Di sini kita mulai dengan memberikan nilai acak ke parameter dan menemukan fungsi biaya (kesalahan). Dalam setiap iterasi kami memperbarui parameter kami dan meminimalkan fungsi biaya. Setelah sejumlah iterasi, fungsi biaya dikurangi menjadi nilai yang diinginkan dan nilai parameter yang sesuai adalah nilai akhir kami. Inilah yang seharusnya dilakukan teknik pembelajaran mesin. Jadi, jika Anda menggunakan teknik Gradient Descent, regresi logistik dapat disebut sebagai teknik pembelajaran mesin.
Dengan menggunakan Metode Least Square: Di sini kita memiliki rumus langsung untuk menemukan parameter kita (beberapa aljabar matriks diperlukan untuk memahami derivasi rumus ini) yang dikenal sebagai persamaan normal.

Di sini b yang mewakili parameter X adalah desain Matrix. Kedua Metode memiliki kelebihan dan keterbatasan masing-masing. Untuk mendapatkan detail lebih lanjut: ikuti kursus Pembelajaran Mesin coursera yang masih berjalan.

Semoga postingan ini bisa membantu .. :-)

Mohit Kumar
sumber

Mengapa regresi logistik disebut algoritma pembelajaran mesin?

Jawaban: