Kapan seharusnya regresi linier disebut "pembelajaran mesin"?

90

Dalam kolokium baru-baru ini, abstrak pembicara mengklaim mereka menggunakan pembelajaran mesin. Selama pembicaraan, satu-satunya hal yang terkait dengan pembelajaran mesin adalah bahwa mereka melakukan regresi linier pada data mereka. Setelah menghitung koefisien paling cocok dalam ruang parameter 5D, mereka membandingkan koefisien ini dalam satu sistem dengan koefisien paling cocok dari sistem lain.

Kapan pembelajaran mesin regresi linier , bukan hanya menemukan garis yang paling cocok? (Apakah abstrak peneliti itu menyesatkan?)

Dengan semua mesin pembelajaran perhatian telah mengumpulkan baru-baru ini, tampaknya penting untuk membuat perbedaan seperti itu.

Pertanyaan saya adalah seperti ini , kecuali bahwa pertanyaan itu meminta definisi "regresi linier", sedangkan pertanyaan saya menanyakan kapan regresi linier (yang memiliki banyak aplikasi) dapat secara tepat disebut "pembelajaran mesin".

Klarifikasi

Saya tidak bertanya kapan regresi linier sama dengan pembelajaran mesin. Seperti yang telah ditunjukkan beberapa orang, algoritma tunggal tidak membentuk bidang studi. Saya bertanya kapan benar mengatakan bahwa seseorang melakukan pembelajaran mesin ketika algoritma yang digunakan hanyalah sebuah regresi linier.

Selain semua lelucon (lihat komentar), salah satu alasan saya bertanya ini adalah karena tidak etis untuk mengatakan bahwa seseorang melakukan pembelajaran mesin untuk menambahkan beberapa bintang emas ke nama Anda jika mereka tidak benar - benar melakukan pembelajaran mesin. (Banyak ilmuwan menghitung beberapa jenis garis yang paling cocok untuk pekerjaan mereka, tetapi ini tidak berarti bahwa mereka melakukan pembelajaran mesin.) Di sisi lain, jelas ada situasi ketika regresi linier yang digunakan sebagai bagian dari pembelajaran mesin. Saya mencari ahli untuk membantu saya mengklasifikasikan situasi ini. ;-)

jvriesem
sumber
13
Mungkin Anda ingin melihat utas: " Dua Budaya: statistik vs. pembelajaran mesin? ".
usεr11852
75
Anda harus mengganti nama regresi Anda sebagai 'pembelajaran mesin' setiap kali Anda ingin menggandakan biaya pada kartu tarif Anda.
Sycorax
3
Ada perbedaan. Belajar adalah suatu proses. Kecocokan terbaik adalah tujuan. Lihat jawaban saya di bawah ini. Sejujurnya, kata-katanya tidak memiliki makna yang sama, meskipun dapat muncul dalam konteks yang sama, seperti "burung terbang", seseorang dapat mengaitkan keduanya, tetapi burung tidak terbang, dan meskipun terbang adalah untuk burung, itu untuk -18 jet tempur juga.
Carl
20
@ Scorax dan pembelajaran mendalam saat Anda ingin melipatgandakan
Franck Dernoncourt
11
@FranckDernoncourt "Saya seorang ilmuwan data yang menggunakan pembelajaran mendalam di lingkungan data besar untuk menyelesaikan masalah pembelajaran mesin" kedengarannya seperti tajuk yang bagus untuk profil LinkedIn;)
Tim

Jawaban:

78

Menjawab pertanyaan Anda dengan pertanyaan: apa sebenarnya pembelajaran mesin? Trevor Hastie, Robert Tibshirani dan Jerome Friedman dalam Elemen Pembelajaran Statistik , Kevin P. Murphy dalam Pembelajaran Mesin Perspektif Probabilitas , Christopher Bishop dalam Pengenalan Pola dan Pembelajaran Mesin , Ian Goodfellow, Yoshua Bengio dan Aaron Courville dalam Pembelajaran Mendalam dan sejumlah "Alkitab" pembelajaran mesin lainnya menyebutkan regresi linier sebagai salah satu "algoritma" pembelajaran mesin. Pembelajaran mesin sebagian merupakan kata kunci untuk statistik terapan dan perbedaan antara statistik dan pembelajaran mesin sering kabur.

Tim
sumber
4
Benar, tetapi sebagian besar adalah disiplin ilmu yang dibungkam dengan sejumlah besar literatur, metode, dan algoritme yang tidak tumpang tindih. Misalnya, dalam pembelajaran mesin dunia saat ini, lulusan ilmu komputer dan data jauh di depan pelamar statistik dalam hal pendanaan, hibah, dan pekerjaan, sebut saja.
Mike Hunter
6
@ Johnson jadi itu diterapkan statistik dengan paket baru, dijual dengan harga lebih tinggi ..? Saya tidak berpikir bahwa fakta bahwa itu trendi tidak membuatnya menjadi kata kunci. Statistik Bayesian juga memiliki metode, jurnal, konferensi, buku pegangan, dan aplikasi mereka sendiri yang sebagian tidak tumpang tindih dengan statistik klasik - apakah ini menjadikannya disiplin yang berbeda dengan statistik?
Tim
3
Ya. Saya lalai untuk keberatan pengamatan saya tentang praktisi ML dengan pengamatan yang lebih umum bahwa praktisi siled, fokus sempit adalah endemik untuk setiap bidang dan profesi, bukan hanya ML. Ini semacam bahaya pekerjaan - baca kegagalan manusia - bahwa orang menjadi buta terhadap informasi di luar kebutuhan dan minat mereka yang mendesak. CV tidak terkecuali untuk ini.
Mike Hunter
23
(+1) Saya setuju tidak ada perbedaan yang jelas. Sejauh saya memikirkan perbedaan, saya biasanya akan berpikir tentang ML sebagai lebih peduli dengan prediksi , dan statistik lebih peduli dengan inferensi parameter (misalnya desain eksperimental untuk pemodelan permukaan respons tidak akan khas di ML?). Jadi dalam hal itu, contoh OP - di mana koefisien regresi tampaknya menjadi perhatian utama - akan lebih "seperti statistik" (?)
GeoMatt22
3
Lihat juga Dua budaya oleh Leo Breiman yang membuat poin mirip dengan @ GeoMatt22: ML berfokus pada prediksi yang akurat. Apakah model itu benar tidak penting. Statistik klasik sedang mencari model "benar", dalam arti tertentu, atau setidaknya model yang memberikan beberapa wawasan tentang proses yang menghasilkan data.
Peter
41

Regresi linier jelas merupakan suatu algoritma yang dapat digunakan dalam pembelajaran mesin. Tetapi, reductio ad absurdum : Siapa pun yang memiliki salinan Excel dapat menggunakan model linier.

Bahkan membatasi diri kita pada model linier, ada beberapa hal lagi yang perlu dipertimbangkan ketika membahas pembelajaran mesin:

  • Pembelajaran mesin pada masalah bisnis mungkin melibatkan lebih banyak data. " Data besar ", jika Anda ingin menggunakan kata kunci. Membersihkan dan menyiapkan data mungkin membutuhkan lebih banyak pekerjaan daripada pemodelan yang sebenarnya. Dan ketika volume data melebihi kapasitas mesin tunggal untuk memprosesnya maka tantangan teknik sama pentingnya dengan tantangan statistik. (Rule of thumb: jika cocok di memori utama itu bukan data besar).
  • Pembelajaran mesin sering melibatkan lebih banyak variabel penjelas (fitur) daripada model statistik tradisional. Mungkin lusinan, terkadang bahkan ratusan di antaranya, beberapa di antaranya akan menjadi variabel kategori dengan banyak tingkatan. Ketika fitur-fitur ini berpotensi berinteraksi (misalnya dalam model efek silang), jumlah model potensial yang akan cocok tumbuh dengan cepat.
  • Praktisi pembelajaran mesin biasanya kurang peduli dengan signifikansi fitur individu, dan lebih peduli dengan memeras kekuatan prediksi sebanyak mungkin dari model, menggunakan kombinasi fitur mana yang melakukan itu. (Nilai-P dikaitkan dengan penjelasan, bukan prediksi.)
  • Dengan sejumlah besar fitur, dan berbagai cara rekayasa fitur-fitur itu, pemilihan model dengan tangan menjadi tidak mungkin. Menurut pendapat saya, tantangan nyata dalam pembelajaran mesin adalah pemilihan fitur secara otomatis (fitur engineering) dan aspek lain dari spesifikasi model. Dengan model linier ada berbagai cara untuk melakukan ini, biasanya varian brute force; termasuk langkah-langkah regresi, eliminasi kembali dll, yang semuanya lagi membutuhkan daya komputasi yang signifikan. (Aturan kedua: jika Anda memilih fitur dengan tangan, Anda melakukan statistik, bukan pembelajaran mesin).
  • Ketika Anda secara otomatis memuat banyak model dengan banyak fitur, pemasangan yang berlebihan adalah masalah potensial yang serius. Berurusan dengan masalah ini sering melibatkan beberapa bentuk validasi silang : yaitu perhitungan yang lebih brutal!

Jawaban singkatnya, dari sudut pandang saya, adalah bahwa di mana pembelajaran mesin menyimpang dari pemodelan statistik tradisional adalah dalam penerapan brute force dan pendekatan numerik untuk pemilihan model, terutama dalam domain dengan sejumlah besar data dan sejumlah besar variabel penjelas , dengan fokus pada daya prediksi, diikuti oleh lebih banyak kekuatan kasar untuk validasi model.

david25272
sumber
2
Saya suka perbedaan ini secara umum. Namun, apakah validasi silang pernah digunakan dalam model "statistik" atau apakah ini jarang diperlukan karena biasanya dilakukan dengan tangan? Apakah rekayasa fitur dianggap statistik maka seperti yang dilakukan dengan tangan?
josh
3
@ Astaga, Ya, bisa saja. Tetapi jika Anda melihat tag validasi silang, hampir semua pertanyaan adalah tentang pemodelan prediktif.
david25272
@ david25272 Saya ingin tahu bagaimana pendapat Anda tentang bootstrap, .632+ bootstrap, dan tes permutasi - Saya selalu menganggapnya lebih sebagai "statistik terapan" daripada "pembelajaran mesin" karena cara mereka termotivasi, tetapi mereka sama-sama "brute-force" untuk k-lipat atau meninggalkan-k-out validasi silang. Saya pikir regularisasi L1 juga dapat dianggap sebagai jenis pemilihan fitur dalam kerangka statistik ...
Patrick B.
@Patrick stats.stackexchange.com/questions/18348 adalah jawaban yang lebih baik tentang penggunaan bootstapping untuk validasi model daripada yang bisa saya berikan.
david25272
@ david25272 ah, maaf, pertanyaan saya lebih pada apakah Anda menganggap mereka sebagai teknik "pembelajaran mesin" atau teknik "statistik terapan", karena mereka termotivasi secara statistik tetapi juga "kekuatan kasar." Saya terbiasa dengan penggunaan bootstraps yang bias diperbaiki untuk validasi model.
Patrick B.
14

Saya pikir definisi Mitchell memberikan cara yang bermanfaat untuk membumikan diskusi tentang pembelajaran mesin, semacam prinsip pertama. Seperti yang direproduksi di Wikipedia :

Suatu program komputer dikatakan belajar dari pengalaman E sehubungan dengan beberapa kelas tugas T dan kinerja ukuran P jika kinerjanya pada tugas-tugas di T, yang diukur dengan P, meningkat dengan pengalaman E.

Ini membantu dalam beberapa cara. Pertama, untuk pertanyaan langsung Anda: Regresi adalah pembelajaran mesin ketika tugasnya adalah untuk memberikan nilai estimasi dari fitur prediktif dalam beberapa aplikasi. Kinerjanya harus meningkat, yang diukur dengan rata-rata kuadrat (atau absolut, dll.) Mengulurkan kesalahan, karena mengalami lebih banyak data.

Kedua, ini membantu menggambarkan pembelajaran mesin dari istilah terkait, dan penggunaannya sebagai kata kunci pemasaran. Bandingkan tugas di atas dengan standar, regresi inferensial, di mana analis menafsirkan koefisien untuk hubungan yang signifikan. Di sini program mengembalikan ringkasan: koefisien, nilai-p, dll. Program tidak dapat dikatakan untuk meningkatkan kinerja ini dengan pengalaman; tugasnya adalah perhitungan yang rumit.

Akhirnya, ini membantu menyatukan sub bidang pembelajaran mesin, baik yang biasa digunakan dalam eksposisi pengantar (diawasi, tidak diawasi) dengan yang lain seperti pembelajaran penguatan atau estimasi kepadatan. (Masing-masing memiliki tugas, ukuran kinerja, dan konsep pengalaman, jika Anda cukup memikirkannya.) Ini, menurut saya, memberikan definisi yang lebih kaya yang membantu menggambarkan dua bidang tanpa mengurangi keduanya secara tidak perlu. Sebagai contoh, "ML adalah untuk prediksi, statistik untuk inferensi" mengabaikan kedua teknik pembelajaran mesin di luar pembelajaran yang diawasi, dan teknik statistik yang berfokus pada prediksi.

Sean Easter
sumber
12

Tidak ada hukum yang mengatakan bahwa pembuat kabinet tidak dapat menggunakan gergaji pembuat barel.

Pembelajaran mesin dan statistik adalah label yang tidak jelas, tetapi jika didefinisikan dengan baik ada banyak tumpang tindih antara statistik dan pembelajaran mesin. Dan ini berlaku untuk metode kedua bidang ini serta (dan secara terpisah) untuk orang - orang yang memberi label diri dengan kedua bidang ini. Tetapi sejauh matematika berjalan, pembelajaran mesin sepenuhnya dalam bidang statistik.

Regresi linier adalah prosedur matematika yang didefinisikan dengan sangat baik. Saya cenderung mengaitkannya dengan bidang statistik dan orang-orang yang menyebut diri mereka 'ahli statistik' dan mereka yang keluar dari program akademik dengan label seperti 'statistik'. SVM (Support Vector Machines) juga merupakan prosedur matematika yang didefinisikan dengan sangat baik yang memiliki beberapa input dan output yang sama dan memecahkan masalah yang sama. Namun saya cenderung mengaitkannya dengan bidang pembelajaran mesin dan orang-orang yang menyebut diri mereka ilmuwan komputer atau orang-orang yang bekerja dalam kecerdasan buatan atau pembelajaran mesin yang cenderung dianggap sebagai bagian dari ilmu komputer sebagai disiplin ilmu.

Tetapi beberapa ahli statistik mungkin menggunakan SVM dan beberapa orang AI menggunakan regresi logistik. Untuk lebih jelasnya, lebih mungkin bahwa ahli statistik atau peneliti AI akan mengembangkan metode daripada menggunakannya secara praktis.

Saya menempatkan semua metode pembelajaran mesin tepat di dalam domain statistik. Bahkan hal-hal baru seperti Deep Learning, RNNs, CNNs, LSTMs, CRFs. Seorang ahli statistik terapan (ahli biostatistik, ahli agronomi) mungkin tidak akrab dengan mereka. Itu semua adalah metode pemodelan prediktif yang biasanya diberi label 'pembelajaran mesin', dan jarang dikaitkan dengan statistik. Tetapi mereka adalah model prediksi, dengan kelonggaran bahwa mereka dapat dinilai menggunakan metode statistik.

Pada akhirnya, regresi logistik harus dianggap sebagai bagian dari pembelajaran mesin.

Tapi, ya, saya melihat dan sering berbagi ketidaksukaan Anda atas kesalahan penerapan kata-kata ini. Regresi linier adalah bagian fundamental dari hal-hal yang disebut statistik sehingga terasa sangat aneh dan menyesatkan untuk menyebut penggunaannya sebagai 'pembelajaran mesin' .

Sebagai ilustrasi, regresi logistik identik secara matematis dengan jaringan Deep Learning tanpa simpul tersembunyi dan fungsi logistik sebagai fungsi aktivasi untuk simpul keluaran tunggal. Saya tidak akan menyebut regresi logistik sebagai metode pembelajaran mesin, tetapi tentu saja ini digunakan dalam konteks pembelajaran mesin.

Ini sebagian besar masalah harapan.

A: "Saya menggunakan pembelajaran mesin untuk memprediksi penerimaan kembali ke rumah sakit setelah operasi jantung."

B: "Oh ya? Belajar Dalam? Hutan Acak? !!?"

A: "Oh, tidak, tidak ada yang semewah itu, hanya Regresi Logistik."

B: terlihat sangat kecewa .

Ini seperti mengatakan, ketika mencuci jendela dengan air Anda menggunakan kimia kuantum. Ya tentu saja itu tidak salah secara teknis tetapi Anda menyiratkan lebih banyak dari yang dibutuhkan.

Tapi sungguh, itulah perbedaan budaya vs perbedaan substansi. Konotasi kata dan asosiasi dengan kelompok orang (LR sama sekali bukan ML!) Vs matematika dan aplikasi (LR benar-benar ML!).

Mitch
sumber
3
Regresi logistik juga sangat mirip, baik secara praktis maupun teoretis, dengan SVM: web.stanford.edu/ ~ hastie
Patrick B.
3

Pandangan umum adalah bahwa pembelajaran mesin terdiri dari 4 bidang:

1) Pengurangan Dimensi

2) Clustering

3) Klasifikasi

4) Regresi

Regresi linier adalah regresi. Setelah model dilatih, itu dapat digunakan untuk prediksi, seperti yang lainnya, katakanlah, Regresi Hutan Acak.

Akavall
sumber
Sebenarnya ada perbedaan, meskipun regresi linier dapat diselesaikan dengan menggunakan pembelajaran mesin. Target regresi yang umum adalah kuadrat terkecil biasa, yang berarti, bahwa fungsi target kerugian kami, jumlah residu kuadrat, harus diminimalkan. Sekarang, pembelajaran mesin hanya akan merujuk pada metode yang dengannya kita meminimalkan fungsi kerugian.
Carl
Dengan demikian secara konseptual, regresi linier melalui gradient descent (pembelajaran) memilih residual kuadrat persegi yang lebih baik dan lebih baik (fungsi kerugian). Konsep dasar sama dengan yang untuk algoritma pembelajaran yang lebih maju, seperti jaringan saraf. Algoritma ini hanya menggantikan model linier dengan model yang jauh lebih kompleks - dan, dengan demikian, fungsi biaya yang jauh lebih kompleks. .
Carl
1
Jadi jawaban untuk pertanyaan OP Kapan pembelajaran mesin regresi linier, bukan hanya menemukan garis yang paling cocok? Ketika regresi linier dilakukan dengan menggunakan elemen yang dapat ditentukan dari pembelajaran mesin, seperti gradient descent , maka regresi linier dilakukan dengan menggunakan pembelajaran mesin.
Carl
5
@Carl, masalah di sini yang didefinisikan "pembelajaran mesin". Bagi saya jika kita dapat menggunakan model statistik, dan model itu akan memiliki kemampuan untuk memprediksi itu adalah pembelajaran mesin. Dan tidak masalah pendekatan apa yang digunakan untuk menemukan koefisien model.
Akavall
1
Saya menemukan jawaban Akavall cukup jelas. Saya percaya masalah Akavall adalah bahwa definisi yang Anda sajikan melingkar, karena tampaknya mendidih ke "T: kapan teknik X dihitung sebagai 'pembelajaran mesin'? A: ketika teknik X dilakukan menggunakan elemen yang dapat ditentukan dari pembelajaran mesin." (Sayangnya saya tidak mengerti poin kedua yang Anda sampaikan sehingga saya tidak bisa menanggapi hal itu.)
Patrick B.
2

Regresi linier adalah teknik, sedangkan pembelajaran mesin adalah tujuan yang dapat dicapai melalui berbagai cara dan teknik.

Jadi kinerja regresi diukur dengan seberapa dekat itu sesuai dengan garis / kurva yang diharapkan, sementara pembelajaran mesin diukur dengan seberapa baik dapat memecahkan masalah tertentu, dengan segala cara yang diperlukan.

Semoga Membantu
sumber
2

Saya akan berpendapat bahwa perbedaan antara pembelajaran mesin dan inferensi statistik jelas. Singkatnya, pembelajaran mesin = prediksi pengamatan masa depan ; statistik = penjelasan.

Berikut ini adalah contoh dari bidang minat saya (kedokteran): ketika mengembangkan suatu obat, kami mencari gen yang paling baik menjelaskan keadaan penyakit, dengan tujuan menargetkannya dengan obat. Kami menggunakan statistis untuk itu. Sebaliknya, ketika mengembangkan tes diagnostik, misalnya memprediksi apakah obat akan membantu pasien, tujuannya adalah menemukan prediktor terbaik untuk hasil di masa depan, bahkan jika itu terdiri dari banyak gen dan terlalu rumit untuk dipahami. Kami menggunakan pembelajaran mesin untuk tujuan ini. Ada beberapa contoh yang dipublikasikan [1], [2], [3], [4] yang menunjukkan bahwa keberadaan target obat bukanlah prediktor yang baik dari hasil pengobatan, oleh karena itu perbedaannya.

Berdasarkan hal ini, cukup adil untuk mengatakan bahwa seseorang melakukan pembelajaran mesin ketika tujuannya secara ketat memprediksi hasil pengamatan di masa depan / yang sebelumnya tidak terlihat. Jika tujuannya adalah memahami fenomena tertentu, maka itu adalah inferensi statistik, bukan pembelajaran mesin. Seperti yang telah ditunjukkan orang lain, ini benar terlepas dari metode yang digunakan.

Untuk menjawab pertanyaan Anda: dalam penelitian spesifik yang Anda gambarkan, para ilmuwan membandingkan peran faktor (bobot) dalam model regresi linier yang berbeda, bukan membandingkan akurasi model. Oleh karena itu, tidak akurat untuk memanggil pembelajaran mesin inferensi mereka.

[1] Messersmith WA, Ahnen DJ. Menargetkan EGFR pada Kanker Kolorektal. Jurnal Kedokteran New England; 2008; 359; 17.

[2] Pogue-Geile KL et al. Prediksi Tingkat Manfaat Dari Adjuvant Trastuzumab di NSABP Trial B-31. J Natl Cancer Inst; 2013; 105: 1782-1788.

[3] Persetujuan Pazdur R. FDA untuk Vemurafenib. https://www.cancer.gov/about-cancer/treatment/drugs/fda-vemurafenib . Diperbarui 3 Juli 2013.

[4] Ray T. Dua Studi ASCO Menunjukkan Tantangan Menggunakan Pensinyalan MET sebagai Penanda Prediktif dalam Uji Coba Obat NSCLC. GenomeWeb, 11 Juni 2014.

ljubomir
sumber
7
Saya setuju bahwa penelitian pembelajaran mesin memiliki penekanan yang jauh lebih berat pada prediksi terhadap estimasi parameter. Tapi itu bukan garis pemisah yang jelas: penelitian statistik kaya dengan metode prediksi.
Cliff AB
4
Jadi bagaimana dengan ahli statistik yang membuat prediksi sebelum komputer ada (atau tersedia secara luas)? Apakah mereka menerapkan pembelajaran mesin kertas dan pensil ?!
Tim
1
@Tim: argumen yang sangat bagus. Saya percaya jawabannya adalah ya jika mereka berfokus pada pengamatan di masa depan, meskipun saya mengakui dalam kasus-kasus (jarang) nama belajar statistik akan lebih tepat. Dengan munculnya komputer, pembelajaran mesin istilah menjadi lebih modis. Intinya bukan nama, atau penggunaan komputer; itu adalah kejelasan tujuan. Dalam pandangan saya, hampir tidak mungkin untuk berhasil mengoptimalkan prediksi yang akurat dari pengamatan yang sebelumnya tidak terlihat, dan memahami fenomena tersebut. Lebih baik fokus dengan tepat.
ljubomir
4
Peramalan deret waktu (prediksi pengamatan di masa depan) sudah lama menjadi masalah yang populer dalam statistik (dan ekonometrik), jadi saya tidak setuju dengan perbedaan yang jelas berdasarkan itu.
Richard Hardy
1
Jawaban ini palsu. Prediksi hanyalah satu bagian kecil dari pembelajaran mesin. Ahli statistik juga melakukan prediksi. Meskipun sulit untuk menggambarkan antara pembelajaran mesin dan statistik, tetapi ini jelas bukan cara yang benar.
perampokan
2

Ini bisa berguna untuk memanggil pembelajaran mesin regresi linier karena melakukan hal itu biasanya menyiratkan beberapa hal penting tentang bagaimana Anda menyelesaikan masalah Anda:

  1. Anda memutuskan tidak perlu memeriksa asumsi kausal dan teori sebelumnya di balik variabel penjelas Anda. Ini menandakan bahwa model Anda tidak dimaksudkan untuk menjelaskan tetapi untuk memprediksi. Ini sangat masuk akal dalam banyak pengaturan, misalnya, memprediksi spam email berdasarkan kata kunci. Sebenarnya tidak ada banyak literatur tentang kata-kata yang memprediksi spam, dan ada begitu banyak kata yang tidak masuk akal untuk memikirkan makna teoretis dari setiap kata.
  2. Anda tidak mengecek signifikansi variabel atau menggunakan nilai-p tetapi sebaliknya memilih untuk set perangkat atau validasi silang untuk menilai kinerja prediktif out-of-sample. Ini dapat benar-benar valid jika - kembali ke contoh spam email - jika benar-benar yang Anda pedulikan adalah menghasilkan model yang secara efektif memprediksi spam, bahkan jika ini datang pada biaya termasuk variabel yang mungkin tidak lulus tes signifikansi tradisional.

Namun, jika model Anda lebih dimaksudkan untuk menjelaskan daripada memprediksi, dan Anda benar-benar memeriksa asumsi kausal teoretis model Anda, dll. Maka ya, agak konyol menyebutnya sebagai pembelajaran mesin.

Ryan Zotti
sumber
2

Memang, jawaban apa pun untuk pertanyaan ini lebih dari sekadar opini objektif, tetapi saya akan mencoba menjelaskan logika saya mengapa saya pikir jawabannya tidak pernah . Apa pun yang disebut ahli atau instruktur pembelajaran mesin hanya mengungkapkan ketidaktahuan mereka dengan mewakili regresi linier seperti itu.

Delineasi disiplin akademis lebih tentang delineasi komunitas daripada metode. Disiplin ilmiah meminjam metode lintas disiplin sepanjang waktu. Juga, pada abad ke-19 (ketika regresi linier dikembangkan) dan sebelum itu, disiplin ilmu tidak begitu jelas digambarkan seperti sekarang. Jadi khususnya ketika metode dikembangkan pada abad ke-19 atau sebelumnya, kita harus berhati-hati untuk menugaskan mereka ke disiplin ilmu tertentu.

Yang sedang berkata, orang dapat melihat sejarah disiplin dan masuk akal menyimpulkan bahwa metode tertentu "milik" satu disiplin atau yang lain. Tidak ada yang akan mengatakan hari ini bahwa kalkulus milik bidang fisika, meskipun Newton, yang merupakan salah satu penemu kalkulus, pasti mencoba menerapkan ini pada fisika. Kalkulus jelas milik disiplin matematika, bukan fisika. Ini karena kalkulus adalah metode matematika umum yang dapat digunakan sepenuhnya di luar konteks fisika.

Dengan alasan yang sama, regresi linier termasuk ke dalam disiplin statistik, meskipun itu umumnya digunakan sebagai contoh sederhana dari pengumpanan data ke model dalam konteks pembelajaran mesin. Sama seperti kalkulus dapat digunakan di luar konteks fisika, regresi linier dapat (dan sedang) digunakan di luar konteks pembelajaran mesin.

Instruktur pembelajaran mesin akan bijaksana untuk menunjukkan bahwa regresi linier telah digunakan sejak akhir abad ke-19 jauh sebelum gagasan modern tentang pembelajaran mesin muncul. Mereka juga harus menekankan bahwa pembelajaran mesin menggunakan banyak konsep dari probabilitas dan statistik, serta disiplin ilmu lain (misalnya teori informasi). Namun, konsep-konsep ini sendiri tidak mewakili pembelajaran mesin atau "algoritma" pembelajaran mesin.

perampokan
sumber
1

Ini Mesinnya, Bodoh!

Saya bukan ahli statistik atau pakar Big Data (TM). Namun, saya akan mengatakan bahwa perbedaan penting adalah bahwa "pembelajaran mesin" membutuhkan "mesin". Secara khusus, ini menyiratkan agensi . Hasilnya tidak akan dikonsumsi dengan santai oleh manusia. Sebaliknya, hasilnya akan menjadi input untuk siklus tertutup di mana sistem otomatis meningkatkan kinerjanya.

Sistem Tertutup

Ini sangat sejalan dengan jawaban Sean Easter, tetapi saya hanya ingin menekankan bahwa dalam aplikasi komersial, sebuah mesin melihat hasil dan bertindak atas mereka . Contoh klasik adalah algoritma CineMatch yang menjadi target Hadiah Netflix. Manusia dapat melihat output dari CineMatch dan mempelajari fitur menarik tentang penonton film. Tapi itu bukan alasan mengapa itu ada. Tujuan CineMatch adalah untuk menyediakan mekanisme di mana server Netflix dapat menyarankan film kepada pelanggan yang akan mereka nikmati. Output dari model statistik masuk ke layanan yang merekomendasikan, yang pada akhirnya menghasilkan lebih banyak input sebagai film tingkat pelanggan, beberapa di antaranya dipilih berdasarkan saran dari CineMatch.

Sistem terbuka

Di sisi lain, jika seorang peneliti menggunakan algoritma untuk menghasilkan hasil statistik yang ditampilkan dalam presentasi kepada manusia lain, maka peneliti tersebut jelas-jelas tidak terlibat dalam pembelajaran mesin . Bagi saya ini adalah pembelajaran manusia . Analisis dilakukan oleh mesin, tetapi bukan mesin yang melakukan pembelajaran , per se. Sekarang, ini adalah "pembelajaran mesin" sampai-sampai otak manusia tidak mengalami semua input sampel dan memperoleh hasil statistik "secara biologis". Tapi saya akan menyebutnya "statistik" karena inilah yang dilakukan para ahli statistik sejak bidang ini ditemukan.

Kesimpulan

Jadi, saya akan menjawab pertanyaan ini dengan bertanya: "Siapa yang mengkonsumsi hasilnya?" Jika jawabannya adalah: "manusia", maka itu "statistik". Jika jawabannya adalah: "perangkat lunak", maka itu "pembelajaran mesin." Dan ketika kami mengatakan bahwa "perangkat lunak mengkonsumsi hasilnya", kami tidak bermaksud bahwa perangkat lunak itu menyimpannya di suatu tempat untuk pengambilan nanti. Kami berarti melakukan perilaku yang ditentukan oleh hasil dalam loop tertutup .

Manusia mesin pemotong rumput
sumber
8
Ini adalah poin yang masuk akal, tetapi saya pikir dalam praktiknya model ML sering diserahkan kepada orang untuk diartikan & bekerja dengan.
gung - Reinstate Monica
1
Saya akan mengatakan itu karena ML sebagai suatu bidang telah melahirkan berbagai alat yang bermanfaat yang dimanfaatkan oleh para ahli statistik , bahkan jika itu bukan yang mereka ingin sebut sebagai diri mereka sendiri, untuk tujuan pemasaran. ;)
Lawnmower Man
Saya sangat setuju dengan @gung; mirip dengan jawaban lain, saya setuju bahwa ini lebih sering menjadi motivasi bagi orang-orang yang menyebut diri mereka "peneliti ML", yang jelas bukan garis yang menentukan. Dua contoh tandingan: sistem rekomendasi dianggap sebagai area penelitian ML, tetapi hasilnya dimasukkan langsung ke manusia. Filter Kalman sangat sering digunakan dalam navigasi untuk pilot otomatis, tanpa manusia di loop, namun biasanya dianggap sebagai metodologi statistik.
Cliff AB
-1

Menurut pendapat saya, orang dapat berbicara tentang pembelajaran mesin ketika mesin diprogram untuk menyimpulkan parameter beberapa model menggunakan beberapa data.

Jika regresi linier dilakukan oleh mesin, maka itu memenuhi syarat.

Jika dilakukan dengan tangan, maka tidak.

Definisi yang bergantung pada prevalensi beberapa agen (seperti Excel), atau peningkatan berulang (seperti yang disarankan Sean Easter di atas), entah bagaimana mencoba memisahkannya dari statistik atau tergantung pada apa yang harus dilakukan dengan hasil akan terbukti tidak konsisten, menurut pendapat saya.

Ytsen de Boer
sumber
3
Jadi jika Anda menghitung regresi, atau kNN, atau pohon keputusan, menggunakan kertas dan pensil dan mendapatkan hasil yang sama seperti yang dihitung pada komputer, maka dalam kasus pertama itu akan menjadi pembelajaran mesin dan yang kedua tidak ..? Di sisi lain, jika Anda menggunakan komputer untuk secara acak menetapkan beberapa nilai sebagai "parameter" dari model Anda, maka Anda akan memenuhi syarat sebagai pembelajaran mesin karena dilakukan oleh mesin? Definisi ini tampaknya tidak masuk akal ...
Tim
Anda tidak bisa menyebutnya pembelajaran mesin jika Anda tidak menggunakan mesin. Bagaimanapun, ini adalah mesin yang belajar. Dan saya benar-benar telah menggunakan model yang "mempelajari" parameter mereka dengan proses acak (Monte Carlo). Namun, saya harus mengakui bahwa ada langkah validasi yang terlibat setelahnya.
Ytsen de Boer
2
Algoritma seperti Support Vector Machines disebut sebagai "mesin" untuk alasan historis, karena pada hari-hari awal orang akan harus membangun aktual mesin / komputer untuk menjalankannya ( stats.stackexchange.com/questions/261041/... ), itu tidak ada untuk lakukan dengan "algoritma yang dijalankan pada mesin". Selain itu, model time-series seperti ARIMA yang tidak dalam lingkup pembelajaran mesin, tetapi statistik, dan mereka yang berjalan di komputer.
Tim