Dua Budaya: statistik vs pembelajaran mesin?

420

Tahun lalu, saya membaca posting blog dari Brendan O'Connor yang berjudul "Statistics vs. Machine Learning, fight!" yang membahas beberapa perbedaan antara kedua bidang. Andrew Gelman menanggapi hal ini dengan baik :

Simon Blomberg:

Dari paket fortune R: Mengutip secara provokatif, 'pembelajaran mesin adalah statistik dikurangi pengecekan model dan asumsi'. - Brian D. Ripley (tentang perbedaan antara pembelajaran mesin dan statistik) useR! 2004, Wina (Mei 2004) :-) Salam Musim!

Andrew Gelman:

Dalam hal ini, mungkin kita harus menyingkirkan pengecekan model dan asumsi lebih sering. Maka mungkin kita akan dapat memecahkan beberapa masalah yang dapat dipecahkan oleh orang yang mempelajari mesin tetapi kita tidak bisa!

Ada juga makalah "Pemodelan Statistik: The Two Cultures" oleh Leo Breiman pada tahun 2001 yang berpendapat bahwa ahli statistik terlalu bergantung pada pemodelan data, dan bahwa teknik pembelajaran mesin membuat kemajuan dengan mengandalkan mengandalkan akurasi prediksi model.

Apakah bidang statistik berubah selama dekade terakhir sebagai tanggapan terhadap kritik-kritik ini? Apakah kedua budaya masih ada atau statistik telah berkembang untuk merangkul teknik pembelajaran mesin seperti jaringan saraf dan mendukung mesin vektor?

Shane
sumber
21
Terima kasih @robin; membuat CW. Meskipun saya tidak sepenuhnya melihat ini sebagai "argumentatif"; ada dua bidang yang saling memberi informasi (ini fakta), dan pertanyaannya adalah seberapa banyak mereka berevolusi bersama selama dekade terakhir.
Shane
16
Tambahkan budaya ketiga: penambangan data . Pembelajar mesin dan penambang data berbicara bahasa yang sangat berbeda. Biasanya, peserta didik mesin bahkan tidak mengerti apa yang berbeda dalam data mining. Bagi mereka, itu hanya pembelajaran tanpa pengawasan; mereka mengabaikan aspek manajemen data dan menerapkan penggalian data kata kunci ke pembelajaran mesin, juga, menambah kebingungan.
Anony-Mousse
4
Ada pertanyaan serupa tentang penambangan data dan statistik
naught101
2
Diskusi yang menarik di blog Wasserman .
2
Tampaknya bagi saya bahwa sebenarnya hubungan antara ML dan statistik tidak cukup ditekankan. Banyak siswa CS mengabaikan belajar apa pun tentang statistik selama hari-hari dasar mereka karena mereka tidak memahami pentingnya statistik yang kuat didasarkan dalam melaksanakan tugas ML. Mungkin bahkan banyak departemen CS di seluruh dunia akan lambat bertindak juga. Itu akan terbukti menjadi kesalahan yang sangat mahal dan saya tentu berharap ada lebih banyak kesadaran tentang pentingnya pengetahuan statistik di CS. Pada dasarnya ML = Statistik dalam banyak hal.
xji

Jawaban:

195

Saya pikir jawaban untuk pertanyaan pertama Anda hanya di afirmatif. Ambil isu Ilmu Statistik, JASA, Catatan Statistik selama 10 tahun terakhir dan Anda akan menemukan makalah tentang peningkatan, SVM, dan jaringan saraf, meskipun area ini kurang aktif sekarang. Para ahli statistik telah menyesuaikan karya Valiant dan Vapnik, tetapi di sisi lain, para ilmuwan komputer telah menyerap karya Donoho dan Talagrand. Saya tidak berpikir ada banyak perbedaan dalam ruang lingkup dan metode lagi. Saya tidak pernah membeli argumen Breiman bahwa orang-orang CS hanya tertarik meminimalisir kerugian menggunakan karya apa pun. Pandangan itu sangat dipengaruhi oleh partisipasinya dalam konferensi Neural Networks dan pekerjaan konsultasinya; tetapi PAC, SVM, Boosting memiliki semua fondasi yang kuat. Dan hari ini, tidak seperti 2001, Statistik lebih mementingkan properti sampel terbatas,

Tapi saya pikir masih ada tiga perbedaan penting yang tidak akan segera hilang.

  1. Makalah Statistik Metodologis masih sangat formal dan deduktif, sedangkan peneliti Machine Learning lebih toleran terhadap pendekatan baru bahkan jika mereka tidak datang dengan bukti yang terlampir;
  2. Komunitas ML terutama berbagi hasil dan publikasi baru dalam konferensi dan proses terkait, sedangkan ahli statistik menggunakan makalah jurnal. Ini memperlambat kemajuan dalam Statistik dan identifikasi peneliti bintang. John Langford memiliki posting yang bagus tentang masalah ini dari waktu yang lalu;
  3. Statistik masih mencakup bidang-bidang yang (untuk saat ini) tidak terlalu mempedulikan ML, seperti desain survei, pengambilan sampel, statistik industri dll
gappy
sumber
20
Pos yang bagus! Perhatikan bahwa Vapnick memiliki gelar PhD dalam statistik. Saya tidak yakin ada banyak ilmuwan komputer yang tahu nama Talagrand dan saya yakin 0,01% dari mereka dapat menyatakan dengan memori salah satu hasil talagrand :) bisakah Anda? Saya tidak tahu karya Valiant :)
robin girard
Saya melihat jawaban yang berbeda ketika datang ke penelitian dan aplikasi akademik. Saya pikir Anda menjawab dalam konteks yang pertama. Dalam aplikasi saya pikir perbedaan terbesar adalah dalam cara memperluas bidang. ML melalui saluran sains data menerima semua orang yang dapat kode, secara harfiah. Dalam statistik Anda masih memerlukan gelar formal dalam statistik atau bidang dekat untuk memasuki angkatan kerja.
Aksakal
1
Baik sampling survei maupun statistik industri adalah bidang bernilai multi-miliar dolar (bagian metode penelitian survei dari American Statistics Association adalah yang terbesar ketiga setelah biometrik dan konsultasi, dan yang terakhir mencakup sejumlah besar ahli statistik industri juga. Ada bagian terpisah mengenai kualitas , dan ada hal-hal Six-Sigma yang terpisah dan metode kontrol kualitas lainnya di luar sana, tidak semuanya sepenuhnya dalam statistik). Keduanya memiliki kekurangan ahli statistik karena tenaga kerja baby boomer saat ini yang datang untuk bekerja di daerah ini pada 1960-an sudah pensiun.
Tugas
4
Sementara beberapa orang mendapatkan pekerjaan mereka dengan berpose di karpet merah di konferensi, orang lain menemukan pekerjaan mereka dengan menerapkan metode di dunia nyata. Orang-orang yang terakhir tidak memiliki yang banyak minat dalam mengidentifikasi bintang apapun; mereka lebih suka mengidentifikasi metode yang berhasil, meskipun pada banyak kesempatan, setelah beberapa tahun di bidang yang diberikan, Anda dituntun ke nama yang sama berulang-ulang.
Tugas
Mengapa pengambilan sampel tidak menjadi perhatian bagi ML? Bukankah itu sangat mirip dengan masalah memiliki data pelatihan yang tepat berlabel di ML?
gerrit
169

Perbedaan terbesar yang saya lihat di antara masyarakat adalah bahwa statistik menekankan inferensi, sedangkan pembelajaran mesin menekankan prediksi. Saat Anda melakukan statistik, Anda ingin menyimpulkan proses dengan mana data yang Anda hasilkan. Ketika Anda melakukan pembelajaran mesin, Anda ingin tahu bagaimana Anda bisa memprediksi seperti apa data yang akan datang seperti beberapa variabel.

Tentu saja keduanya tumpang tindih. Mengetahui bagaimana data dihasilkan akan memberi Anda beberapa petunjuk tentang prediksi yang baik, misalnya. Namun, salah satu contoh perbedaannya adalah bahwa pembelajaran mesin telah berurusan dengan masalah p >> n (lebih banyak fitur / variabel daripada sampel pelatihan) sejak masih bayi, sedangkan statistik baru mulai serius tentang masalah ini. Mengapa? Karena Anda masih dapat membuat prediksi yang baik ketika p >> n, tetapi Anda tidak dapat membuat kesimpulan yang sangat baik tentang variabel apa yang sebenarnya penting dan mengapa.

dsimcha
sumber
13
Mungkinkah ini (terlalu) disederhanakan sebagai sesuatu seperti perbedaan antara model generatif dan diskriminatif?
Wayne
5
"Seseorang harus menyelesaikan masalah [klasifikasi] secara langsung dan tidak pernah menyelesaikan masalah yang lebih umum sebagai langkah perantara ..." - Vapnik
Wayne
3
@ MBb: Saya tidak bermaksud mengatakan bahwa tidak ada inferensi yang dapat dilakukan, hanya saja itu bukan tujuan utama dan yang biasanya p >> n dalam ML, membuatnya jauh lebih sulit.
dsimcha
2
Saya sangat tidak setuju dengan pandangan ini. Terlihat salah. Hal-hal seperti jaringan saraf berulang juga mencoba menyimpulkan proses, dan bahkan melanjutkan dan menghasilkan urutan baru.
manusia gua
2
Jadi bagaimana dengan robot? Robotika probabilistik sebagian besar berfokus pada inferensi, dan cukup dominan dalam aplikasi. Tapi "rasa" masih berbeda dari statistik (dan lebih banyak rekayasa dibandingkan dengan mesin / pembelajaran; yaitu analisis / kontrol real-time)
GeoMatt22
134

Bayesian: "Halo, Machine Learner!"

Frequentist: "Halo, Machine Learner!"

Machine Learning: "Saya dengar kalian ahli dalam hal-hal. Berikut ini beberapa data."

F: "Ya, mari kita tulis model dan kemudian hitung MLE."

B: "Hei, F, bukan itu yang Anda katakan kemarin! Saya punya beberapa data univariat dan saya ingin memperkirakan varians, dan saya menghitung MLE. Kemudian Anda menerkam saya dan menyuruh saya untuk membagi dengan alih-alih oleh nn-1n . "

F: "Ah ya, terima kasih sudah mengingatkan saya. Saya sering berpikir bahwa saya seharusnya menggunakan MLE untuk semuanya, tapi saya tertarik pada estimator yang tidak bias dan sebagainya."

ML: "Eh, filosofis apa ini? Apa itu membantu saya?"

F: "OK, estimator adalah kotak hitam, Anda memasukkan data dan memberi Anda beberapa angka. Kami sering tidak peduli tentang bagaimana kotak itu dibangun, tentang prinsip apa yang digunakan untuk mendesainnya. Misalnya, saya tidak tahu cara menurunkan aturan . "÷(n-1)

ML: "Jadi, peduli apa?"

F: "Evaluasi."

ML: "Saya suka suara itu."

F: "Kotak hitam adalah kotak hitam. Jika seseorang mengklaim penaksir tertentu adalah penaksir tidak bias untuk , maka kami mencoba banyak nilai θ pada gilirannya, menghasilkan banyak sampel dari masing-masing berdasarkan beberapa model yang diasumsikan, mendorong mereka melalui penaksir , dan temukan estimasi rata-rata θ . Jika kita dapat membuktikan bahwa estimasi yang diharapkan sama dengan nilai sebenarnya, untuk semua nilai, maka kita katakan itu tidak bias. "θθθ

ML: "Kedengarannya bagus! Kedengarannya sering bahwa orang pragmatis. Anda menilai setiap kotak hitam dari hasilnya. Evaluasi adalah kuncinya."

F: "Memang! Saya mengerti kalian mengambil pendekatan yang sama. Validasi silang, atau sesuatu? Tapi itu terdengar berantakan bagi saya."

ML: "Berantakan?"

F: "Gagasan menguji estimator Anda pada data nyata tampak berbahaya bagi saya. Data empiris yang Anda gunakan mungkin memiliki semua jenis masalah dengannya, dan mungkin tidak berperilaku sesuai dengan model yang kami setujui untuk evaluasi."

ML: "Apa? Saya pikir Anda mengatakan Anda telah membuktikan beberapa hasil? Bahwa penaksir Anda akan selalu tidak bias, untuk semua ."θ

F: "Ya. Walaupun metode Anda mungkin bekerja pada satu dataset (dataset dengan data kereta dan tes) yang Anda gunakan dalam evaluasi Anda, saya dapat membuktikan bahwa tambang saya akan selalu berfungsi."

ML: "Untuk semua dataset?"

F: "Tidak."

ML: "Jadi metode saya sudah divalidasi silang pada satu dataset. Anda belum mengetes milik Anda pada dataset nyata?"

F: "Benar."

ML: "Kalau begitu, saya yang memimpin! Metode saya lebih baik daripada metode Anda. Metode itu memprediksi kanker 90% setiap saat. 'Bukti' Anda hanya valid jika seluruh dataset berlaku sesuai dengan model yang Anda asumsikan."

F: "Emm, ya, saya kira."

ML: "Dan interval itu memiliki cakupan 95% . Tapi saya tidak heran kalau itu hanya berisi nilai yang benar 20% dari waktu?"θ

F: "Itu benar. Kecuali jika datanya benar-benar normal (atau apa pun), bukti saya tidak berguna."

ML: "Jadi evaluasi saya lebih dapat dipercaya dan komprehensif? Itu hanya bekerja pada dataset yang saya coba sejauh ini, tapi setidaknya itu set data nyata, kutil dan semua. Di sana Anda, mencoba untuk mengklaim Anda lebih konservatif 'dan' teliti 'dan Anda tertarik untuk memeriksa model dan hal-hal lainnya. "

B: (menyela) "Hai teman-teman, maaf mengganggu. Saya ingin melangkah dan menyeimbangkan semuanya, mungkin menunjukkan beberapa masalah lain, tapi saya benar-benar suka menonton rekan kerja saya yang sering menggeliat."

F: "Woah!"

ML: "Baik, anak-anak. Itu semua tentang evaluasi. Penduga adalah kotak hitam. Data masuk, data keluar. Kami menyetujui, atau tidak menyetujui, penduga berdasarkan bagaimana kinerjanya dalam evaluasi. Kami tidak peduli tentang 'resep' atau 'prinsip desain' yang digunakan. "

F: "Ya. Tetapi kami memiliki ide yang sangat berbeda tentang evaluasi mana yang penting. ML akan melakukan pelatihan-dan-uji pada data nyata. Sedangkan saya akan melakukan evaluasi yang lebih umum (karena melibatkan bukti yang berlaku luas) dan juga lebih terbatas (karena saya tidak tahu apakah dataset Anda sebenarnya diambil dari asumsi pemodelan yang saya gunakan saat merancang evaluasi saya.) "

ML: "Evaluasi apa yang kamu pakai, B?"

F: (menyela) "Hei. Jangan membuatku tertawa. Dia tidak mengevaluasi apa pun. Dia hanya menggunakan keyakinan subyektifnya dan menjalankannya. Atau sesuatu."

B: "Itulah interpretasi yang umum. Tetapi mungkin juga untuk mendefinisikan Bayesianisme dengan evaluasi yang disukai. Kemudian kita dapat menggunakan gagasan bahwa tidak ada di antara kita yang peduli pada kotak hitam, kita hanya peduli pada berbagai cara untuk mengevaluasi."

B melanjutkan: "Contoh klasik: Tes medis. Hasil tes darah adalah Positif atau Negatif. Seorang yang sering tertarik, dari orang-orang yang Sehat, berapa proporsi yang mendapatkan hasil Negatif. Dan juga, berapa proporsi orang yang sakit akan dapatkan Positif. Sering kali akan menghitung ini untuk setiap metode pengujian darah yang sedang dipertimbangkan dan kemudian merekomendasikan agar kami menggunakan tes yang mendapat skor skor terbaik. "

F: "Tepat sekali. Apa lagi yang Anda inginkan?"

B: "Bagaimana dengan orang-orang yang mendapat hasil tes Positif? Mereka ingin tahu 'orang-orang yang mendapatkan hasil Positif, berapa banyak yang akan Sakit?' dan 'dari mereka yang mendapatkan hasil Negatif, berapa banyak yang Sehat?' "

ML: "Ah ya, sepertinya itu pertanyaan yang lebih baik untuk ditanyakan."

F: "HERESY!"

B: "Ini dia lagi. Dia tidak suka ke mana arahnya."

ML: "Ini tentang 'prior', bukan?"

F: "EVIL".

B: "Ngomong-ngomong, ya, kamu benar ML. Untuk menghitung proporsi orang-orang yang berakibat positif yang sakit, kamu harus melakukan satu dari dua hal. Salah satu opsi adalah menjalankan tes pada banyak orang dan hanya mengamati proporsi yang relevan. Berapa banyak dari orang-orang yang mati karena penyakit, misalnya. "

ML: "Kedengarannya seperti apa yang saya lakukan. Gunakan latihan dan tes."

B: "Tetapi Anda dapat menghitung angka-angka ini di muka, jika Anda mau membuat asumsi tentang tingkat Penyakit dalam populasi. Orang sering juga membuat perhitungan terlebih dahulu, tetapi tanpa menggunakan tingkat Penyakit tingkat populasi ini."

F: "LEBIH BANYAK ASUMSI."

B: "Oh, tutup mulut. Sebelumnya, Anda ketahuan. ML menemukan bahwa Anda juga menyukai asumsi yang tidak berdasar seperti orang lain. Peluang cakupan 'terbukti' Anda tidak akan menumpuk di dunia nyata kecuali semua asumsi Anda berdiri. Mengapa asumsi saya sebelumnya sangat berbeda? Anda memanggil saya gila, namun Anda berpura-pura asumsi Anda adalah karya analisis konservatif, solid, bebas asumsi. "

B (lanjutan): "Ngomong-ngomong, ML, seperti yang saya katakan. Bayesian menyukai jenis evaluasi yang berbeda. Kami lebih tertarik mengkondisikan data yang diamati, dan menghitung akurasi penduga kami. Kami tidak dapat melakukan evaluasi ini tanpa menggunakan Tapi yang menarik adalah, begitu kita memutuskan bentuk evaluasi ini, dan begitu kita memilih sebelumnya, kita punya 'resep' otomatis untuk membuat penduga yang tepat. Seringkali orang itu tidak punya resep seperti itu. estimator yang tidak bias untuk model yang kompleks, ia tidak memiliki cara otomatis untuk membangun estimator yang sesuai. "

ML: "Dan ya? Anda bisa otomatis membuat estimator?"

B: "Ya. Saya tidak memiliki cara otomatis untuk membuat penaksir yang tidak bias, karena saya pikir bias adalah cara yang buruk untuk mengevaluasi penaksir. Tetapi mengingat estimasi bersyarat pada data yang saya sukai, dan sebelumnya, saya dapat menghubungkan prior dan kemungkinan memberi saya estimator. "

ML: "Jadi, mari kita rekap. Kita semua punya cara berbeda untuk mengevaluasi metode kita, dan kita mungkin tidak akan pernah sepakat tentang metode mana yang terbaik."

B: "Ya, itu tidak adil. Kita bisa mencampur dan mencocokkannya. Jika ada di antara kita yang memiliki data pelatihan yang berlabel bagus, kita mungkin harus mengujinya. Dan umumnya kita semua harus menguji sebanyak mungkin asumsi yang kita bisa. Dan beberapa sering "Bukti mungkin juga menyenangkan, memprediksi kinerja di bawah beberapa model yang diduga menghasilkan data."

F: "Ya teman-teman. Mari kita bersikap pragmatis tentang evaluasi. Dan sebenarnya, saya akan berhenti terobsesi pada properti sampel tak terbatas. Saya telah meminta para ilmuwan memberi saya sampel tak terbatas, tetapi mereka masih belum melakukannya. Ini saatnya bagi saya untuk fokus lagi pada sampel yang terbatas. "

ML: "Jadi, kami hanya punya satu pertanyaan terakhir. Kami banyak berdebat tentang cara mengevaluasi metode kami, tetapi bagaimana kami membuat metode kami."

B: "Ah. Seperti yang saya dapatkan sebelumnya, kami orang Bayesian memiliki metode umum yang lebih kuat. Mungkin rumit, tapi kami selalu bisa menulis semacam algoritma (mungkin bentuk naif MCMC) yang akan diambil dari posterior kami. "

F (menyela): "Tapi mungkin ada bias."

B: "Jadi, mungkin metode Anda. Perlu saya ingatkan Anda bahwa MLE sering bias? Kadang-kadang, Anda mengalami kesulitan besar dalam menemukan estimator yang tidak bias, dan bahkan ketika Anda melakukannya, Anda memiliki estimator bodoh (untuk beberapa model yang sangat kompleks) yang akan mengatakan varians negatif. Dan Anda menyebut itu tidak bias. Tidak dapat mengakomodasi, ya. Tetapi bermanfaat, tidak! "

ML: "Baik teman. Kamu mengomel lagi. Izinkan saya mengajukan pertanyaan, F. Apakah Anda pernah membandingkan bias metode Anda dengan bias metode B, ketika Anda berdua bekerja pada masalah yang sama?"

F: "Ya. Sebenarnya, saya benci mengakuinya, tetapi pendekatan B terkadang memiliki bias dan MSE yang lebih rendah daripada estimator saya!"

ML: "Pelajarannya di sini adalah, sementara kita sedikit tidak setuju pada evaluasi, tidak ada dari kita yang memonopoli cara membuat penduga yang memiliki properti yang kita inginkan."

B: "Ya, kita harus membaca karya masing-masing sedikit lebih banyak. Kita dapat memberikan inspirasi satu sama lain untuk penaksir. Kita mungkin menemukan bahwa penaksir lain bekerja dengan baik, out-of-the-box, pada masalah kita sendiri."

F: "Dan saya harus berhenti terobsesi tentang bias. Estimator yang tidak bias mungkin memiliki varian yang konyol. Saya kira kita semua harus 'mengambil tanggung jawab' atas pilihan yang kita buat dalam cara kita mengevaluasi dan properti yang ingin kita lihat dalam estimator kita. Kita tidak dapat berada di belakang filosofi. Cobalah semua evaluasi yang Anda bisa. Dan saya akan terus melihat-lihat literatur Bayesian untuk mendapatkan ide-ide baru untuk penduga! "

B: "Sebenarnya, banyak orang tidak benar-benar tahu apa filosofi mereka sendiri. Saya bahkan tidak yakin. Jika saya menggunakan resep Bayesian, dan kemudian membuktikan beberapa hasil teoretis yang bagus, bukankah itu berarti saya Saya adalah seorang frequentist? Seorang frequentist peduli dengan bukti-bukti di atas tentang kinerja, dia tidak peduli dengan resep. Dan jika saya melakukan beberapa tes dan kereta (atau juga), apakah itu berarti saya seorang pelajar mesin? "

ML: "Kelihatannya kita semua sangat mirip."

Aaron McDaid
sumber
8
Bagi pembaca yang akan membaca tanggapan ini sampai akhir, saya sarankan untuk menambahkan pesan singkat yang dapat dibawa pulang (dan untuk memberikan kutipan yang sesuai jika berlaku).
chl
Dengan -2 suara sejauh ini, saya pikir tidak banyak yang bisa saya lakukan untuk menyelamatkannya :) Saya pikir akhirnya, di mana mereka semua sepakat satu sama lain, dan mengakui bahwa mereka dapat menggunakan metode satu sama lain tanpa khawatir satu sama lain filosofi, adalah 'pesan yang dapat dibawa pulang'.
Aaron McDaid
10
Tidak ada kutipan yang diperlukan. Saya hanya membuatnya sendiri. Itu mungkin tidak terlalu baik, itu didasarkan pada (mis) saya sendiri-interpretasi argumen yang saya miliki dengan sejumlah kecil rekan selama bertahun-tahun.
Aaron McDaid
3
Saya pernah melihat dialog semacam itu (lebih pendek) di masa lalu, dan menurut saya itu menarik. Saya juga prihatin dengan downvotes, maka saran saya untuk meletakkan ringkasan singkat di bagian atas sehingga memotivasi pembaca untuk membaca sisa posting Anda.
chl
3
13/10 akan berdebat lagi
410_Gone
67

Dalam diskusi seperti itu, saya selalu mengingat kutipan Ken Thompson yang terkenal

Jika ragu, gunakan brute force.

Dalam hal ini, pembelajaran mesin adalah keselamatan ketika asumsi sulit ditangkap; atau setidaknya itu jauh lebih baik daripada menebak mereka salah.


sumber
2
Dengan peningkatan kemampuan komputasi tahun ini dan autoencoder dan teknik terkait, ini lebih benar dari sebelumnya.
Firebug
Untuk memecahkan masalah, insinyur menggunakan rumus, teknik, dan prosedur, yang telah mereka gunakan sebelumnya dan yakin akan keberhasilan mereka ... Biasanya, ini disebut penggunaan Brute Force atau penggunaan Thumb Rules ... Rumus baru, teknik, dan prosedur digunakan dalam proses langkah demi langkah ... Kegiatan rekayasa adalah kegiatan kelompok - di mana Insinyur, Teknisi, dan Buruh manual bekerja bersama. Ketika prosedur baru diperkenalkan, perlu waktu untuk melatih Teknisi dan Buruh dengan prosedur ini. Jadi modernisasi diperkenalkan dalam proses evolusi.
b.sahu
64

Apa yang mendorong pemisahan lebih dari yang seharusnya adalah leksikon setiap disiplin ilmu.

Ada banyak contoh di mana ML menggunakan satu istilah dan Statistik menggunakan istilah yang berbeda - tetapi keduanya merujuk pada hal yang sama - baik, Anda akan mengharapkan itu, dan itu tidak menyebabkan kebingungan permanen (misalnya, fitur / atribut versus harapan variabel, atau jaringan saraf / MLP versus proyeksi-pengejaran).

Yang jauh lebih menyusahkan adalah bahwa kedua disiplin ilmu menggunakan istilah yang sama untuk merujuk pada konsep yang sama sekali berbeda.

Beberapa contoh:

Fungsi Kernel

Dalam ML, fungsi kernel digunakan dalam pengklasifikasi (mis., SVM) dan tentu saja dalam mesin kernel. Istilah ini mengacu pada fungsi sederhana ( cosinus, sigmoidal, rbf, polinomial ) untuk memetakan non-linear yang dapat dipisahkan ke ruang input baru, sehingga data sekarang dapat dipisahkan secara linear dalam ruang input baru ini. (Dibandingkan menggunakan model non-linear untuk memulai).

Dalam statistik, fungsi kernel adalah fungsi pembobotan yang digunakan dalam estimasi kerapatan untuk memperlancar kurva kerapatan.

Regresi

Dalam ML, algoritme prediktif, atau implementasi algoritme yang mengembalikan label kelas "classifier" (kadang-kadang) disebut sebagai mesin --eg, mesin vektor dukungan , mesin kernel . Mitra untuk mesin adalah regressor , yang mengembalikan skor (variabel kontinu) - misalnya, mendukung regresi vektor .

Jarang algoritma memiliki nama berbeda berdasarkan mode - misalnya, MLP adalah istilah yang digunakan apakah itu mengembalikan label kelas atau variabel kontinu.

Dalam Statistik, regresi , jika Anda mencoba membangun model berdasarkan data empiris, untuk memprediksi beberapa variabel respons berdasarkan pada satu atau lebih variabel penjelas atau lebih banyak variabel - maka Anda sedang melakukan analisis regresi . Tidak masalah apakah output adalah variabel kontinu atau label kelas (misalnya, regresi logistik). Jadi misalnya, regresi kuadrat-terkecil mengacu pada model yang mengembalikan nilai kontinu; regresi logistik di sisi lain, mengembalikan estimasi probabilitas yang kemudian didiskritkan ke label kelas.

Bias

Dalam ML, istilah bias dalam algoritma secara konseptual identik dengan istilah intersep yang digunakan oleh ahli statistik dalam pemodelan regresi.

Dalam Statistik, bias adalah kesalahan non-acak - yaitu, beberapa fenomena mempengaruhi seluruh data yang diatur dalam arah yang sama, yang pada gilirannya berarti bahwa kesalahan semacam ini tidak dapat dihapus dengan melakukan resampling atau menambah ukuran sampel.

doug
sumber
19
Dalam statistik, bias tidak sama dengan kesalahan. Kesalahan adalah murni acak, bias tidak. Anda memiliki bias ketika Anda tahu bahwa nilai yang diharapkan dari estimasi Anda tidak sama dengan nilai sebenarnya.
Joris Meys
2
(@Joris Atau bahkan jika Anda tidak mengetahuinya! Kedengarannya basi, tetapi hanya mencari tahu jika ada bias bisa menjadi masalah praktis yang cukup. Dari data saja, seberapa yakin Anda bahwa estimasi parameter regresi bebas dari variabel yang dihilangkan) bias?) Ini adalah kesalahpahaman umum bahwa bias adalah fitur data, bukan properti estimator; Saya ingin tahu apakah ini berasal dari penggunaan non-teknis seperti "survei itu bias!" Para ahli statistik juga tidak selalu konsisten dengan istilah-istilah seperti "kesalahan": kesalahan kuadrat rata-rata (dari estimator) termasuk komponen yang bias-kuadrat, sehingga "kesalahan" tidak "murni acak".
Silverfish
2
Saya pikir istilah "mesin" dalam SVM harus dikaitkan dengan selera pribadi Vladimir Vapnic. Saat ini, saya tidak berpikir itu tidak digunakan untuk nama classifier lain.
iliasfl
3
E[X^-X]
1
[0,1]1
26

Perbedaan terbesar yang saya perhatikan dalam satu tahun terakhir adalah:

  • Pakar pembelajaran mesin tidak menghabiskan cukup waktu untuk dasar-dasar, dan banyak dari mereka tidak memahami pengambilan keputusan yang optimal dan aturan penilaian akurasi yang tepat. Mereka tidak mengerti bahwa metode prediksi yang tidak membuat asumsi memerlukan ukuran sampel yang lebih besar daripada yang melakukannya.
  • Kami ahli statistik menghabiskan terlalu sedikit waktu untuk mempelajari praktik pemrograman yang baik dan bahasa komputasi baru. Kami terlalu lambat untuk berubah dalam hal menghitung dan mengadopsi metode baru dari literatur statistik.
Frank Harrell
sumber
2
Catatan lain adalah bahwa kita para ahli statistik cenderung membatasi diri kita pada metode yang dapat kita buktikan dengan matematika yang akan bekerja dengan baik (di bawah seperangkat asumsi yang mungkin konyol), terutama ketika menyangkut publikasi. Orang-orang yang belajar mesin sangat senang menggunakan metode yang secara empiris bekerja dengan baik pada beberapa dataset. Sebagai hasilnya, saya pikir literatur ML bergerak lebih cepat tetapi juga membutuhkan lebih banyak penyaringan melalui kekonyolan.
Cliff AB
25

Pembelajaran Mesin tampaknya memiliki dasar dalam pragmatis - pengamatan Praktis atau simulasi realitas. Bahkan di dalam statistik, "pengecekan model dan asumsi" yang tidak ada artinya dapat menyebabkan metode membuang yang berguna.

Sebagai contoh, beberapa tahun yang lalu, model kebangkrutan pertama yang tersedia secara komersial (dan berfungsi) yang diterapkan oleh biro kredit dibuat melalui model regresi linier lama yang menargetkan hasil 0-1. Secara teknis, itu pendekatan yang buruk, tetapi secara praktis, itu berhasil.

Jay Stevens
sumber
4
itu mirip dengan menggunakan model gravitasi planet untuk lalu lintas perkotaan. Saya merasa itu tidak masuk akal, tetapi sebenarnya bekerja dengan sangat akurat
dassouki
5
Saya tertarik pada pernyataan terakhir: "model kebangkrutan pertama yang tersedia secara komersial (dan berfungsi) yang diterapkan oleh biro kredit diciptakan melalui model regresi linear lama yang menargetkan hasil 0-1". Model mana itu? Saya percaya bahwa model pertama adalah RiskCalc oleh Moody's, dan bahkan versi pertama adalah model regresi logistik. Pengembang model itu bukanlah orang-orang CS dengan latar belakang dalam ML, melainkan dalam ekonometrik.
gappy
2
Saya yakin mereka menggunakan analisis diskriminan sebelum regresi logistik, karena DA ditemukan jauh sebelum LR
Neil McGuigan
1
@gappy Saya sedang memikirkan model Kebangkrutan Konsumen MDS untuk catatan biro kredit individu. Riscalc adalah penilaian risiko kredit untuk perusahaan. Model kebangkrutan MDS berbeda dari model risiko FICO waktu itu dalam bahwa targetnya adalah kebangkrutan dan TIDAK kenakalan kredit (seperti skor asli FICO). Komentar saya kurang tentang spesifikasi ML dalam konteks itu (karena itu hampir tidak digunakan - jika sama sekali - pada saat model BK pertama kali dibangun), tetapi terkait dengan kenyataan bahwa efektivitas praktis tidak harus sama sekali terkait dengan pembatasan teoretis atau dugaan pelanggaran.
Jay Stevens
Hanya ingin tahu mengapa itu secara teknis merupakan pendekatan yang buruk. Karena itu membuat terlalu banyak asumsi penyederhanaan yang akan sangat berbeda dari kenyataan?
xji
25

Saya tidak setuju dengan pertanyaan ini karena menunjukkan bahwa pembelajaran mesin dan statistik adalah ilmu yang berbeda atau saling bertentangan .... ketika yang sebaliknya benar!

pembelajaran mesin menggunakan statistik secara ekstensif ... survei cepat dari setiap paket pembelajaran Mesin atau data mining perangkat lunak akan mengungkapkan teknik Clustering seperti k-means juga ditemukan dalam statistik .... juga akan menunjukkan teknik pengurangan dimensi seperti analisis komponen Utama juga teknik statistik ... bahkan regresi logistik.

Dalam pandangan saya perbedaan utama adalah bahwa statistik tradisional digunakan untuk membuktikan teori yang dipahami sebelumnya dan biasanya analisis dirancang di sekitar teori utama itu. Di mana dengan penambangan data atau pembelajaran mesin, pendekatan yang berlawanan biasanya merupakan norma bahwa kita memiliki hasil, kita hanya ingin menemukan cara untuk memprediksi itu daripada mengajukan pertanyaan atau membentuk teori apakah ini hasilnya!

Mojo
sumber
21

Saya telah berbicara tentang ini di forum berbeda ASA Statistical Consulting eGroup. Respons saya lebih khusus untuk data mining tetapi keduanya berjalan seiring. Kami ahli statistik telah meledek hidung kami di penambang data, ilmuwan komputer, dan insinyur. Ini salah. Saya pikir bagian dari alasan itu terjadi adalah karena kita melihat beberapa orang di bidang itu mengabaikan sifat stokastik masalah mereka. Beberapa ahli statistik menyebut data mining data mengintai atau memancing data. Beberapa orang melakukan pelecehan dan menyalahgunakan metode tetapi ahli statistik telah tertinggal dalam penambangan data dan pembelajaran mesin karena kita melukisnya dengan kuas yang luas. Beberapa hasil statistik besar berasal dari luar bidang statistik. Meningkatkan adalah salah satu contoh penting. Tapi ahli statistik seperti Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman dan yang lainnya mendapatkannya dan kepemimpinan mereka telah membawa ahli statistik ke dalam analisis microarray dan masalah inferensi skala besar lainnya. Jadi, sementara budaya mungkin tidak pernah bertautan, sekarang ada lebih banyak kerja sama dan kolaborasi antara para ilmuwan komputer, insinyur dan ahli statistik.

Michael Chernick
sumber
19

Masalah sebenarnya adalah bahwa pertanyaan ini salah arah. Ini bukan pembelajaran mesin vs statistik, itu adalah pembelajaran mesin melawan kemajuan ilmiah nyata. Jika perangkat pembelajaran mesin memberikan prediksi yang tepat 90% dari waktu tetapi saya tidak bisa mengerti "mengapa", apa kontribusi pembelajaran mesin untuk sains pada umumnya? Bayangkan jika teknik pembelajaran mesin digunakan untuk memprediksi posisi planet: akan ada banyak orang sombong yang berpikir bahwa mereka dapat secara akurat memprediksi sejumlah hal dengan SVM mereka, tetapi apa yang sebenarnya mereka ketahui tentang masalah yang mereka miliki di tangan mereka ? Jelas, sains tidak benar-benar maju dengan prediksi numerik, ia maju melalui model (mental, matematika) yang memungkinkan kita melihat jauh melampaui sekadar angka.

pengguna36080
sumber
1
+1 Ini mengingatkan saya pada penggunaan model dalam ekonomi. Model ekonometrik dibangun untuk beberapa tujuan; yaitu, analisis dan peramalan kebijakan. Secara umum, tidak ada yang benar-benar peduli tentang peramalan - ini adalah simulasi kebijakan yang paling penting. Seperti yang dikatakan David Hendry, model peramalan terbaik belum tentu merupakan model terbaik untuk analisis kebijakan - dan sebaliknya. Perlu melangkah mundur dan berpikir ... Apa tujuan dari model? Pertanyaan apa yang coba kita jawab? Dan bagaimana ini cocok dengan membuat penemuan empiris .
Graeme Walsh
18

Pembelajaran statistik (AKA Machine Learning) berawal pada upaya menciptakan perangkat lunak dengan "belajar dari contoh". Ada banyak tugas yang kami ingin komputer lakukan (misalnya, visi komputer, pengenalan suara, kontrol robot) yang sulit diprogram tetapi untuk itu mudah untuk memberikan contoh pelatihan. Komunitas riset pembelajaran pembelajaran mesin / statistik mengembangkan algoritma untuk mempelajari fungsi dari contoh-contoh ini. Fungsi kerugian biasanya terkait dengan tugas kinerja (visi, pengenalan suara). Dan tentu saja kami tidak punya alasan untuk percaya bahwa ada "model" sederhana yang mendasari tugas-tugas ini (karena kalau tidak, kami akan membuat kode untuk program sederhana itu sendiri). Oleh karena itu, seluruh gagasan untuk melakukan inferensi statistik tidak masuk akal. Tujuannya adalah akurasi prediksi dan tidak ada yang lain.

Seiring waktu, berbagai kekuatan mulai mendorong orang belajar mesin untuk belajar lebih banyak tentang statistik. Salah satunya adalah kebutuhan untuk memasukkan latar belakang pengetahuan dan kendala lain pada proses pembelajaran. Hal ini membuat orang mempertimbangkan model probabilistik generatif, karena ini membuatnya mudah untuk menggabungkan pengetahuan sebelumnya melalui struktur model dan prior pada parameter model dan struktur. Hal ini mengarahkan lapangan untuk menemukan literatur statistik yang kaya di bidang ini. Kekuatan lain adalah penemuan fenomena overfitting. Ini mengarahkan komunitas ML untuk belajar tentang validasi silang dan regularisasi dan sekali lagi kami menemukan literatur statistik yang kaya pada subjek.

Meskipun demikian, fokus dari sebagian besar pekerjaan pembelajaran mesin adalah menciptakan sistem yang menunjukkan kinerja tertentu daripada membuat kesimpulan tentang proses yang tidak diketahui. Ini adalah perbedaan mendasar antara ML dan statistik.

Tom Dietterich
sumber
15

Idealnya seseorang harus memiliki pengetahuan menyeluruh tentang statistik dan pembelajaran mesin sebelum mencoba menjawab pertanyaannya. Saya sangat baru mengenal ML, jadi maafkan saya jika apa yang saya katakan naif.

Saya memiliki pengalaman terbatas dalam SVM dan pohon regresi. Apa yang menurut saya kurang dalam ML dari sudut pandang statistik adalah konsep inferensi yang dikembangkan dengan baik.

Inferensi dalam ML tampaknya hampir secara eksklusif mengacu pada akurasi prediksi, sebagaimana diukur dengan (misalnya) kesalahan klasifikasi rata-rata (MCE), atau tingkat kesalahan seimbang (BER) atau yang serupa. ML memiliki kebiasaan yang sangat baik dalam membagi data secara acak (biasanya 2: 1) menjadi satu set pelatihan dan satu set tes. Model cocok menggunakan set pelatihan dan kinerja (MCE, BER dll) dinilai menggunakan set tes. Ini adalah praktik yang sangat baik dan hanya perlahan-lahan membuat jalan ke statistik arus utama.

ML juga banyak menggunakan metode resampling (terutama cross-validation), yang asal-usulnya tampak dalam statistik.

Namun, ML tampaknya tidak memiliki konsep inferensi sepenuhnya dikembangkan - melampaui akurasi prediksi. Ini memiliki dua hasil.

1) Tampaknya tidak ada apresiasi bahwa setiap prediksi (estimasi parameter dll.) Tunduk pada kesalahan acak dan mungkin kesalahan sistematik (bias). Para ahli statistik akan menerima bahwa ini adalah bagian prediksi yang tak terhindarkan dan akan mencoba dan memperkirakan kesalahannya. Teknik statistik akan mencoba dan menemukan perkiraan yang memiliki bias minimum dan kesalahan acak. Teknik mereka biasanya didorong oleh model proses data, tetapi tidak selalu (mis. Bootstrap).

2) Tampaknya tidak ada pemahaman yang mendalam dalam ML tentang batas-batas penerapan model pada data baru untuk sampel baru dari populasi yang sama (terlepas dari apa yang saya katakan sebelumnya tentang pendekatan set data pelatihan-tes). Berbagai teknik statistik, di antaranya lintas validasi dan ketentuan hukuman yang diterapkan pada metode berbasis kemungkinan, memandu ahli statistik dalam pertukaran antara kekikiran dan kompleksitas model. Pedoman semacam itu dalam ML tampaknya lebih bersifat ad hoc.

Saya telah melihat beberapa makalah dalam ML di mana validasi silang digunakan untuk mengoptimalkan pemasangan banyak model pada set data pelatihan - menghasilkan yang lebih baik dan lebih cocok seiring dengan meningkatnya kompleksitas model. Tampaknya ada sedikit apresiasi bahwa perolehan kecil dalam keakuratan tidak sebanding dengan kompleksitas ekstra dan ini secara alami mengarah pada pemasangan yang berlebihan. Kemudian semua model yang dioptimalkan ini diterapkan pada set uji sebagai pemeriksaan pada kinerja prediktif dan untuk mencegah overfitting. Dua hal telah dilupakan (di atas). Kinerja prediktif akan memiliki komponen stokastik. Kedua pengujian berganda terhadap satu set tes lagi akan menghasilkan over-fitting. Model "terbaik" akan dipilih oleh praktisi ML tanpa penghargaan penuh ia telah memilih dari satu realisasi dari banyak kemungkinan hasil percobaan ini.

Setiap 2 sen saya layak. Kami harus banyak belajar dari satu sama lain.

Thylacoleo
sumber
2
komentar Anda tentang Model "terbaik" akan dipilih oleh praktisi ML ... berlaku juga untuk statistik arus utama. Untuk sebagian besar prosedur pemilihan model, satu syarat kondisi pada model akhir seolah-olah tidak ada pencarian ruang model telah dilakukan (mengingat bahwa rata-rata model cukup baru). Jadi saya tidak berpikir Anda bisa menggunakannya sebagai "klub" untuk mengalahkan praktisi ML, untuk berbicara.
probabilityislogic
Sebagai seorang praktisi ML, saya tidak mengenali gambar yang Anda lukis. Literatur ML hampir semua tentang variasi regularisasi, MDL, Bayesian, SRM dan pendekatan lain untuk mengendalikan kompleksitas model. Dari tempat saya duduk, tampaknya metode stat untuk mengendalikan kompleksitas kurang terstruktur, tetapi itu bias bagi Anda.
Muhammad Alkarouri
13

Pertanyaan ini juga dapat diperluas ke apa yang disebut super-budaya ilmu data pada tahun 2015 David Donoho kertas 50 tahun Ilmu Data , di mana ia menghadapi sudut pandang yang berbeda dari statistik dan ilmu komputer (termasuk pembelajaran mesin), misalnya sudut pandang langsung (dari orang yang berbeda) sehingga:

  • Mengapa Kita Membutuhkan Ilmu Data Ketika Kita Memiliki Statistik Berabad-abad?
  • Ilmu Data adalah statistik.
  • Ilmu Data tanpa statistik adalah mungkin, bahkan diinginkan.
  • Statistik adalah bagian paling tidak penting dari ilmu data.

dan berbagai macam pertimbangan historis, filosofis, misalnya:

Sangat mengejutkan bagaimana, ketika saya meninjau presentasi tentang ilmu data saat ini, di mana statistik secara khusus diberikan sedikit perhatian, saya tidak bisa menghindari memperhatikan bahwa alat, contoh, dan ide yang mendasari yang diajarkan sebagai ilmu data semuanya secara harfiah ditemukan oleh seseorang yang terlatih dalam Ph.D. statistik, dan dalam banyak kasus, perangkat lunak aktual yang digunakan dikembangkan oleh seseorang dengan gelar MA atau Ph.D. dalam statistik. Upaya-upaya yang dikumpulkan para ahli statistik selama berabad-abad terlalu berlebihan untuk ditulis sepenuhnya, dan tidak dapat disembunyikan dalam pengajaran, penelitian, dan latihan Ilmu Data.

Esai ini telah menghasilkan banyak tanggapan dan kontribusi untuk debat.

Laurent Duval
sumber
3
Ini terlihat seperti sebuah makalah yang akan layak disebutkan dalam threads stat statstststexstreet.com/questions/195034 baru-baru ini , saya pikir tidak ada yang menyebutkannya di sana.
amoeba
1
Saya pikir jika Anda memposting jawaban baru di sana meringkas makalah ini, itu akan bagus.
amoeba
Saya akan, dan perlu meringkas semua jawaban yang diberikan untuk diri saya terlebih dahulu
Laurent Duval
12

Saya tidak benar-benar tahu apa perbedaan konseptual / historis antara pembelajaran mesin dan statistik, tetapi saya yakin itu tidak begitu jelas ... dan saya tidak benar-benar tertarik untuk mengetahui apakah saya seorang pelajar mesin atau ahli statistik, saya pikir 10 tahun setelah kertas Breiman, banyak orang berdua ...

Lagi pula, saya menemukan pertanyaan menarik tentang akurasi model prediksi . Kita harus ingat bahwa tidak selalu mungkin untuk mengukur keakuratan model dan lebih tepatnya kita paling sering secara implisit membuat beberapa pemodelan ketika mengukur kesalahan.

Sebagai Contoh, kesalahan absolut rata-rata dalam perkiraan deret waktu adalah rata-rata dari waktu ke waktu dan mengukur kinerja prosedur untuk memperkirakan median dengan asumsi bahwa kinerja, dalam beberapa hal, stasioner dan menunjukkan beberapa properti ergodik . Jika (karena alasan tertentu) Anda perlu memperkirakan suhu rata-rata di bumi selama 50 tahun ke depan dan jika pemodelan Anda berkinerja baik selama 50 tahun terakhir ... itu tidak berarti ...

Lebih umum, (jika saya ingat, ini disebut tidak makan siang gratis) Anda tidak dapat melakukan apa pun tanpa pemodelan ... Selain itu, saya pikir statistik sedang mencoba untuk menemukan jawaban atas pertanyaan: "adalah sesuatu yang signifikan atau tidak", ini adalah pertanyaan yang sangat penting dalam sains dan tidak dapat dijawab melalui proses pembelajaran. Untuk menyatakan John Tukey (apakah dia ahli statistik?):

Kombinasi beberapa data dan hasrat yang kuat untuk mendapatkan jawaban tidak memastikan bahwa jawaban yang masuk akal dapat diekstraksi dari kumpulan data tertentu

Semoga ini membantu !

robin girard
sumber
12

Jelas, kedua bidang jelas menghadapi masalah yang sama tetapi berbeda, dalam cara yang serupa tetapi tidak identik dengan konsep analog tetapi tidak identik, dan bekerja di departemen, jurnal, dan konferensi yang berbeda.

Ketika saya membaca Statistik Power Divergence Cressie dan Read, semuanya berbunyi bagi saya. Formula mereka menggeneralisasikan statistik uji yang biasa digunakan menjadi satu yang bervariasi oleh satu eksponen, lambda. Ada dua kasus khusus, lambda = 0 dan lambda = 1.

Ilmu Komputer dan Statistik cocok sepanjang kontinum (yang mungkin bisa mencakup poin lain). Di satu nilai lambda, Anda mendapatkan statistik yang biasa dikutip di lingkaran Statistik, dan di lain Anda mendapatkan statistik yang biasa dikutip di lingkaran Comp Sci.

Statistik

  • Lambda = 1
  • Jumlah kotak muncul banyak
  • Varians sebagai ukuran variabilitas
  • Kovarian sebagai ukuran hubungan
  • Statistik chi-squared sebagai ukuran model fit

Ilmu Komputer:

  • Lambda = 0
  • Jumlah log banyak muncul
  • Entropi sebagai ukuran variabilitas
  • Informasi timbal balik sebagai ukuran hubungan
  • Statistik G-squared sebagai ukuran model fit
pengguna645715
sumber
9

Anda menjalankan algoritma komputer mewah sekali - dan Anda mendapatkan presentasi presentasi / statistik makalah CS (wow, apa konvergensi cepat!). Anda mengkomersilkannya dan menjalankannya 1 juta kali - dan Anda bangkrut (aduh, mengapa saya mendapatkan hasil yang tidak berguna dan tidak dapat diproduksi kembali sepanjang waktu ???) kecuali Anda tahu bagaimana menggunakan probabilitas dan statistik untuk menggeneralisasi sifat-sifat algoritma.

Tugas
sumber
3
Saya telah menurunkan jawaban ini. Meskipun dengan pertanyaan seperti ini pasti akan melibatkan beberapa pendapat pribadi, IMO kita harus berusaha untuk beberapa kritik yang lebih substantif. Ini hanya muncul sebagai kata-kata kasar.
Andy W
@AndyW, ini, tentu saja, berlebihan dari apa yang saya lihat. Kegagalan untuk berpikir maju secara statistik juga berlaku bagi dunia akademis: replikabilitas hasil yang dipublikasikan dalam psikologi atau ilmu kedokteran paling banyak 25% (lihat, misalnya, simplystatistics.tumblr.com/post/21326470429/… ) daripada nominal 95%. OP ingin statistik untuk merangkul ilmu komputer; mungkin ilmu komputer harus merangkul beberapa statistik, dan saya memberikan alasannya.
Tugas
5
@StasK Saya pikir Anda membuat beberapa poin penting, mengapa tidak mencoba membuatnya sedikit kurang agresif?
Gala
2
Saya menikmati jawaban bernas ini.
Ian Warburton
6

Ada area penerapan statistik di mana fokus pada model menghasilkan data sangat masuk akal. Dalam percobaan yang dirancang, misalnya, penelitian pada hewan, uji klinis, DOE industri, ahli statistik dapat memiliki andil dalam model pembuatan data. ML cenderung tidak menghabiskan banyak waktu untuk masalah yang sangat penting ini karena ML biasanya berfokus pada masalah prediksi lain yang sangat penting berdasarkan pada data pengamatan "besar". Itu bukan untuk mengatakan bahwa ML tidak dapat diterapkan pada eksperimen yang dirancang "besar", tetapi penting untuk mengakui bahwa statistik memiliki keahlian khusus pada masalah "kecil" data yang timbul dari eksperimen yang dibatasi sumber daya.

Pada akhirnya saya pikir kita semua bisa setuju untuk menggunakan apa yang terbaik untuk menyelesaikan masalah yang ada. Misalnya, kami mungkin memiliki eksperimen yang dirancang yang menghasilkan data yang sangat luas dengan tujuan prediksi. Prinsip desain statistik sangat berguna di sini dan metode ML dapat berguna untuk membangun prediktor.

Clark
sumber
4

Saya pikir pembelajaran mesin harus menjadi cabang di bawah statistik, seperti, dalam pandangan saya, kimia harus menjadi cabang di bawah fisika.

Saya pikir pandangan fisika yang diilhami ke dalam kimia cukup kuat (saya kira). Saya tidak berpikir ada reaksi kimia yang setara tidak diketahui secara fisik. Saya pikir fisika telah melakukan pekerjaan luar biasa dengan menjelaskan semua yang bisa kita lihat di tingkat kimia. Sekarang tantangan fisikawan tampaknya menjelaskan misteri kecil di tingkat kuantum, di bawah kondisi ekstrem yang tidak dapat diamati.

Sekarang kembali ke pembelajaran mesin. Saya pikir itu juga harus menjadi sub-cabang di bawah statistik (betapa kimia adalah sub-cabang fisika).

Tetapi bagi saya tampaknya, entah bagaimana, keadaan pembelajaran mesin saat ini, atau statistik, tidak cukup matang untuk menyadari hal ini dengan sempurna. Tetapi dalam jangka panjang, saya pikir yang satu harus menjadi sub-cabang yang lain. Saya pikir itu ML yang akan mendapatkan di bawah statistik.

Saya pribadi berpikir bahwa "belajar" dan "menganalisis sampel" untuk memperkirakan / menyimpulkan fungsi atau prediksi pada dasarnya adalah masalah statistik.

manusia gua
sumber
3
Haruskah biologi, psikologi, dan sosiologi juga menjadi "cabang pembantu" dari fisika?
amoeba
Benar .. Psikologi hanyalah input / output yang melibatkan mesin biologis yang sangat rumit. Suatu hari kita mungkin perlu mengirim mobil kita ke psikolog untuk mendiagnosis kesalahannya (psikolog itu sendiri mungkin komputer).
manusia gua
1
Bagiku, Matematika adalah bapak segalanya. Dari sana kami telah menerapkan matematika, dari mana fisika dan hal-hal lain berasal. Statistik adalah salah satunya. Saya pikir ML tidak perlu menjadi cabang sendiri dan bukannya dicampur ke dalam statistik. Tetapi jika ML menjadi cabang sendiri, saya lebih suka menjadi anak / cabang pembantu statistik.
manusia gua
4

Dari kursus Coursera "Ilmu Data dalam kehidupan nyata" oleh Brian Caffo

Pembelajaran mesin

  • Tekankan prediksi
  • Mengevaluasi hasil melalui kinerja prediksi
  • Kepedulian untuk overfitting tetapi tidak memodelkan kompleksitas per se
  • Penekanan pada kinerja
  • Generalisasi diperoleh melalui kinerja pada dataset baru
  • Biasanya, tidak ada model populasi super yang ditentukan
  • Kekhawatiran atas kinerja dan ketahanan

Analisis statistik tradisional

  • Menekankan inferensi populasi super
  • Berfokus pada hipotesis a-priori
  • Model yang lebih sederhana lebih disukai daripada model yang rumit (kekikiran), bahkan jika model yang lebih kompleks memiliki kinerja yang sedikit lebih baik
  • Penekanan pada interpretabilitas parameter
  • Pemodelan statistik atau asumsi pengambilan sampel menghubungkan data ke suatu populasi yang menarik
  • Kekhawatiran akan asumsi dan ketahanan
KoenBal
sumber
-5

Sebagai Ilmuwan Komputer, saya selalu tertarik ketika mencari pendekatan statistik. Bagi saya berkali-kali sepertinya model statistik yang digunakan dalam analisis statistik terlalu rumit untuk data dalam banyak situasi!

Misalnya ada hubungan yang kuat antara kompresi data dan statistik. Pada dasarnya kita membutuhkan model statistik yang baik yang mampu memprediksi data dengan baik dan ini membawa kompresi data yang sangat baik. Dalam ilmu komputer ketika mengompresi data selalu kompleksitas model statistik dan keakuratan prediksi sangat penting. Tidak ada yang ingin memiliki file data (berisi data suara atau data gambar atau data video) pernah menjadi lebih besar setelah kompresi!

Saya menemukan bahwa ada hal-hal yang lebih dinamis dalam ilmu komputer mengenai statistik, seperti misalnya Panjang Deskripsi Minimum dan Kemungkinan Maksimum Normalisasi .

cerb
sumber