Tahun lalu, saya membaca posting blog dari Brendan O'Connor yang berjudul "Statistics vs. Machine Learning, fight!" yang membahas beberapa perbedaan antara kedua bidang. Andrew Gelman menanggapi hal ini dengan baik :
Simon Blomberg:
Dari paket fortune R: Mengutip secara provokatif, 'pembelajaran mesin adalah statistik dikurangi pengecekan model dan asumsi'. - Brian D. Ripley (tentang perbedaan antara pembelajaran mesin dan statistik) useR! 2004, Wina (Mei 2004) :-) Salam Musim!
Andrew Gelman:
Dalam hal ini, mungkin kita harus menyingkirkan pengecekan model dan asumsi lebih sering. Maka mungkin kita akan dapat memecahkan beberapa masalah yang dapat dipecahkan oleh orang yang mempelajari mesin tetapi kita tidak bisa!
Ada juga makalah "Pemodelan Statistik: The Two Cultures" oleh Leo Breiman pada tahun 2001 yang berpendapat bahwa ahli statistik terlalu bergantung pada pemodelan data, dan bahwa teknik pembelajaran mesin membuat kemajuan dengan mengandalkan mengandalkan akurasi prediksi model.
Apakah bidang statistik berubah selama dekade terakhir sebagai tanggapan terhadap kritik-kritik ini? Apakah kedua budaya masih ada atau statistik telah berkembang untuk merangkul teknik pembelajaran mesin seperti jaringan saraf dan mendukung mesin vektor?
Jawaban:
Saya pikir jawaban untuk pertanyaan pertama Anda hanya di afirmatif. Ambil isu Ilmu Statistik, JASA, Catatan Statistik selama 10 tahun terakhir dan Anda akan menemukan makalah tentang peningkatan, SVM, dan jaringan saraf, meskipun area ini kurang aktif sekarang. Para ahli statistik telah menyesuaikan karya Valiant dan Vapnik, tetapi di sisi lain, para ilmuwan komputer telah menyerap karya Donoho dan Talagrand. Saya tidak berpikir ada banyak perbedaan dalam ruang lingkup dan metode lagi. Saya tidak pernah membeli argumen Breiman bahwa orang-orang CS hanya tertarik meminimalisir kerugian menggunakan karya apa pun. Pandangan itu sangat dipengaruhi oleh partisipasinya dalam konferensi Neural Networks dan pekerjaan konsultasinya; tetapi PAC, SVM, Boosting memiliki semua fondasi yang kuat. Dan hari ini, tidak seperti 2001, Statistik lebih mementingkan properti sampel terbatas,
Tapi saya pikir masih ada tiga perbedaan penting yang tidak akan segera hilang.
sumber
Perbedaan terbesar yang saya lihat di antara masyarakat adalah bahwa statistik menekankan inferensi, sedangkan pembelajaran mesin menekankan prediksi. Saat Anda melakukan statistik, Anda ingin menyimpulkan proses dengan mana data yang Anda hasilkan. Ketika Anda melakukan pembelajaran mesin, Anda ingin tahu bagaimana Anda bisa memprediksi seperti apa data yang akan datang seperti beberapa variabel.
Tentu saja keduanya tumpang tindih. Mengetahui bagaimana data dihasilkan akan memberi Anda beberapa petunjuk tentang prediksi yang baik, misalnya. Namun, salah satu contoh perbedaannya adalah bahwa pembelajaran mesin telah berurusan dengan masalah p >> n (lebih banyak fitur / variabel daripada sampel pelatihan) sejak masih bayi, sedangkan statistik baru mulai serius tentang masalah ini. Mengapa? Karena Anda masih dapat membuat prediksi yang baik ketika p >> n, tetapi Anda tidak dapat membuat kesimpulan yang sangat baik tentang variabel apa yang sebenarnya penting dan mengapa.
sumber
Bayesian: "Halo, Machine Learner!"
Frequentist: "Halo, Machine Learner!"
Machine Learning: "Saya dengar kalian ahli dalam hal-hal. Berikut ini beberapa data."
F: "Ya, mari kita tulis model dan kemudian hitung MLE."
B: "Hei, F, bukan itu yang Anda katakan kemarin! Saya punya beberapa data univariat dan saya ingin memperkirakan varians, dan saya menghitung MLE. Kemudian Anda menerkam saya dan menyuruh saya untuk membagi dengan alih-alih oleh nn - 1 n . "
F: "Ah ya, terima kasih sudah mengingatkan saya. Saya sering berpikir bahwa saya seharusnya menggunakan MLE untuk semuanya, tapi saya tertarik pada estimator yang tidak bias dan sebagainya."
ML: "Eh, filosofis apa ini? Apa itu membantu saya?"
F: "OK, estimator adalah kotak hitam, Anda memasukkan data dan memberi Anda beberapa angka. Kami sering tidak peduli tentang bagaimana kotak itu dibangun, tentang prinsip apa yang digunakan untuk mendesainnya. Misalnya, saya tidak tahu cara menurunkan aturan . "÷ ( n - 1 )
ML: "Jadi, peduli apa?"
F: "Evaluasi."
ML: "Saya suka suara itu."
F: "Kotak hitam adalah kotak hitam. Jika seseorang mengklaim penaksir tertentu adalah penaksir tidak bias untuk , maka kami mencoba banyak nilai θ pada gilirannya, menghasilkan banyak sampel dari masing-masing berdasarkan beberapa model yang diasumsikan, mendorong mereka melalui penaksir , dan temukan estimasi rata-rata θ . Jika kita dapat membuktikan bahwa estimasi yang diharapkan sama dengan nilai sebenarnya, untuk semua nilai, maka kita katakan itu tidak bias. "θ θ θ
ML: "Kedengarannya bagus! Kedengarannya sering bahwa orang pragmatis. Anda menilai setiap kotak hitam dari hasilnya. Evaluasi adalah kuncinya."
F: "Memang! Saya mengerti kalian mengambil pendekatan yang sama. Validasi silang, atau sesuatu? Tapi itu terdengar berantakan bagi saya."
ML: "Berantakan?"
F: "Gagasan menguji estimator Anda pada data nyata tampak berbahaya bagi saya. Data empiris yang Anda gunakan mungkin memiliki semua jenis masalah dengannya, dan mungkin tidak berperilaku sesuai dengan model yang kami setujui untuk evaluasi."
ML: "Apa? Saya pikir Anda mengatakan Anda telah membuktikan beberapa hasil? Bahwa penaksir Anda akan selalu tidak bias, untuk semua ."θ
F: "Ya. Walaupun metode Anda mungkin bekerja pada satu dataset (dataset dengan data kereta dan tes) yang Anda gunakan dalam evaluasi Anda, saya dapat membuktikan bahwa tambang saya akan selalu berfungsi."
ML: "Untuk semua dataset?"
F: "Tidak."
ML: "Jadi metode saya sudah divalidasi silang pada satu dataset. Anda belum mengetes milik Anda pada dataset nyata?"
F: "Benar."
ML: "Kalau begitu, saya yang memimpin! Metode saya lebih baik daripada metode Anda. Metode itu memprediksi kanker 90% setiap saat. 'Bukti' Anda hanya valid jika seluruh dataset berlaku sesuai dengan model yang Anda asumsikan."
F: "Emm, ya, saya kira."
ML: "Dan interval itu memiliki cakupan 95% . Tapi saya tidak heran kalau itu hanya berisi nilai yang benar 20% dari waktu?"θ
F: "Itu benar. Kecuali jika datanya benar-benar normal (atau apa pun), bukti saya tidak berguna."
ML: "Jadi evaluasi saya lebih dapat dipercaya dan komprehensif? Itu hanya bekerja pada dataset yang saya coba sejauh ini, tapi setidaknya itu set data nyata, kutil dan semua. Di sana Anda, mencoba untuk mengklaim Anda lebih konservatif 'dan' teliti 'dan Anda tertarik untuk memeriksa model dan hal-hal lainnya. "
B: (menyela) "Hai teman-teman, maaf mengganggu. Saya ingin melangkah dan menyeimbangkan semuanya, mungkin menunjukkan beberapa masalah lain, tapi saya benar-benar suka menonton rekan kerja saya yang sering menggeliat."
F: "Woah!"
ML: "Baik, anak-anak. Itu semua tentang evaluasi. Penduga adalah kotak hitam. Data masuk, data keluar. Kami menyetujui, atau tidak menyetujui, penduga berdasarkan bagaimana kinerjanya dalam evaluasi. Kami tidak peduli tentang 'resep' atau 'prinsip desain' yang digunakan. "
F: "Ya. Tetapi kami memiliki ide yang sangat berbeda tentang evaluasi mana yang penting. ML akan melakukan pelatihan-dan-uji pada data nyata. Sedangkan saya akan melakukan evaluasi yang lebih umum (karena melibatkan bukti yang berlaku luas) dan juga lebih terbatas (karena saya tidak tahu apakah dataset Anda sebenarnya diambil dari asumsi pemodelan yang saya gunakan saat merancang evaluasi saya.) "
ML: "Evaluasi apa yang kamu pakai, B?"
F: (menyela) "Hei. Jangan membuatku tertawa. Dia tidak mengevaluasi apa pun. Dia hanya menggunakan keyakinan subyektifnya dan menjalankannya. Atau sesuatu."
B: "Itulah interpretasi yang umum. Tetapi mungkin juga untuk mendefinisikan Bayesianisme dengan evaluasi yang disukai. Kemudian kita dapat menggunakan gagasan bahwa tidak ada di antara kita yang peduli pada kotak hitam, kita hanya peduli pada berbagai cara untuk mengevaluasi."
B melanjutkan: "Contoh klasik: Tes medis. Hasil tes darah adalah Positif atau Negatif. Seorang yang sering tertarik, dari orang-orang yang Sehat, berapa proporsi yang mendapatkan hasil Negatif. Dan juga, berapa proporsi orang yang sakit akan dapatkan Positif. Sering kali akan menghitung ini untuk setiap metode pengujian darah yang sedang dipertimbangkan dan kemudian merekomendasikan agar kami menggunakan tes yang mendapat skor skor terbaik. "
F: "Tepat sekali. Apa lagi yang Anda inginkan?"
B: "Bagaimana dengan orang-orang yang mendapat hasil tes Positif? Mereka ingin tahu 'orang-orang yang mendapatkan hasil Positif, berapa banyak yang akan Sakit?' dan 'dari mereka yang mendapatkan hasil Negatif, berapa banyak yang Sehat?' "
ML: "Ah ya, sepertinya itu pertanyaan yang lebih baik untuk ditanyakan."
F: "HERESY!"
B: "Ini dia lagi. Dia tidak suka ke mana arahnya."
ML: "Ini tentang 'prior', bukan?"
F: "EVIL".
B: "Ngomong-ngomong, ya, kamu benar ML. Untuk menghitung proporsi orang-orang yang berakibat positif yang sakit, kamu harus melakukan satu dari dua hal. Salah satu opsi adalah menjalankan tes pada banyak orang dan hanya mengamati proporsi yang relevan. Berapa banyak dari orang-orang yang mati karena penyakit, misalnya. "
ML: "Kedengarannya seperti apa yang saya lakukan. Gunakan latihan dan tes."
B: "Tetapi Anda dapat menghitung angka-angka ini di muka, jika Anda mau membuat asumsi tentang tingkat Penyakit dalam populasi. Orang sering juga membuat perhitungan terlebih dahulu, tetapi tanpa menggunakan tingkat Penyakit tingkat populasi ini."
F: "LEBIH BANYAK ASUMSI."
B: "Oh, tutup mulut. Sebelumnya, Anda ketahuan. ML menemukan bahwa Anda juga menyukai asumsi yang tidak berdasar seperti orang lain. Peluang cakupan 'terbukti' Anda tidak akan menumpuk di dunia nyata kecuali semua asumsi Anda berdiri. Mengapa asumsi saya sebelumnya sangat berbeda? Anda memanggil saya gila, namun Anda berpura-pura asumsi Anda adalah karya analisis konservatif, solid, bebas asumsi. "
B (lanjutan): "Ngomong-ngomong, ML, seperti yang saya katakan. Bayesian menyukai jenis evaluasi yang berbeda. Kami lebih tertarik mengkondisikan data yang diamati, dan menghitung akurasi penduga kami. Kami tidak dapat melakukan evaluasi ini tanpa menggunakan Tapi yang menarik adalah, begitu kita memutuskan bentuk evaluasi ini, dan begitu kita memilih sebelumnya, kita punya 'resep' otomatis untuk membuat penduga yang tepat. Seringkali orang itu tidak punya resep seperti itu. estimator yang tidak bias untuk model yang kompleks, ia tidak memiliki cara otomatis untuk membangun estimator yang sesuai. "
ML: "Dan ya? Anda bisa otomatis membuat estimator?"
B: "Ya. Saya tidak memiliki cara otomatis untuk membuat penaksir yang tidak bias, karena saya pikir bias adalah cara yang buruk untuk mengevaluasi penaksir. Tetapi mengingat estimasi bersyarat pada data yang saya sukai, dan sebelumnya, saya dapat menghubungkan prior dan kemungkinan memberi saya estimator. "
ML: "Jadi, mari kita rekap. Kita semua punya cara berbeda untuk mengevaluasi metode kita, dan kita mungkin tidak akan pernah sepakat tentang metode mana yang terbaik."
B: "Ya, itu tidak adil. Kita bisa mencampur dan mencocokkannya. Jika ada di antara kita yang memiliki data pelatihan yang berlabel bagus, kita mungkin harus mengujinya. Dan umumnya kita semua harus menguji sebanyak mungkin asumsi yang kita bisa. Dan beberapa sering "Bukti mungkin juga menyenangkan, memprediksi kinerja di bawah beberapa model yang diduga menghasilkan data."
F: "Ya teman-teman. Mari kita bersikap pragmatis tentang evaluasi. Dan sebenarnya, saya akan berhenti terobsesi pada properti sampel tak terbatas. Saya telah meminta para ilmuwan memberi saya sampel tak terbatas, tetapi mereka masih belum melakukannya. Ini saatnya bagi saya untuk fokus lagi pada sampel yang terbatas. "
ML: "Jadi, kami hanya punya satu pertanyaan terakhir. Kami banyak berdebat tentang cara mengevaluasi metode kami, tetapi bagaimana kami membuat metode kami."
B: "Ah. Seperti yang saya dapatkan sebelumnya, kami orang Bayesian memiliki metode umum yang lebih kuat. Mungkin rumit, tapi kami selalu bisa menulis semacam algoritma (mungkin bentuk naif MCMC) yang akan diambil dari posterior kami. "
F (menyela): "Tapi mungkin ada bias."
B: "Jadi, mungkin metode Anda. Perlu saya ingatkan Anda bahwa MLE sering bias? Kadang-kadang, Anda mengalami kesulitan besar dalam menemukan estimator yang tidak bias, dan bahkan ketika Anda melakukannya, Anda memiliki estimator bodoh (untuk beberapa model yang sangat kompleks) yang akan mengatakan varians negatif. Dan Anda menyebut itu tidak bias. Tidak dapat mengakomodasi, ya. Tetapi bermanfaat, tidak! "
ML: "Baik teman. Kamu mengomel lagi. Izinkan saya mengajukan pertanyaan, F. Apakah Anda pernah membandingkan bias metode Anda dengan bias metode B, ketika Anda berdua bekerja pada masalah yang sama?"
F: "Ya. Sebenarnya, saya benci mengakuinya, tetapi pendekatan B terkadang memiliki bias dan MSE yang lebih rendah daripada estimator saya!"
ML: "Pelajarannya di sini adalah, sementara kita sedikit tidak setuju pada evaluasi, tidak ada dari kita yang memonopoli cara membuat penduga yang memiliki properti yang kita inginkan."
B: "Ya, kita harus membaca karya masing-masing sedikit lebih banyak. Kita dapat memberikan inspirasi satu sama lain untuk penaksir. Kita mungkin menemukan bahwa penaksir lain bekerja dengan baik, out-of-the-box, pada masalah kita sendiri."
F: "Dan saya harus berhenti terobsesi tentang bias. Estimator yang tidak bias mungkin memiliki varian yang konyol. Saya kira kita semua harus 'mengambil tanggung jawab' atas pilihan yang kita buat dalam cara kita mengevaluasi dan properti yang ingin kita lihat dalam estimator kita. Kita tidak dapat berada di belakang filosofi. Cobalah semua evaluasi yang Anda bisa. Dan saya akan terus melihat-lihat literatur Bayesian untuk mendapatkan ide-ide baru untuk penduga! "
B: "Sebenarnya, banyak orang tidak benar-benar tahu apa filosofi mereka sendiri. Saya bahkan tidak yakin. Jika saya menggunakan resep Bayesian, dan kemudian membuktikan beberapa hasil teoretis yang bagus, bukankah itu berarti saya Saya adalah seorang frequentist? Seorang frequentist peduli dengan bukti-bukti di atas tentang kinerja, dia tidak peduli dengan resep. Dan jika saya melakukan beberapa tes dan kereta (atau juga), apakah itu berarti saya seorang pelajar mesin? "
ML: "Kelihatannya kita semua sangat mirip."
sumber
Dalam diskusi seperti itu, saya selalu mengingat kutipan Ken Thompson yang terkenal
Dalam hal ini, pembelajaran mesin adalah keselamatan ketika asumsi sulit ditangkap; atau setidaknya itu jauh lebih baik daripada menebak mereka salah.
sumber
Apa yang mendorong pemisahan lebih dari yang seharusnya adalah leksikon setiap disiplin ilmu.
Ada banyak contoh di mana ML menggunakan satu istilah dan Statistik menggunakan istilah yang berbeda - tetapi keduanya merujuk pada hal yang sama - baik, Anda akan mengharapkan itu, dan itu tidak menyebabkan kebingungan permanen (misalnya, fitur / atribut versus harapan variabel, atau jaringan saraf / MLP versus proyeksi-pengejaran).
Yang jauh lebih menyusahkan adalah bahwa kedua disiplin ilmu menggunakan istilah yang sama untuk merujuk pada konsep yang sama sekali berbeda.
Beberapa contoh:
Fungsi Kernel
Dalam ML, fungsi kernel digunakan dalam pengklasifikasi (mis., SVM) dan tentu saja dalam mesin kernel. Istilah ini mengacu pada fungsi sederhana ( cosinus, sigmoidal, rbf, polinomial ) untuk memetakan non-linear yang dapat dipisahkan ke ruang input baru, sehingga data sekarang dapat dipisahkan secara linear dalam ruang input baru ini. (Dibandingkan menggunakan model non-linear untuk memulai).
Dalam statistik, fungsi kernel adalah fungsi pembobotan yang digunakan dalam estimasi kerapatan untuk memperlancar kurva kerapatan.
Regresi
Dalam ML, algoritme prediktif, atau implementasi algoritme yang mengembalikan label kelas "classifier" (kadang-kadang) disebut sebagai mesin --eg, mesin vektor dukungan , mesin kernel . Mitra untuk mesin adalah regressor , yang mengembalikan skor (variabel kontinu) - misalnya, mendukung regresi vektor .
Jarang algoritma memiliki nama berbeda berdasarkan mode - misalnya, MLP adalah istilah yang digunakan apakah itu mengembalikan label kelas atau variabel kontinu.
Dalam Statistik, regresi , jika Anda mencoba membangun model berdasarkan data empiris, untuk memprediksi beberapa variabel respons berdasarkan pada satu atau lebih variabel penjelas atau lebih banyak variabel - maka Anda sedang melakukan analisis regresi . Tidak masalah apakah output adalah variabel kontinu atau label kelas (misalnya, regresi logistik). Jadi misalnya, regresi kuadrat-terkecil mengacu pada model yang mengembalikan nilai kontinu; regresi logistik di sisi lain, mengembalikan estimasi probabilitas yang kemudian didiskritkan ke label kelas.
Bias
Dalam ML, istilah bias dalam algoritma secara konseptual identik dengan istilah intersep yang digunakan oleh ahli statistik dalam pemodelan regresi.
Dalam Statistik, bias adalah kesalahan non-acak - yaitu, beberapa fenomena mempengaruhi seluruh data yang diatur dalam arah yang sama, yang pada gilirannya berarti bahwa kesalahan semacam ini tidak dapat dihapus dengan melakukan resampling atau menambah ukuran sampel.
sumber
Perbedaan terbesar yang saya perhatikan dalam satu tahun terakhir adalah:
sumber
Pembelajaran Mesin tampaknya memiliki dasar dalam pragmatis - pengamatan Praktis atau simulasi realitas. Bahkan di dalam statistik, "pengecekan model dan asumsi" yang tidak ada artinya dapat menyebabkan metode membuang yang berguna.
Sebagai contoh, beberapa tahun yang lalu, model kebangkrutan pertama yang tersedia secara komersial (dan berfungsi) yang diterapkan oleh biro kredit dibuat melalui model regresi linier lama yang menargetkan hasil 0-1. Secara teknis, itu pendekatan yang buruk, tetapi secara praktis, itu berhasil.
sumber
Saya tidak setuju dengan pertanyaan ini karena menunjukkan bahwa pembelajaran mesin dan statistik adalah ilmu yang berbeda atau saling bertentangan .... ketika yang sebaliknya benar!
pembelajaran mesin menggunakan statistik secara ekstensif ... survei cepat dari setiap paket pembelajaran Mesin atau data mining perangkat lunak akan mengungkapkan teknik Clustering seperti k-means juga ditemukan dalam statistik .... juga akan menunjukkan teknik pengurangan dimensi seperti analisis komponen Utama juga teknik statistik ... bahkan regresi logistik.
Dalam pandangan saya perbedaan utama adalah bahwa statistik tradisional digunakan untuk membuktikan teori yang dipahami sebelumnya dan biasanya analisis dirancang di sekitar teori utama itu. Di mana dengan penambangan data atau pembelajaran mesin, pendekatan yang berlawanan biasanya merupakan norma bahwa kita memiliki hasil, kita hanya ingin menemukan cara untuk memprediksi itu daripada mengajukan pertanyaan atau membentuk teori apakah ini hasilnya!
sumber
Saya telah berbicara tentang ini di forum berbeda ASA Statistical Consulting eGroup. Respons saya lebih khusus untuk data mining tetapi keduanya berjalan seiring. Kami ahli statistik telah meledek hidung kami di penambang data, ilmuwan komputer, dan insinyur. Ini salah. Saya pikir bagian dari alasan itu terjadi adalah karena kita melihat beberapa orang di bidang itu mengabaikan sifat stokastik masalah mereka. Beberapa ahli statistik menyebut data mining data mengintai atau memancing data. Beberapa orang melakukan pelecehan dan menyalahgunakan metode tetapi ahli statistik telah tertinggal dalam penambangan data dan pembelajaran mesin karena kita melukisnya dengan kuas yang luas. Beberapa hasil statistik besar berasal dari luar bidang statistik. Meningkatkan adalah salah satu contoh penting. Tapi ahli statistik seperti Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman dan yang lainnya mendapatkannya dan kepemimpinan mereka telah membawa ahli statistik ke dalam analisis microarray dan masalah inferensi skala besar lainnya. Jadi, sementara budaya mungkin tidak pernah bertautan, sekarang ada lebih banyak kerja sama dan kolaborasi antara para ilmuwan komputer, insinyur dan ahli statistik.
sumber
Masalah sebenarnya adalah bahwa pertanyaan ini salah arah. Ini bukan pembelajaran mesin vs statistik, itu adalah pembelajaran mesin melawan kemajuan ilmiah nyata. Jika perangkat pembelajaran mesin memberikan prediksi yang tepat 90% dari waktu tetapi saya tidak bisa mengerti "mengapa", apa kontribusi pembelajaran mesin untuk sains pada umumnya? Bayangkan jika teknik pembelajaran mesin digunakan untuk memprediksi posisi planet: akan ada banyak orang sombong yang berpikir bahwa mereka dapat secara akurat memprediksi sejumlah hal dengan SVM mereka, tetapi apa yang sebenarnya mereka ketahui tentang masalah yang mereka miliki di tangan mereka ? Jelas, sains tidak benar-benar maju dengan prediksi numerik, ia maju melalui model (mental, matematika) yang memungkinkan kita melihat jauh melampaui sekadar angka.
sumber
Pembelajaran statistik (AKA Machine Learning) berawal pada upaya menciptakan perangkat lunak dengan "belajar dari contoh". Ada banyak tugas yang kami ingin komputer lakukan (misalnya, visi komputer, pengenalan suara, kontrol robot) yang sulit diprogram tetapi untuk itu mudah untuk memberikan contoh pelatihan. Komunitas riset pembelajaran pembelajaran mesin / statistik mengembangkan algoritma untuk mempelajari fungsi dari contoh-contoh ini. Fungsi kerugian biasanya terkait dengan tugas kinerja (visi, pengenalan suara). Dan tentu saja kami tidak punya alasan untuk percaya bahwa ada "model" sederhana yang mendasari tugas-tugas ini (karena kalau tidak, kami akan membuat kode untuk program sederhana itu sendiri). Oleh karena itu, seluruh gagasan untuk melakukan inferensi statistik tidak masuk akal. Tujuannya adalah akurasi prediksi dan tidak ada yang lain.
Seiring waktu, berbagai kekuatan mulai mendorong orang belajar mesin untuk belajar lebih banyak tentang statistik. Salah satunya adalah kebutuhan untuk memasukkan latar belakang pengetahuan dan kendala lain pada proses pembelajaran. Hal ini membuat orang mempertimbangkan model probabilistik generatif, karena ini membuatnya mudah untuk menggabungkan pengetahuan sebelumnya melalui struktur model dan prior pada parameter model dan struktur. Hal ini mengarahkan lapangan untuk menemukan literatur statistik yang kaya di bidang ini. Kekuatan lain adalah penemuan fenomena overfitting. Ini mengarahkan komunitas ML untuk belajar tentang validasi silang dan regularisasi dan sekali lagi kami menemukan literatur statistik yang kaya pada subjek.
Meskipun demikian, fokus dari sebagian besar pekerjaan pembelajaran mesin adalah menciptakan sistem yang menunjukkan kinerja tertentu daripada membuat kesimpulan tentang proses yang tidak diketahui. Ini adalah perbedaan mendasar antara ML dan statistik.
sumber
Idealnya seseorang harus memiliki pengetahuan menyeluruh tentang statistik dan pembelajaran mesin sebelum mencoba menjawab pertanyaannya. Saya sangat baru mengenal ML, jadi maafkan saya jika apa yang saya katakan naif.
Saya memiliki pengalaman terbatas dalam SVM dan pohon regresi. Apa yang menurut saya kurang dalam ML dari sudut pandang statistik adalah konsep inferensi yang dikembangkan dengan baik.
Inferensi dalam ML tampaknya hampir secara eksklusif mengacu pada akurasi prediksi, sebagaimana diukur dengan (misalnya) kesalahan klasifikasi rata-rata (MCE), atau tingkat kesalahan seimbang (BER) atau yang serupa. ML memiliki kebiasaan yang sangat baik dalam membagi data secara acak (biasanya 2: 1) menjadi satu set pelatihan dan satu set tes. Model cocok menggunakan set pelatihan dan kinerja (MCE, BER dll) dinilai menggunakan set tes. Ini adalah praktik yang sangat baik dan hanya perlahan-lahan membuat jalan ke statistik arus utama.
ML juga banyak menggunakan metode resampling (terutama cross-validation), yang asal-usulnya tampak dalam statistik.
Namun, ML tampaknya tidak memiliki konsep inferensi sepenuhnya dikembangkan - melampaui akurasi prediksi. Ini memiliki dua hasil.
1) Tampaknya tidak ada apresiasi bahwa setiap prediksi (estimasi parameter dll.) Tunduk pada kesalahan acak dan mungkin kesalahan sistematik (bias). Para ahli statistik akan menerima bahwa ini adalah bagian prediksi yang tak terhindarkan dan akan mencoba dan memperkirakan kesalahannya. Teknik statistik akan mencoba dan menemukan perkiraan yang memiliki bias minimum dan kesalahan acak. Teknik mereka biasanya didorong oleh model proses data, tetapi tidak selalu (mis. Bootstrap).
2) Tampaknya tidak ada pemahaman yang mendalam dalam ML tentang batas-batas penerapan model pada data baru untuk sampel baru dari populasi yang sama (terlepas dari apa yang saya katakan sebelumnya tentang pendekatan set data pelatihan-tes). Berbagai teknik statistik, di antaranya lintas validasi dan ketentuan hukuman yang diterapkan pada metode berbasis kemungkinan, memandu ahli statistik dalam pertukaran antara kekikiran dan kompleksitas model. Pedoman semacam itu dalam ML tampaknya lebih bersifat ad hoc.
Saya telah melihat beberapa makalah dalam ML di mana validasi silang digunakan untuk mengoptimalkan pemasangan banyak model pada set data pelatihan - menghasilkan yang lebih baik dan lebih cocok seiring dengan meningkatnya kompleksitas model. Tampaknya ada sedikit apresiasi bahwa perolehan kecil dalam keakuratan tidak sebanding dengan kompleksitas ekstra dan ini secara alami mengarah pada pemasangan yang berlebihan. Kemudian semua model yang dioptimalkan ini diterapkan pada set uji sebagai pemeriksaan pada kinerja prediktif dan untuk mencegah overfitting. Dua hal telah dilupakan (di atas). Kinerja prediktif akan memiliki komponen stokastik. Kedua pengujian berganda terhadap satu set tes lagi akan menghasilkan over-fitting. Model "terbaik" akan dipilih oleh praktisi ML tanpa penghargaan penuh ia telah memilih dari satu realisasi dari banyak kemungkinan hasil percobaan ini.
Setiap 2 sen saya layak. Kami harus banyak belajar dari satu sama lain.
sumber
Pertanyaan ini juga dapat diperluas ke apa yang disebut super-budaya ilmu data pada tahun 2015 David Donoho kertas 50 tahun Ilmu Data , di mana ia menghadapi sudut pandang yang berbeda dari statistik dan ilmu komputer (termasuk pembelajaran mesin), misalnya sudut pandang langsung (dari orang yang berbeda) sehingga:
dan berbagai macam pertimbangan historis, filosofis, misalnya:
Esai ini telah menghasilkan banyak tanggapan dan kontribusi untuk debat.
sumber
Saya tidak benar-benar tahu apa perbedaan konseptual / historis antara pembelajaran mesin dan statistik, tetapi saya yakin itu tidak begitu jelas ... dan saya tidak benar-benar tertarik untuk mengetahui apakah saya seorang pelajar mesin atau ahli statistik, saya pikir 10 tahun setelah kertas Breiman, banyak orang berdua ...
Lagi pula, saya menemukan pertanyaan menarik tentang akurasi model prediksi . Kita harus ingat bahwa tidak selalu mungkin untuk mengukur keakuratan model dan lebih tepatnya kita paling sering secara implisit membuat beberapa pemodelan ketika mengukur kesalahan.
Sebagai Contoh, kesalahan absolut rata-rata dalam perkiraan deret waktu adalah rata-rata dari waktu ke waktu dan mengukur kinerja prosedur untuk memperkirakan median dengan asumsi bahwa kinerja, dalam beberapa hal, stasioner dan menunjukkan beberapa properti ergodik . Jika (karena alasan tertentu) Anda perlu memperkirakan suhu rata-rata di bumi selama 50 tahun ke depan dan jika pemodelan Anda berkinerja baik selama 50 tahun terakhir ... itu tidak berarti ...
Lebih umum, (jika saya ingat, ini disebut tidak makan siang gratis) Anda tidak dapat melakukan apa pun tanpa pemodelan ... Selain itu, saya pikir statistik sedang mencoba untuk menemukan jawaban atas pertanyaan: "adalah sesuatu yang signifikan atau tidak", ini adalah pertanyaan yang sangat penting dalam sains dan tidak dapat dijawab melalui proses pembelajaran. Untuk menyatakan John Tukey (apakah dia ahli statistik?):
Semoga ini membantu !
sumber
Jelas, kedua bidang jelas menghadapi masalah yang sama tetapi berbeda, dalam cara yang serupa tetapi tidak identik dengan konsep analog tetapi tidak identik, dan bekerja di departemen, jurnal, dan konferensi yang berbeda.
Ketika saya membaca Statistik Power Divergence Cressie dan Read, semuanya berbunyi bagi saya. Formula mereka menggeneralisasikan statistik uji yang biasa digunakan menjadi satu yang bervariasi oleh satu eksponen, lambda. Ada dua kasus khusus, lambda = 0 dan lambda = 1.
Ilmu Komputer dan Statistik cocok sepanjang kontinum (yang mungkin bisa mencakup poin lain). Di satu nilai lambda, Anda mendapatkan statistik yang biasa dikutip di lingkaran Statistik, dan di lain Anda mendapatkan statistik yang biasa dikutip di lingkaran Comp Sci.
Statistik
Ilmu Komputer:
sumber
Anda menjalankan algoritma komputer mewah sekali - dan Anda mendapatkan presentasi presentasi / statistik makalah CS (wow, apa konvergensi cepat!). Anda mengkomersilkannya dan menjalankannya 1 juta kali - dan Anda bangkrut (aduh, mengapa saya mendapatkan hasil yang tidak berguna dan tidak dapat diproduksi kembali sepanjang waktu ???) kecuali Anda tahu bagaimana menggunakan probabilitas dan statistik untuk menggeneralisasi sifat-sifat algoritma.
sumber
Ada area penerapan statistik di mana fokus pada model menghasilkan data sangat masuk akal. Dalam percobaan yang dirancang, misalnya, penelitian pada hewan, uji klinis, DOE industri, ahli statistik dapat memiliki andil dalam model pembuatan data. ML cenderung tidak menghabiskan banyak waktu untuk masalah yang sangat penting ini karena ML biasanya berfokus pada masalah prediksi lain yang sangat penting berdasarkan pada data pengamatan "besar". Itu bukan untuk mengatakan bahwa ML tidak dapat diterapkan pada eksperimen yang dirancang "besar", tetapi penting untuk mengakui bahwa statistik memiliki keahlian khusus pada masalah "kecil" data yang timbul dari eksperimen yang dibatasi sumber daya.
Pada akhirnya saya pikir kita semua bisa setuju untuk menggunakan apa yang terbaik untuk menyelesaikan masalah yang ada. Misalnya, kami mungkin memiliki eksperimen yang dirancang yang menghasilkan data yang sangat luas dengan tujuan prediksi. Prinsip desain statistik sangat berguna di sini dan metode ML dapat berguna untuk membangun prediktor.
sumber
Saya pikir pembelajaran mesin harus menjadi cabang di bawah statistik, seperti, dalam pandangan saya, kimia harus menjadi cabang di bawah fisika.
Saya pikir pandangan fisika yang diilhami ke dalam kimia cukup kuat (saya kira). Saya tidak berpikir ada reaksi kimia yang setara tidak diketahui secara fisik. Saya pikir fisika telah melakukan pekerjaan luar biasa dengan menjelaskan semua yang bisa kita lihat di tingkat kimia. Sekarang tantangan fisikawan tampaknya menjelaskan misteri kecil di tingkat kuantum, di bawah kondisi ekstrem yang tidak dapat diamati.
Sekarang kembali ke pembelajaran mesin. Saya pikir itu juga harus menjadi sub-cabang di bawah statistik (betapa kimia adalah sub-cabang fisika).
Tetapi bagi saya tampaknya, entah bagaimana, keadaan pembelajaran mesin saat ini, atau statistik, tidak cukup matang untuk menyadari hal ini dengan sempurna. Tetapi dalam jangka panjang, saya pikir yang satu harus menjadi sub-cabang yang lain. Saya pikir itu ML yang akan mendapatkan di bawah statistik.
Saya pribadi berpikir bahwa "belajar" dan "menganalisis sampel" untuk memperkirakan / menyimpulkan fungsi atau prediksi pada dasarnya adalah masalah statistik.
sumber
Dari kursus Coursera "Ilmu Data dalam kehidupan nyata" oleh Brian Caffo
Pembelajaran mesin
Analisis statistik tradisional
sumber
Sebagai Ilmuwan Komputer, saya selalu tertarik ketika mencari pendekatan statistik. Bagi saya berkali-kali sepertinya model statistik yang digunakan dalam analisis statistik terlalu rumit untuk data dalam banyak situasi!
Misalnya ada hubungan yang kuat antara kompresi data dan statistik. Pada dasarnya kita membutuhkan model statistik yang baik yang mampu memprediksi data dengan baik dan ini membawa kompresi data yang sangat baik. Dalam ilmu komputer ketika mengompresi data selalu kompleksitas model statistik dan keakuratan prediksi sangat penting. Tidak ada yang ingin memiliki file data (berisi data suara atau data gambar atau data video) pernah menjadi lebih besar setelah kompresi!
Saya menemukan bahwa ada hal-hal yang lebih dinamis dalam ilmu komputer mengenai statistik, seperti misalnya Panjang Deskripsi Minimum dan Kemungkinan Maksimum Normalisasi .
sumber