Apakah penting bagi ahli statistik untuk mempelajari pembelajaran mesin?

22

Apakah pembelajaran mesin subjek penting bagi ahli statistik untuk berkenalan? Tampaknya pembelajaran mesin adalah statistik. Mengapa program statistik (sarjana dan pascasarjana) tidak membutuhkan pembelajaran mesin?

pengguna20616
sumber
1
Pembaca di sini mungkin tertarik pada utas berikut: Apa perbedaan antara penggalian data, statistik, pembelajaran mesin, dan AI .
gung - Reinstate Monica
2
Tidak tahu, tapi saya cukup yakin bahwa setiap orang yang melakukan pembelajaran mesin harus belajar statistik.
Dave

Jawaban:

18

Pembelajaran Mesin adalah bidang khusus statistik terapan dimensi tinggi. Ini juga membutuhkan latar belakang pemrograman yang cukup yang tidak diperlukan untuk program kuantitatif yang baik, terutama di tingkat sarjana tetapi juga sampai batas tertentu di tingkat pascasarjana. Ini memiliki aplikasi hanya untuk aspek prediksi statistik, sedangkan statistik matematika serta statistik terapan inferensial dan deskriptif membutuhkan perhatian. Banyak program menawarkan siswa kesempatan untuk memiliki banyak paparan pembelajaran mesin (CMU misalnya), tetapi ahli statistik industri secara keseluruhan jarang mendapatkan kesempatan untuk menerapkan alat ini, kecuali pekerjaan teknologi tinggi tertentu.

Sementara saya baru-baru ini melihat banyak ilmuwan data dan posisi pembelajaran mesin di pasar kerja, saya pikir deskripsi pekerjaan umum "ahli statistik" tidak memerlukan latar belakang pembelajaran mesin, tetapi memang membutuhkan pemahaman yang sempurna tentang statistik dasar, kesimpulan, dan komunikasi: ini harus benar-benar menjadi inti dari program statistik pascasarjana. Pembelajaran mesin dan ilmu data juga relatif baru sebagai jabatan dan disiplin ilmu. Ini akan merugikan bagi mereka yang mencari pekerjaan sebagai ahli statistik untuk mempengaruhi strategi penyelesaian masalah mereka terhadap pembelajaran mesin jika sebagian besar ditinggalkan dalam bisnis / perusahaan farmasi / biosains untuk keberhasilan kurang dari 10 atau 20 tahun.

Terakhir, saya tidak merasa pembelajaran mesin meningkatkan pemahaman statistik yang solid. Statistik pada dasarnya adalah bidang lintas disiplin dan penting untuk berkomunikasi dan meyakinkan pakar non-teknis di bidang Anda (seperti dokter, CFO, atau administrator) persis mengapa Anda memilih metodologi yang Anda pilih. Pembelajaran mesin adalah bidang khusus yang sangat teknis sehingga, dalam banyak praktik terapan, hanya menjanjikan kinerja yang secara bertahap lebih baik daripada alat dan teknik standar. Banyak metode dalam pembelajaran yang diawasi dan tidak diawasi dianggap oleh non-pakar (dan bahkan beberapa ahli yang kurang terlatih) sebagai "kotak hitam". Ketika diminta untuk mempertahankan pilihan mereka dari metode pembelajaran tertentu, ada penjelasan yang tidak jelas dan tidak memanfaatkan masalah yang termotivasi.

AdamO
sumber
1
Bisakah Anda menjelaskan sedikit lebih detail apa yang sebenarnya Anda maksudkan dengan penjelasan yang datar (contohnya mungkin?)?
cbeleites mendukung Monica
10
Saya tidak dapat menggambarkan perbedaan antara analisis diskriminan linier, mesin vektor dukungan, dan GLM LASSO dengan cara yang masuk akal bagi seorang dokter. Jadi saya membangun model regresi logistik untuk prediksi risiko kanker payudara menggunakan beberapa kovariat yang disesuaikan dengan hati-hati. Ketika dipresentasikan, para dokter segera memulai diskusi yang mencerahkan tentang ukuran efeknya. Diskriminasi model "sains" saya sangat sebanding dengan teknik ML yang lebih canggih (tumpang tindih 90% CI untuk AUC berdasarkan bootstrap dalam sampel validasi), dan saya bukan satu-satunya yang memiliki laporan kasus seperti itu!
AdamO
4
@cbeleites, pernahkah Anda berkomunikasi dengan orang yang memiliki pengetahuan matematika aljabar terbaik? SVM tidak menghasilkan ukuran efek dalam hal yang dimengerti oleh dokter; lebar margin tidak masuk akal bagi mereka, tidak seperti rasio ganjil yang biasa mereka gunakan. Jika Anda tidak dapat berbicara bahasa klien, mereka tidak akan membuang waktu dan uang mereka untuk Anda.
Tugas
2
@GraemeWalsh titik fantastis. Saya sangat berjuang dengan konsep menggunakan model prediksi canggih untuk inferensi prediktif, seperti yang sering terjadi dalam pemodelan persamaan struktural atau kausalitas eponymous Granger. Saya pikir masih banyak pekerjaan yang harus dilakukan di bidang ini. Sebagai contoh, secara intuitif saya mengenali banyak kesamaan antara pemodelan semi-parametrik dan model struktural marjinal, tetapi tidak yakin di mana perbedaannya.
AdamO
2
@Jase Anda harus melihat makalah yang diundang dari para pemenang kontes Netflix. Laporan mereka sangat mirip, bahkan dengan model Bayesian rata-rata menjalankan bobot posterior pada ruang besar model, mereka mengamati bahwa Pca tampaknya memiliki berat posterior yang mendominasi dalam semua kondisi. Itu bukan untuk mengatakan bahwa mereka setara, tetapi ada pertukaran antara kesederhanaan dan akurasi yang membuat saya lebih menyukai model yang lebih sederhana daripada yang ditawarkan arena ml. Orang dapat secara analog memikirkan bagaimana model parametrik yang canggih bekerja sama dengan yang nonparametrik.
AdamO
14

OK, mari kita bicara tentang gajah statistik dengan mata tertutup oleh apa yang telah kita pelajari dari satu atau dua orang yang telah bekerja sama dengan erat dalam program pascasarjana kami ...

Program Stat memerlukan apa yang mereka inginkan, yaitu, hal apa yang paling penting yang mereka ingin siswa mereka pelajari dengan sejumlah waktu terbatas yang siswa miliki dalam program tersebut. Membutuhkan satu area sempit berarti ciuman selamat tinggal pada beberapa area lain yang bisa dikatakan sama pentingnya. Beberapa program memerlukan ukuran probabilitas teoretis, beberapa tidak. Beberapa memerlukan bahasa asing, tetapi sebagian besar program tidak. Beberapa program menganggap paradigma Bayesian sebagai satu-satunya hal yang layak dipelajari, tetapi sebagian besar tidak. Beberapa program tahu bahwa permintaan terbesar untuk ahli statistik adalah dalam statistik survei (setidaknya itulah yang terjadi di AS), tetapi sebagian besar tidak. Program biostat mengikuti uang dan mengajarkan SAS + metode yang akan dijual dengan mudah ke ilmu kedokteran dan farmasi.

Untuk seseorang yang merancang eksperimen pertanian, atau mengumpulkan data survei melalui survei telepon, atau memvalidasi skala psikometrik, atau membuat peta kejadian penyakit dalam GIS, pembelajaran mesin adalah seni abstrak ilmu komputer, sangat jauh dari statistik yang mereka gunakan sehari-hari dasar. Tak satu pun dari orang-orang ini akan melihat manfaat langsung dari belajar mesin vektor dukungan atau hutan acak.

Secara keseluruhan, pembelajaran mesin adalah pelengkap yang bagus untuk bidang statistik lainnya, tetapi saya berpendapat bahwa hal-hal umum seperti distribusi normal multivariat dan model linier umum perlu didahulukan.

Tugas
sumber
5

Machine learning adalah tentang mendapatkan pengetahuan / belajar dari data. Sebagai contoh, saya bekerja dengan algoritma pembelajaran mesin yang dapat memilih beberapa gen yang mungkin terlibat dalam jenis penyakit tertentu dari data Microarray DNA (mis. Kanker atau diabetes). Ilmuwan kemudian dapat menggunakan gen ini (model yang dipelajari) untuk diagnosis dini di masa depan (klasifikasi sampel yang tidak terlihat).

Ada banyak statistik yang terlibat dalam pembelajaran mesin tetapi ada cabang pembelajaran mesin yang tidak memerlukan statistik (misalnya pemrograman genetik). Satu-satunya waktu Anda memerlukan statistik dalam hal ini adalah untuk melihat apakah model yang telah Anda buat menggunakan pembelajaran mesin secara statistik berbeda secara signifikan dari beberapa model lainnya.

Menurut pendapat saya, pengantar pembelajaran mesin untuk ahli statistik akan menguntungkan . Ini akan membantu ahli statistik untuk melihat skenario penerapan statistik dunia nyata. Namun, itu tidak wajib . Anda bisa menjadi ahli statistik yang sukses dan menghabiskan seluruh hidup Anda tanpa harus belajar mesin!

revolusi
sumber
2
Saya akan mengatakan Anda membutuhkan statistik setiap kali Anda melaporkan kinerja model Anda. Mabe itu karena profesi saya adalah kimia analitik, di mana salah satu aturan penting adalah "angka tanpa interval kepercayaan tidak ada hasil".
cbeleites mendukung Monica
1
@cbeleites Saya setuju dengan Anda. Yang saya maksudkan adalah bahwa ahli statistik tidak perlu menjadi ahli pembelajaran mesin! Mereka bisa bertahan tanpa belajar mesin :) :)
revolusi
1
@cbeleites, atau beberapa interval kepercayaan dalam kasus esimator multimodal (misalnya, Sivia & Analisis Data Skilling ).
alancalvitti