Apakah pembelajaran mesin subjek penting bagi ahli statistik untuk berkenalan? Tampaknya pembelajaran mesin adalah statistik. Mengapa program statistik (sarjana dan pascasarjana) tidak membutuhkan pembelajaran mesin?
machine-learning
careers
pengguna20616
sumber
sumber
Jawaban:
Pembelajaran Mesin adalah bidang khusus statistik terapan dimensi tinggi. Ini juga membutuhkan latar belakang pemrograman yang cukup yang tidak diperlukan untuk program kuantitatif yang baik, terutama di tingkat sarjana tetapi juga sampai batas tertentu di tingkat pascasarjana. Ini memiliki aplikasi hanya untuk aspek prediksi statistik, sedangkan statistik matematika serta statistik terapan inferensial dan deskriptif membutuhkan perhatian. Banyak program menawarkan siswa kesempatan untuk memiliki banyak paparan pembelajaran mesin (CMU misalnya), tetapi ahli statistik industri secara keseluruhan jarang mendapatkan kesempatan untuk menerapkan alat ini, kecuali pekerjaan teknologi tinggi tertentu.
Sementara saya baru-baru ini melihat banyak ilmuwan data dan posisi pembelajaran mesin di pasar kerja, saya pikir deskripsi pekerjaan umum "ahli statistik" tidak memerlukan latar belakang pembelajaran mesin, tetapi memang membutuhkan pemahaman yang sempurna tentang statistik dasar, kesimpulan, dan komunikasi: ini harus benar-benar menjadi inti dari program statistik pascasarjana. Pembelajaran mesin dan ilmu data juga relatif baru sebagai jabatan dan disiplin ilmu. Ini akan merugikan bagi mereka yang mencari pekerjaan sebagai ahli statistik untuk mempengaruhi strategi penyelesaian masalah mereka terhadap pembelajaran mesin jika sebagian besar ditinggalkan dalam bisnis / perusahaan farmasi / biosains untuk keberhasilan kurang dari 10 atau 20 tahun.
Terakhir, saya tidak merasa pembelajaran mesin meningkatkan pemahaman statistik yang solid. Statistik pada dasarnya adalah bidang lintas disiplin dan penting untuk berkomunikasi dan meyakinkan pakar non-teknis di bidang Anda (seperti dokter, CFO, atau administrator) persis mengapa Anda memilih metodologi yang Anda pilih. Pembelajaran mesin adalah bidang khusus yang sangat teknis sehingga, dalam banyak praktik terapan, hanya menjanjikan kinerja yang secara bertahap lebih baik daripada alat dan teknik standar. Banyak metode dalam pembelajaran yang diawasi dan tidak diawasi dianggap oleh non-pakar (dan bahkan beberapa ahli yang kurang terlatih) sebagai "kotak hitam". Ketika diminta untuk mempertahankan pilihan mereka dari metode pembelajaran tertentu, ada penjelasan yang tidak jelas dan tidak memanfaatkan masalah yang termotivasi.
sumber
OK, mari kita bicara tentang gajah statistik dengan mata tertutup oleh apa yang telah kita pelajari dari satu atau dua orang yang telah bekerja sama dengan erat dalam program pascasarjana kami ...
Program Stat memerlukan apa yang mereka inginkan, yaitu, hal apa yang paling penting yang mereka ingin siswa mereka pelajari dengan sejumlah waktu terbatas yang siswa miliki dalam program tersebut. Membutuhkan satu area sempit berarti ciuman selamat tinggal pada beberapa area lain yang bisa dikatakan sama pentingnya. Beberapa program memerlukan ukuran probabilitas teoretis, beberapa tidak. Beberapa memerlukan bahasa asing, tetapi sebagian besar program tidak. Beberapa program menganggap paradigma Bayesian sebagai satu-satunya hal yang layak dipelajari, tetapi sebagian besar tidak. Beberapa program tahu bahwa permintaan terbesar untuk ahli statistik adalah dalam statistik survei (setidaknya itulah yang terjadi di AS), tetapi sebagian besar tidak. Program biostat mengikuti uang dan mengajarkan SAS + metode yang akan dijual dengan mudah ke ilmu kedokteran dan farmasi.
Untuk seseorang yang merancang eksperimen pertanian, atau mengumpulkan data survei melalui survei telepon, atau memvalidasi skala psikometrik, atau membuat peta kejadian penyakit dalam GIS, pembelajaran mesin adalah seni abstrak ilmu komputer, sangat jauh dari statistik yang mereka gunakan sehari-hari dasar. Tak satu pun dari orang-orang ini akan melihat manfaat langsung dari belajar mesin vektor dukungan atau hutan acak.
Secara keseluruhan, pembelajaran mesin adalah pelengkap yang bagus untuk bidang statistik lainnya, tetapi saya berpendapat bahwa hal-hal umum seperti distribusi normal multivariat dan model linier umum perlu didahulukan.
sumber
Machine learning adalah tentang mendapatkan pengetahuan / belajar dari data. Sebagai contoh, saya bekerja dengan algoritma pembelajaran mesin yang dapat memilih beberapa gen yang mungkin terlibat dalam jenis penyakit tertentu dari data Microarray DNA (mis. Kanker atau diabetes). Ilmuwan kemudian dapat menggunakan gen ini (model yang dipelajari) untuk diagnosis dini di masa depan (klasifikasi sampel yang tidak terlihat).
Ada banyak statistik yang terlibat dalam pembelajaran mesin tetapi ada cabang pembelajaran mesin yang tidak memerlukan statistik (misalnya pemrograman genetik). Satu-satunya waktu Anda memerlukan statistik dalam hal ini adalah untuk melihat apakah model yang telah Anda buat menggunakan pembelajaran mesin secara statistik berbeda secara signifikan dari beberapa model lainnya.
Menurut pendapat saya, pengantar pembelajaran mesin untuk ahli statistik akan menguntungkan . Ini akan membantu ahli statistik untuk melihat skenario penerapan statistik dunia nyata. Namun, itu tidak wajib . Anda bisa menjadi ahli statistik yang sukses dan menghabiskan seluruh hidup Anda tanpa harus belajar mesin!
sumber