saya ingin menjadi ilmuwan data . Saya mempelajari statistik terapan (ilmu aktuaria), jadi saya memiliki latar belakang statistik yang hebat (regresi, proses stokastik, deret waktu, hanya untuk menyebutkan beberapa). Tapi sekarang, saya akan melakukan gelar master dalam fokus Ilmu Komputer dalam Sistem Cerdas.
Ini adalah rencana studi saya:
- Pembelajaran mesin
- Pembelajaran mesin canggih
- Penambangan data
- Logika fuzzy
- Sistem Rekomendasi
- Sistem Data Terdistribusi
- Komputasi awan
- Penemuan pengetahuan
- Kecerdasan Bisnis
- Pengambilan informasi
- Penambangan teks
Pada akhirnya, dengan semua pengetahuan statistik dan ilmu komputer saya, dapatkah saya menyebut diri saya seorang ilmuwan data? , atau saya salah?
Terima kasih atas jawabannya.
machine-learning
statistics
career
pengguna3643160
sumber
sumber
Jawaban:
Saya pikir Anda berada di jalur yang benar menuju menjadi ilmuwan data pakar . Baru-baru ini saya telah menjawab pertanyaan terkait di sini di Data Science StackExchange: https://datascience.stackexchange.com/a/742/2452 (perhatikan definisi yang saya sebutkan di sana, karena pada dasarnya menjawab pertanyaan Anda dengan sendirinya, juga untuk aspek mempraktekkan rekayasa perangkat lunak dan menerapkan pengetahuan untuk memecahkan masalah dunia nyata ). Saya harap Anda akan menemukan semua yang bermanfaat. Semoga sukses dalam karier Anda!
sumber
Yah itu tergantung pada "Ilmu Data" seperti apa yang Anda inginkan. Untuk analitik dasar dan statistik pelaporan tentu akan membantu, tetapi untuk Pembelajaran Mesin dan Kecerdasan Buatan maka Anda akan memerlukan beberapa keterampilan lagi
Teori probabilitas - Anda harus memiliki latar belakang yang kuat dalam probabilitas murni sehingga Anda dapat menguraikan masalah apa pun, apakah dilihat sebelumnya atau tidak, menjadi prinsip-prinsip probabilitas. Statistik banyak membantu untuk masalah yang sudah dipecahkan, tetapi masalah baru dan belum terpecahkan membutuhkan pemahaman yang mendalam tentang probabilitas sehingga Anda dapat merancang teknik yang tepat.
Teori Informasi - ini (relatif terhadap statistik) adalah bidang yang cukup baru (meskipun masih puluhan tahun), karya yang paling penting adalah oleh Shannon, tetapi catatan yang lebih penting dan sering diabaikan dalam literatur adalah karya Hobson yang membuktikan bahwa Kullback-Leibler Divergence adalah satu-satunya definisi matematika yang benar-benar menangkap gagasan tentang "ukuran informasi" . Sekarang hal yang mendasar bagi kecerdasan buatan adalah kemampuan untuk mengukur informasi. Sarankan membaca "Konsep dalam Mekanika Statistik" - Arthur Hobson (buku yang sangat mahal, hanya tersedia di perpustakaan akademik).
Teori Kompleksitas- Masalah besar yang dihadapi banyak Ilmuwan Data yang tidak memiliki latar belakang teori kompleksitas yang rumit adalah bahwa algoritma mereka tidak berskala, atau hanya membutuhkan waktu yang sangat lama untuk dijalankan pada data yang besar. Ambil PCA sebagai contoh, banyak jawaban favorit orang untuk pertanyaan wawancara "bagaimana Anda mengurangi jumlah fitur dalam dataset kami", tetapi bahkan jika Anda memberi tahu kandidat "kumpulan data benar-benar sangat besar" mereka masih mengusulkan berbagai bentuk PCA yang O (n ^ 3). Jika Anda ingin menonjol, Anda ingin dapat menyelesaikan setiap masalah dengan sendirinya, JANGAN melempar beberapa solusi buku teks yang dirancang sejak lama sebelum Big Data adalah hal yang sangat populer. Untuk itu Anda perlu memahami berapa lama waktu yang dibutuhkan untuk menjalankan, tidak hanya secara teoritis, tetapi juga praktis - jadi bagaimana menggunakan sekelompok komputer untuk mendistribusikan suatu algoritma,
Keterampilan Komunikasi - Bagian besar dari Ilmu Data adalah memahami bisnis. Apakah itu menciptakan produk yang didorong oleh ilmu data, atau memberikan wawasan bisnis yang didorong oleh ilmu data, mampu berkomunikasi dengan baik dengan Manajer Proyek dan Produk, tim teknologi, dan sesama ilmuwan data Anda sangat penting. Anda dapat memiliki ide yang luar biasa, katakan solusi AI yang luar biasa, tetapi jika Anda tidak dapat secara efektif (a) berkomunikasi MENGAPA akan menghasilkan uang bisnis, (b) meyakinkan kolega Anda itu akan berhasil dan (c) menjelaskan kepada orang-orang teknologi betapa Anda membutuhkan bantuan mereka untuk membangunnya, maka itu tidak akan selesai.
sumber
Ilmuwan data (bagi saya) istilah payung besar. Saya akan melihat seorang ilmuwan data sebagai orang yang mahir dapat menggunakan teknik dari bidang penambangan data, pembelajaran mesin, klasifikasi pola, dan statistik.
Namun, istilah-istilah itu terkait dengan: pembelajaran mesin diikat bersama dengan klasifikasi pola, dan juga penambangan data tumpang tindih ketika datang menemukan pola dalam data. Dan semua teknik memiliki prinsip statistik yang mendasarinya. Saya selalu membayangkan ini sebagai diagram Venn dengan persimpangan besar.
Ilmu komputer juga terkait dengan semua bidang itu. Saya akan mengatakan bahwa Anda memerlukan teknik "ilmu data" untuk melakukan penelitian komputer-ilmiah, tetapi pengetahuan ilmu komputer tidak selalu tersirat dalam "ilmu data". Namun, keterampilan pemrograman - saya melihat pemrograman dan ilmu komputer sebagai profesi yang berbeda, di mana pemrograman lebih merupakan alat untuk menyelesaikan masalah - juga penting untuk bekerja dengan data dan melakukan analisis data.
Anda memiliki rencana studi yang sangat bagus, dan itu semua masuk akal. Tetapi saya tidak yakin jika Anda "ingin" menyebut diri Anda hanya "ilmuwan data", saya memiliki kesan bahwa "ilmuwan data" adalah istilah yang ambigu yang dapat berarti segalanya atau tidak sama sekali. Yang ingin saya sampaikan adalah bahwa Anda pada akhirnya akan menjadi sesuatu yang lebih - lebih "terspesialisasi" - daripada "hanya" seorang ilmuwan data.
sumber