Pertama-tama istilah ini terdengar sangat tidak jelas.
Omong-omong..Saya seorang programmer perangkat lunak. Salah satu bahasa yang saya dapat kode adalah Python. Berbicara tentang Data Saya dapat menggunakan SQL dan dapat melakukan Pengikisan Data. Apa yang saya ketahui sejauh ini setelah membaca begitu banyak artikel bahwa Ilmu Data adalah tentang yang baik di:
1- Statistik
2- Aljabar
3 - Analisis Data
4- Visualisasi.
5- Mesin Pembelajaran.
Apa yang saya ketahui sejauh ini:
1- Pemrograman Python 2- Memotong data dengan Python
Dapatkah Anda para ahli membimbing saya atau menyarankan peta jalan untuk memoles teori dan praktis? Saya telah memberikan kerangka waktu sekitar 8 bulan untuk diri saya sendiri.
Jawaban:
Kurang fokus pada memperoleh keterampilan dan lebih banyak pada mendapatkan pengalaman. Cobalah untuk benar-benar menyelesaikan beberapa masalah dan memposting pekerjaan Anda di github. Anda akan belajar lebih banyak dalam proses dan dapat menunjukkan pengetahuan dan pengalaman kepada pengusaha, yang jauh lebih berharga daripada memiliki pemahaman yang mendalam tentang suatu topik atau teori.
Ilmu Data adalah bidang yang cukup banyak hari ini, jadi saya tidak yakin jenis pekerjaan apa yang ingin Anda lakukan secara spesifik, tetapi dengan asumsi bahwa pembelajaran mesin adalah komponen darinya maka kaggle.com adalah tempat yang baik untuk memulai. Dalam hal tujuan, jika Anda dapat bekerja dengan data dalam panda / numpy / scipy, membuat model dalam sci-kit, belajar dan membuat beberapa grafik cantik di seaborn, ggplot atau bahkan matplotlib maka Anda tidak akan kesulitan mendapatkan pekerjaan dari perspektif keterampilan - terutama jika Anda memiliki sampel kode dan contoh untuk menunjukkan kemampuan Anda. Jika Anda buntu maka stackexchange akan memiliki jawaban atau Anda dapat memposting pertanyaan dan Anda akan memiliki jawaban segera. Setelah Anda melakukan pekerjaan untuk mencari nafkah maka Anda akan belajar lebih banyak lagi, kemungkinan dari seorang anggota tim senior yang membimbing Anda.
Semoga berhasil.
sumber
Saya suka kursus Berkeley tentang Ilmu Data, akan memberikan dasar dan selera yang baik untuk Ilmu Data, Setelah pindah ke udacity dan coursera dan banyak lagi sumber daya. Jadi, jika Anda memiliki keterampilan Pemrograman daripada akan membutuhkan matematika dan stat dan banyak visualisasi. Juga akan bagus untuk membiasakan diri dengan IPython karena sangat penting untuk melihat setiap langkah (memvisualisasikan) bagaimana kinerjanya daripada menulis seluruh skrip dan tes setelahnya (anaconda mudah dipasang dan bekerja dengan). Kursus terdaftar di bawah ini: bcourses.berkeley.edu/courses/1267848/wiki juga stat saya menemukan kursus gratis yang bagus dari SAS: Statistik 1: Pengantar ANOVA, Regresi, dan dukungan Regresi Logistik.sas.com/edu/schedules.html ? ctry = us & id = 1979
Memulai dengan ML akan merekomendasikan: www.kaggle.com/c/titanic/details/getting-started-with-python
di sebelah kiri juga untuk Excel menggunakan tabel Pivot dan R. DataCamp telah merilis tutorial tentang cara menggunakan R. Setelah Anda menyelesaikan langkah-langkah ini, lebih banyak kompetisi dalam mendapatkan pengalaman di kaggle (baru-baru ini dirilis satu untuk Klasifikasi Kejahatan San Francisco) dan akhirnya tutorial video menakjubkan dari www.dataschool.io
semoga membantu ...
sumber
Tidak setuju dengan David, seorang ilmuwan data sejati adalah ahli statistik terapan yang mengkode dan tahu bagaimana menggunakan algoritma pembelajaran mesin untuk alasan yang tepat. Statistik adalah basis dari semua ilmu data. Ini adalah "kue" per se. Yang lainnya hanyalah lapisan gula.
Pertanyaannya adalah seperti apa data ilmuwan yang Anda inginkan? Apakah Anda ingin menjadi master subjek (pengetahuan tentang bagaimana, mengapa, kapan dan kapan tidak menerapkan algoritma atau teknik) atau Script Kaggle Kiddie menggunakan Scipy dan berpikir bahwa ia adalah Ilmuwan Data?
1 - Statistik
2- Yang lainnya
sumber
Jika Anda ingin menjadi orang yang praktis dengan pengetahuan sejati, mulailah dengan matematika (kalkulus, probabilitas + stat, aljabar lelinear). Pada setiap langkah coba terapkan semuanya dengan pemrograman, python bagus untuk ini. Ketika Anda mendapatkan dasar yang baik, bermainlah dengan data nyata dan pecahkan masalah
Kursus. Aljabar linier - edx Laff atau pengkodean matriks Stat - edx stat 2x Barkley Calculus - baca ... sederhana
sumber
David punya poin bagus, saya sarankan Anda fokus pada apa pun yang membuat Anda lebih tertarik. Ini satu-satunya cara untuk berhasil dalam setiap jenis usaha. Jika Anda ingin membangun sesuatu yang keren, mulailah dengan itu. Jika Anda ingin membaca buku itu bagus juga. Titik awal tidak masalah. Beberapa hari ke depan Anda akan memiliki pemahaman yang lebih baik tentang apa yang Anda inginkan dan harus Anda lakukan selanjutnya.
sumber
Ilmu Data sangat luas, ada banyak jalan yang berbeda untuk masuk ke dalamnya. Biasanya dibagi menjadi 4 atau 5 jenis berbeda misalnya:
Anda dapat melihat dari pos lain dalam topik ini orang-orang yang berasal dari latar belakang Statistik Terapan (menerapkan algoritma yang tepat), latar belakang Pemrograman (berpartisipasi dalam Kaggle), dan lainnya menerapkannya pada latar belakang bisnis
Perusahaan yang cerdas dapat merujuk pada orang yang memiringkan pemrograman sebagai "Insinyur Data". Perusahaan besar juga menggunakan masing-masing jenis untuk tim ilmu data mereka, sehingga menunjukkan keterampilan berbentuk T yang baik akan menjadi hal yang baik.
sumber
Jika Anda seorang programmer, Anda bisa mulai dengan classifier Decision Tree, fokus pada pemahaman matematika di balik Entropy dan Information-Gain. Sangat penting untuk memahami bahwa ML hanya tentang kompresi data.
Saya sangat tidak setuju dengan beberapa jawaban lain tentang nilai kursus praktis. Yang paling berharga untuk ML adalah matematika: teori bilangan, aljabar linier, dan teori probabilitas.
Jika Anda tidak fokus pada matematika, satu-satunya hal yang akan Anda pelajari adalah, bagaimana menggunakan perpustakaan untuk melakukan sihir, itu bukan pembelajaran mesin dan bukan ilmu pengetahuan sama sekali.
sumber