Setelah baru-baru ini lulus dari program PhD saya di bidang statistik, saya selama beberapa bulan terakhir mulai mencari pekerjaan di bidang statistik. Hampir setiap perusahaan yang saya anggap memiliki lowongan pekerjaan dengan judul pekerjaan " Data Scientist ". Bahkan, rasanya seperti sudah lama berlalu adalah hari-hari melihat jabatan pekerjaan Statistik Ilmuwan atau Ahli Statistik . Apakah menjadi seorang ilmuwan data benar-benar menggantikan apa yang menjadi ahli statistik atau apakah judul-judul itu sama dengan yang saya tanyakan?
Yah, sebagian besar kualifikasi untuk pekerjaan terasa seperti hal-hal yang akan memenuhi syarat di bawah judul ahli statistik. Sebagian besar pekerjaan menginginkan gelar PhD dalam statistik ( ), desain eksperimental pemahaman yang paling dibutuhkan ( ✓ ), regresi linier dan anova ( ✓ ), model linear umum ( ✓ ), dan metode multivariat lainnya seperti PCA ( ✓ ), serta pengetahuan dalam lingkungan komputasi statistik seperti R atau SAS ( ✓ ). Kedengarannya seperti ilmuwan data sebenarnya hanya nama kode untuk ahli statistik.
Namun, setiap wawancara saya mulai dengan pertanyaan: "Jadi, apakah Anda terbiasa dengan algoritma pembelajaran mesin?" Lebih sering daripada tidak, saya menemukan diri saya harus mencoba dan menjawab pertanyaan tentang data besar, komputasi kinerja tinggi, dan topik pada jaringan saraf, CART, mesin vektor dukungan, meningkatkan pohon, model tanpa pengawasan, dll. Tentu saya meyakinkan diri saya bahwa ini semua pertanyaan statistik di hati, tetapi pada akhir setiap wawancara saya tidak bisa membantu tetapi meninggalkan perasaan seperti saya semakin sedikit tahu tentang apa itu data ilmuwan.
Saya seorang ahli statistik, tetapi apakah saya seorang ilmuwan data? Saya mengerjakan masalah ilmiah jadi saya harus menjadi ilmuwan! Dan saya juga bekerja dengan data, jadi saya harus menjadi ilmuwan data! Dan menurut Wikipedia, sebagian besar akademisi akan setuju dengan saya ( https://en.wikipedia.org/wiki/Data_science , dll.)
Meskipun penggunaan istilah "ilmu data" telah meledak di lingkungan bisnis, banyak akademisi dan jurnalis tidak melihat perbedaan antara ilmu data dan statistik.
Tetapi jika saya melakukan semua wawancara kerja ini untuk posisi ilmuwan data, mengapa rasanya mereka tidak pernah menanyakan pertanyaan statistik kepada saya?
Baik setelah wawancara terakhir saya, saya memang ingin ada ilmuwan yang baik dan saya mencari data untuk menyelesaikan masalah ini (hei, bagaimanapun juga, saya adalah ilmuwan data). Namun, setelah banyak pencarian Google yang tak terhitung kemudian, saya berakhir tepat di mana saya mulai merasa seolah-olah saya sekali lagi bergulat dengan definisi apa itu seorang ilmuwan data. Saya tidak tahu apa sebenarnya data ilmuwan karena ada begitu banyak definisi tentang itu, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) tapi sepertinya semua orang mengatakan saya ingin menjadi:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- dll .... daftarnya terus berlanjut.
Nah pada akhirnya, yang saya temukan adalah "apa itu ilmuwan data" adalah pertanyaan yang sangat sulit dijawab. Heck, ada dua bulan penuh di Amstat di mana mereka mencurahkan waktu untuk mencoba menjawab pertanyaan ini:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Nah untuk saat ini, saya harus menjadi ahli statistik yang seksi untuk menjadi ilmuwan data, tetapi mudah-mudahan komunitas yang divalidasi silang mungkin dapat menjelaskan dan membantu saya memahami apa artinya menjadi seorang ilmuwan data. Bukankah semua ahli statistik ahli data?
(Edit / Perbarui)
Saya pikir ini bisa meningkatkan pembicaraan. Saya baru saja menerima email dari American Statistics Association tentang lowongan kerja dengan Microsoft untuk mencari Data Scientist. Berikut tautannya: Posisi Ilmuwan Data . Saya pikir ini menarik karena peran posisi mengenai banyak sifat khusus yang telah kita bicarakan, tetapi saya pikir banyak dari mereka memerlukan latar belakang yang sangat ketat dalam statistik, serta bertentangan dengan banyak jawaban yang diposting di bawah ini. Jika tautannya mati, berikut adalah kualitas yang dicari Microsoft dalam ilmuwan data:
Persyaratan dan Keterampilan Pekerjaan Inti:
Pengalaman Domain Bisnis menggunakan Analytics
- Harus memiliki pengalaman di beberapa domain bisnis yang relevan dalam pemanfaatan keterampilan berpikir kritis untuk membuat konsep masalah bisnis yang kompleks dan solusi mereka menggunakan analitik canggih dalam set data bisnis dunia nyata skala besar
- Kandidat harus dapat menjalankan proyek analitik secara mandiri dan membantu klien internal kami memahami temuan dan menerjemahkannya ke dalam tindakan untuk memberi manfaat bagi bisnis mereka.
Pemodelan Prediktif
- Pengalaman lintas industri dalam pemodelan prediktif
- Definisi masalah bisnis dan pemodelan konseptual dengan klien untuk memperoleh hubungan penting dan untuk menentukan ruang lingkup sistem
Statistik / Ekonometrika
- Analisis data eksplorasi untuk data terus menerus dan kategorikal
- Spesifikasi dan estimasi persamaan model struktural untuk perusahaan dan perilaku konsumen, biaya produksi, permintaan faktor, pilihan diskrit, dan hubungan teknologi lainnya sesuai kebutuhan
- Teknik statistik canggih untuk menganalisis data kontinu dan kategorikal
- Analisis deret waktu dan implementasi model peramalan
- Pengetahuan dan pengalaman dalam bekerja dengan berbagai masalah variabel
- Kemampuan untuk menilai kebenaran model dan melakukan tes diagnostik
- Kemampuan untuk menginterpretasikan statistik atau model ekonomi
- Pengetahuan dan pengalaman dalam membangun simulasi peristiwa diskrit, dan model simulasi dinamis
Manajemen data
- Keakraban dengan penggunaan T-SQL dan analisis untuk transformasi data dan penerapan teknik analisis data eksplorasi untuk set data dunia nyata yang sangat besar
- Perhatian terhadap integritas data termasuk redudansi data, akurasi data, nilai-nilai abnormal atau ekstrem, interaksi data dan nilai-nilai yang hilang.
Keterampilan Komunikasi dan Kolaborasi
- Bekerja secara mandiri dan dapat bekerja dengan tim proyek virtual yang akan meneliti solusi inovatif untuk mengatasi masalah bisnis
- Berkolaborasi dengan mitra, menerapkan keterampilan berpikir kritis, dan mendorong proyek analitik dari ujung ke ujung
- Keahlian komunikasi yang unggul, baik lisan maupun tulisan
- Visualisasi hasil analitik dalam bentuk yang dapat dikonsumsi oleh beragam pemangku kepentingan
Paket Perangkat Lunak
- Paket perangkat lunak Statistik / Ekonometrik lanjutan: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Eksplorasi, visualisasi, dan manajemen data: T-SQL, Excel, PowerBI, dan alat yang setara
Kualifikasi:
- Dibutuhkan minimal 5+ tahun pengalaman terkait
- Gelar pascasarjana di bidang kuantitatif diinginkan.
sumber
Jawaban:
Ada beberapa definisi lucu yang belum diberikan:
Saya suka yang ini, karena ia bermain dengan baik pada sudut yang lebih hype daripada substansi.
Demikian pula, ini riff pada Pantai Barat rasa semua ini.
Secara pribadi, saya menemukan diskusi (secara umum, dan di sini) agak membosankan dan berulang-ulang. Ketika saya berpikir tentang apa yang ingin saya --- mungkin seperempat abad atau lebih yang lalu --- saya bertujuan untuk analis kuantitatif. Itu masih apa yang saya lakukan (dan cinta!) Dan sebagian besar tumpang tindih dan mencakup apa yang diberikan di sini dalam berbagai jawaban.
(Catatan: Ada sumber yang lebih tua untuk kutipan dua tetapi saya tidak dapat menemukannya sekarang.)
sumber
I find the discussion (in general, and here) somewhat boring and repetitive
dan pembicaraan sia-sia tentang hal-hal sepele atau kata-kata baru, saya akan menambahkan. Saya masih belum bisa membedakan antara ilmuwan data, ilmuwan kristen, dan ilmuwan data.Orang-orang mendefinisikan Ilmu Data secara berbeda, tetapi saya pikir bagian umumnya adalah:
Bertentangan dengan namanya, jarang "sains". Artinya, dalam ilmu data penekanannya adalah pada hasil praktis (seperti dalam rekayasa), bukan bukti, kemurnian matematis atau karakteristik keras untuk ilmu akademik. Hal-hal perlu dikerjakan, dan ada sedikit perbedaan jika didasarkan pada makalah akademis, penggunaan perpustakaan yang ada, kode Anda sendiri atau peretasan dadakan.
Ahli statistik tidak perlu seorang programmer (dapat menggunakan pena & kertas dan perangkat lunak khusus). Juga, beberapa panggilan pekerjaan dalam ilmu data tidak ada hubungannya dengan statistik. Misalnya itu rekayasa data seperti memproses data besar, bahkan jika matematika paling maju mungkin ada menghitung rata-rata (secara pribadi saya tidak akan menyebut kegiatan ini "ilmu data", meskipun). Selain itu, "ilmu data" sedang digemari, sehingga pekerjaan yang berhubungan dengan tangensial menggunakan judul ini - untuk memikat pelamar atau meningkatkan ego pekerja saat ini.
Saya suka taksonomi dari jawaban Michael Hochster di Quora :
Dalam pengertian itu, Ilmuwan Data Tipe A adalah ahli statistik yang dapat memprogram. Tetapi, bahkan untuk bagian kuantitatif, mungkin ada orang-orang dengan latar belakang lebih dalam ilmu komputer (misalnya pembelajaran mesin) daripada statistik biasa, atau yang berfokus misalnya pada visualisasi data.
Dan Diagram Venn Ilmu Data (di sini: peretasan ~ pemrograman):
lihat juga diagram Venn alternatif ( ini dan itu ). Atau bahkan tweet , walaupun lucu, menunjukkan daftar keterampilan dan aktivitas khas seorang ilmuwan data:
Lihat juga posting ini: Ilmuwan data - ahli statistik, programmer, konsultan dan visualisator? .
sumber
Ada sejumlah survei bidang ilmu data. Saya suka yang ini , karena mencoba menganalisis profil orang-orang yang benar-benar memegang pekerjaan ilmu data. Alih-alih menggunakan bukti anekdotal atau bias penulis, mereka menggunakan teknik sains data untuk menganalisis data ilmuwan DNA.
Cukup mengungkap untuk melihat keterampilan yang terdaftar oleh para ilmuwan data. Perhatikan bahwa 20 keterampilan teratas mengandung banyak keterampilan TI.
MEMPERBARUI:
Jika Anda melakukan PhD, kemungkinan besar Anda sudah menjadi seorang ilmuwan, terutama jika Anda telah menerbitkan makalah dan penelitian aktif. Anda tidak perlu menjadi ilmuwan untuk menjadi ilmuwan data. Ada beberapa peran di beberapa perusahaan, seperti Walmart (lihat di bawah), di mana PhD diperlukan, tetapi biasanya para ilmuwan data memiliki gelar BS dan MS seperti yang Anda lihat dari contoh di bawah ini.
Seperti yang dapat Anda bayangkan dari grafik di atas, kemungkinan besar, Anda akan diminta untuk memiliki keterampilan pemrograman dan penanganan data yang baik. Juga, seringkali ilmu data dikaitkan dengan tingkat, seringkali "mendalam", dari keahlian dalam pembelajaran mesin. Anda tentu bisa menyebut diri Anda seorang ilmuwan data jika Anda memiliki gelar PhD dalam statistik. Namun, PhD dalam ilmu komputer dari sekolah-sekolah top mungkin lebih kompetitif daripada lulusan statistik, karena mereka mungkin memiliki pengetahuan statistik terapan yang cukup kuat yang dilengkapi dengan keterampilan pemrograman yang kuat - kombinasi yang dicari oleh para pemberi kerja. Untuk mengatasinya, Anda harus memiliki keterampilan pemrograman yang kuat, sehingga dalam keseimbangan Anda akan sangat kompetitif. Yang menarik adalah bahwa biasanya semua stat PhD akan memiliki pengalaman pemrograman, tetapi dalam ilmu data seringkali persyaratannya jauh lebih tinggi dari itu,
Bagi saya keuntungan memiliki gelar PhD dalam statistik adalah dalam masalah yang ditangkap dalam sisa frasa "jack of all trade" yang biasanya dijatuhkan: "master of none". Adalah baik untuk memiliki orang yang tahu sedikit tentang segalanya, tetapi saya selalu mencari orang yang tahu sesuatu yang mendalam juga, apakah itu statistik atau ilmu komputer tidak begitu penting. Yang penting adalah bahwa pria itu mampu mencapai ke bawah, itu adalah kualitas yang berguna ketika Anda membutuhkannya.
Survei ini juga mencantumkan pemberi kerja teratas para ilmuwan data. Microsoft di atas, tampaknya, yang mengejutkan bagi saya. Jika Anda ingin mendapatkan ide yang lebih baik tentang apa yang mereka cari, mencari LinkeIn dengan "ilmu data" di bagian Pekerjaan sangat membantu. Di bawah ini adalah dua kutipan dari pekerjaan MS dan Walmart di LinkedIn.
Ilmuwan Data Microsoft
Perhatikan, bagaimana mengetahui paket stat hanya merupakan nilai tambah, tetapi keterampilan pemrograman yang sangat baik di Jawa adalah persyaratan.
Walmart, Ilmuwan Data
Di sini, PhD lebih disukai, tetapi hanya jurusan ilmu komputer yang dinamai. Komputasi terdistribusi dengan Hadoop atau Spark mungkin merupakan keterampilan yang tidak biasa bagi ahli statistik, tetapi beberapa fisikawan teoretis dan ahli matematika terapan menggunakan alat serupa.
PEMBARUAN 2:
"Sudah Saatnya Membunuh Gelar" Data Scientist ", kata Thomas Davenport yang ikut menulis artikel di Harvard Business Review pada tahun 2012 berjudul " Data Scientist: Pekerjaan Terseksi di Abad ke-21 " yang memulai dengan menggila para ilmuwan data:
sumber
Di suatu tempat saya pernah membaca ini (EDIT: Josh Will menjelaskan tweet-nya ):
Kutipan ini dapat dijelaskan secara singkat oleh proses sains data ini . Pandangan pertama ke skema ini terlihat seperti "baik, di mana bagian pemrograman?", Tetapi jika Anda memiliki banyak data, Anda harus dapat memprosesnya.
sumber
Saya telah menulis beberapa jawaban dan setiap kali mereka mendapat panjang dan akhirnya saya memutuskan untuk bangun di kotak sabun. Tetapi saya pikir percakapan ini belum sepenuhnya mengeksplorasi dua faktor penting:
The Sains dalam Ilmu data. Pendekatan ilmiah adalah pendekatan di mana Anda mencoba menghancurkan model, teori, fitur, pilihan teknik, dll. Anda sendiri, dan hanya ketika Anda tidak dapat melakukannya, Anda menerima bahwa hasil Anda mungkin berguna. Ini adalah pola pikir dan banyak Ilmuwan Data terbaik yang saya temui memiliki latar belakang sains keras (kimia, biologi, teknik).
Ilmu Data adalah bidang yang luas. Hasil Ilmu Data yang baik biasanya melibatkan tim kecil Ilmuwan Data, masing-masing dengan spesialisasi mereka sendiri. Misalnya, satu anggota tim lebih teliti dan statistik, yang lain adalah pemrogram yang lebih baik dengan latar belakang teknik, dan yang lainnya adalah konsultan yang kuat dengan pengetahuan bisnis. Ketiganya cepat mempelajari materi pelajaran, dan ketiganya penasaran dan ingin menemukan kebenaran - betapapun menyakitkan - dan untuk melakukan apa yang menjadi kepentingan terbaik dari pelanggan (internal atau eksternal), bahkan jika pelanggan tidak aku tidak mengerti.
Mode selama beberapa tahun terakhir - sekarang memudar, saya pikir - adalah merekrut Ilmuwan Komputer yang telah menguasai teknologi cluster (ekosistem Hadoop, dll) dan mengatakan itu adalah Ilmuwan Data yang ideal. Saya pikir itulah yang telah dihadapi OP, dan saya menyarankan OP untuk mendorong kekuatan mereka dalam ketelitian, kebenaran, dan pemikiran ilmiah.
sumber
Saya pikir Bitwise mencakup sebagian besar jawaban saya tetapi saya akan menambahkan 2c saya.
Tidak, saya minta maaf tetapi ahli statistik bukan ilmuwan data, setidaknya berdasarkan pada bagaimana sebagian besar perusahaan mendefinisikan peran saat ini. Perhatikan bahwa definisi telah berubah dari waktu ke waktu, dan satu tantangan dari para praktisi adalah memastikan mereka tetap relevan.
Saya akan membagikan beberapa alasan umum mengapa kami menolak kandidat untuk peran "Data Scientist":
Tentu saja untuk peran junior Anda tidak dapat memiliki semua hal di atas. Tetapi, berapa banyak dari ketrampilan ini yang bisa Anda lewatkan dan mulai bekerja?
Akhirnya, untuk memperjelas, alasan paling umum untuk menolak non-ahli statistik adalah kurangnya pengetahuan dasar statistik. Dan di suatu tempat ada perbedaan antara seorang insinyur data dan seorang ilmuwan data. Namun demikian, para insinyur data cenderung menerapkan peran ini, karena sering kali mereka percaya bahwa "statistik" hanyalah rata-rata, varian, dan distribusi normal. Jadi, kami dapat menambahkan beberapa kata kunci statistik yang relevan namun menakutkan dalam deskripsi pekerjaan untuk memperjelas apa yang kami maksud dengan "statistik" dan mencegah kebingungan.
sumber
Izinkan saya mengabaikan hype dan buzzwords. Saya pikir "Data Scientist" (atau apa pun yang Anda ingin menyebutnya) adalah hal yang nyata dan berbeda dari ahli statistik. Ada banyak jenis posisi yang secara efektif adalah ilmuwan data tetapi tidak diberi nama itu - salah satu contohnya adalah orang yang bekerja dalam genomik.
Cara saya melihatnya, seorang ilmuwan data adalah seseorang yang memiliki keterampilan dan keahlian untuk merancang dan melaksanakan penelitian pada sejumlah besar data kompleks (misalnya dimensi sangat tinggi di mana mekanisme yang mendasarinya tidak diketahui dan kompleks).
Ini berarti:
sumber
Semua jawaban bagus, namun dalam pengalaman berburu pekerjaan saya, saya telah mencatat bahwa istilah "ilmuwan data" telah dikacaukan dengan "analis data junior" di benak para perekrut yang saya hubungi. Jadi banyak orang baik yang tidak memiliki pengalaman statistik selain dari kursus pengantar satu istilah yang mereka lakukan beberapa tahun yang lalu sekarang menyebut diri mereka ilmuwan data. Sebagai seseorang yang memiliki latar belakang ilmu komputer dan pengalaman bertahun-tahun sebagai analis data, saya mengambil gelar PhD dalam Statistik di kemudian hari dalam karir saya dengan berpikir bahwa itu akan membantu saya menonjol di antara kerumunan, saya menemukan diri saya di tengah kerumunan besar "ilmuwan data" ". Saya pikir saya akan kembali ke "ahli statistik"!
sumber
Saya seorang karyawan junior, tetapi jabatan saya adalah "ilmuwan data." Saya pikir jawaban Bitwise adalah deskripsi yang tepat tentang apa yang saya pekerjakan, tetapi saya ingin menambahkan satu poin lagi berdasarkan pengalaman saya sehari-hari di tempat kerja:
Sains adalah proses penyelidikan. Ketika data adalah sarana yang digunakan untuk penyelidikan itu, ilmu data terjadi. Itu tidak berarti bahwa setiap orang yang bereksperimen atau melakukan penelitian dengan data haruslah seorang ilmuwan data, dengan cara yang sama bahwa tidak semua orang yang bereksperimen atau melakukan penelitian dengan kabel harus seorang insinyur listrik. Tetapi ini berarti bahwa seseorang dapat memperoleh pelatihan yang cukup untuk menjadi "penanya data" yang profesional, dengan cara yang sama seperti seseorang dapat memperoleh pelatihan yang cukup untuk menjadi ahli listrik yang profesional. Pelatihan itu kurang lebih terdiri dari poin-poin dalam jawaban Bitwise, yang statistiknya merupakan komponen tetapi tidak keseluruhan.
Jawaban Piotr juga merupakan ringkasan yang bagus dari semua hal yang
perlusayalakukanseandainya saya tahu bagaimana melakukannya dalam minggu tertentu. Pekerjaan saya sejauh ini sebagian besar telah membantu memperbaiki kerusakan yang dilakukan oleh mantan karyawan yang termasuk dalam komponen "Zona Bahaya" pada diagram Venn.sumber
Baru-baru ini saya juga tertarik pada sains data sebagai karier, dan ketika saya memikirkan apa yang saya pelajari tentang pekerjaan sains data dibandingkan dengan berbagai kursus statistik yang saya ambil (dan nikmati!), Saya mulai menganggap ilmuwan data sebagai ilmuwan komputer yang mengalihkan perhatian mereka ke data. Secara khusus, saya mencatat perbedaan utama berikut. Namun perlu dicatat bahwa perbedaan muncul mood. Berikut ini hanya mencerminkan kesan subjektif saya, dan saya tidak mengklaim sifat umum. Hanya kesan saya!
Dalam statistik, Anda sangat peduli tentang distribusi, probabilitas, dan prosedur inferensial (bagaimana melakukan tes hipotesis, yang merupakan distribusi yang mendasarinya, dll). Dari apa yang saya pahami, ilmu data lebih sering daripada tidak tentang prediksi, dan kekhawatiran tentang pernyataan inferensial sampai batas tertentu diserap oleh prosedur dari ilmu komputer, seperti validasi silang.
Dalam kursus statistik, saya sering hanya membuat data saya sendiri, atau menggunakan beberapa data siap pakai yang tersedia dalam format yang agak bersih. Itu berarti itu dalam format persegi panjang yang bagus, beberapa spreadsheet excel, atau sesuatu seperti itu yang cocok dengan RAM. Pembersihan data pasti terlibat, tetapi saya tidak pernah berurusan dengan "mengekstraksi" data dari web, apalagi dari basis data yang harus disiapkan untuk menampung sejumlah data yang tidak sesuai dengan RAM lagi. Kesan saya adalah bahwa aspek komputasi ini jauh lebih dominan dalam ilmu data.
Mungkin ini mencerminkan ketidaktahuan saya tentang apa yang dilakukan ahli statistik dalam pekerjaan statistik biasa, tetapi sebelum ilmu data saya tidak pernah berpikir untuk membuat model menjadi produk yang lebih besar. Ada analisis yang harus dilakukan, masalah statistik yang harus dipecahkan, beberapa parameter untuk diperkirakan, dan hanya itu. Dalam ilmu data, nampaknya model prediktif yang sering (meskipun tidak selalu) dibangun menjadi sesuatu yang lebih besar. Misalnya, Anda mengklik di suatu tempat, dan dalam milidetik, algoritma prediktif akan memutuskan apa yang ditampilkan sebagai hasilnya. Jadi, sementara dalam statistik, saya selalu bertanya-tanya "parameter apa yang bisa kita perkirakan, dan bagaimana kita melakukannya dengan elegan", tampaknya dalam ilmu data fokusnya lebih pada "apa yang bisa kita prediksi yang berpotensi berguna dalam produk data" .
Sekali lagi, hal di atas tidak mencoba memberikan definisi umum. Saya hanya menunjukkan perbedaan besar yang saya rasakan sendiri. Saya belum dalam ilmu data, tapi saya berharap untuk transisi di tahun depan. Dalam pengertian ini, ambil dua sen saya di sini dengan sebutir garam.
sumber
Saya katakan bahwa Data Scientist adalah peran di mana seseorang menciptakan hasil yang dapat dibaca manusia untuk bisnis, menggunakan metode untuk membuat hasil secara statistik solid (signifikan).
Jika ada bagian dari definisi ini yang tidak diikuti, kita berbicara tentang pengembang, ilmuwan / ahli statistik sejati, atau insinyur data.
sumber
Saya selalu suka memotong esensi masalah ini.
sumber
Ilmu data adalah perpaduan multidisiplin dari inferensi data, pengembangan algoritma, dan teknologi untuk memecahkan masalah yang kompleks secara analitis. Tetapi karena kelangkaan Data Ilmuwan, karier dalam ilmu data benar-benar dapat menciptakan banyak peluang. Namun, organisasi mencari profesional bersertifikat dari SAS, Data Science Council of America (DASCA), Hortonworks, dll. Semoga ini adalah informasi yang baik!
sumber
Ilmuwan data memiliki keterampilan yang sangat mahir dalam pengembangan Python, MySQL, dan Java.
Mereka memiliki pemahaman yang sangat jelas tentang fungsi analitis, sangat baik di matematika, statistik, data mining, keterampilan analisis prediktif dan juga mereka memiliki pengetahuan yang sangat baik tentang bahasa pengkodean seperti Python dan R.
Banyak ilmuwan data saat ini memiliki gelar Ph.D. atau gelar master mereka sebenarnya menurut penelitian hanya sekitar 8% hanya memiliki gelar sarjana sehingga jauh lebih mendalam.
Membangun model statistik yang mengambil keputusan berdasarkan data. Setiap keputusan bisa sulit, misalnya memblokir halaman dari render, atau lunak, misalnya menetapkan skor untuk kejahatan halaman, yang digunakan oleh sistem ke bawah atau manusia.
Melakukan eksperimen kausalitas yang berupaya mengaitkan akar penyebab fenomena yang diamati. Ini dapat dilakukan dengan merancang eksperimen A / B atau jika eksperimen A / B tidak memungkinkan untuk menerapkan pendekatan epidemiologis untuk masalah tersebut, misalnya model kausal @ Rubin
Mengidentifikasi produk atau fitur baru yang berasal dari membuka nilai data; menjadi pemimpin pemikiran tentang nilai data. Contoh yang bagus tentang hal itu adalah fitur rekomendasi produk yang pertama kali disediakan Amazon untuk khalayak luas.
sumber
Untuk menjawab pertanyaan Anda, "Apa itu ilmuwan data?" Mungkin bermanfaat untuk menyadari perbedaan antara Data Scientist dan Data Mechanic seperti yang tercantum dalam http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/
sumber