Apa itu ilmuwan data?

181

Setelah baru-baru ini lulus dari program PhD saya di bidang statistik, saya selama beberapa bulan terakhir mulai mencari pekerjaan di bidang statistik. Hampir setiap perusahaan yang saya anggap memiliki lowongan pekerjaan dengan judul pekerjaan " Data Scientist ". Bahkan, rasanya seperti sudah lama berlalu adalah hari-hari melihat jabatan pekerjaan Statistik Ilmuwan atau Ahli Statistik . Apakah menjadi seorang ilmuwan data benar-benar menggantikan apa yang menjadi ahli statistik atau apakah judul-judul itu sama dengan yang saya tanyakan?

Yah, sebagian besar kualifikasi untuk pekerjaan terasa seperti hal-hal yang akan memenuhi syarat di bawah judul ahli statistik. Sebagian besar pekerjaan menginginkan gelar PhD dalam statistik ( ), desain eksperimental pemahaman yang paling dibutuhkan ( ), regresi linier dan anova ( ), model linear umum ( ), dan metode multivariat lainnya seperti PCA ( ), serta pengetahuan dalam lingkungan komputasi statistik seperti R atau SAS ( ). Kedengarannya seperti ilmuwan data sebenarnya hanya nama kode untuk ahli statistik.

Namun, setiap wawancara saya mulai dengan pertanyaan: "Jadi, apakah Anda terbiasa dengan algoritma pembelajaran mesin?" Lebih sering daripada tidak, saya menemukan diri saya harus mencoba dan menjawab pertanyaan tentang data besar, komputasi kinerja tinggi, dan topik pada jaringan saraf, CART, mesin vektor dukungan, meningkatkan pohon, model tanpa pengawasan, dll. Tentu saya meyakinkan diri saya bahwa ini semua pertanyaan statistik di hati, tetapi pada akhir setiap wawancara saya tidak bisa membantu tetapi meninggalkan perasaan seperti saya semakin sedikit tahu tentang apa itu data ilmuwan.

Saya seorang ahli statistik, tetapi apakah saya seorang ilmuwan data? Saya mengerjakan masalah ilmiah jadi saya harus menjadi ilmuwan! Dan saya juga bekerja dengan data, jadi saya harus menjadi ilmuwan data! Dan menurut Wikipedia, sebagian besar akademisi akan setuju dengan saya ( https://en.wikipedia.org/wiki/Data_science , dll.)

Meskipun penggunaan istilah "ilmu data" telah meledak di lingkungan bisnis, banyak akademisi dan jurnalis tidak melihat perbedaan antara ilmu data dan statistik.

Tetapi jika saya melakukan semua wawancara kerja ini untuk posisi ilmuwan data, mengapa rasanya mereka tidak pernah menanyakan pertanyaan statistik kepada saya?

Baik setelah wawancara terakhir saya, saya memang ingin ada ilmuwan yang baik dan saya mencari data untuk menyelesaikan masalah ini (hei, bagaimanapun juga, saya adalah ilmuwan data). Namun, setelah banyak pencarian Google yang tak terhitung kemudian, saya berakhir tepat di mana saya mulai merasa seolah-olah saya sekali lagi bergulat dengan definisi apa itu seorang ilmuwan data. Saya tidak tahu apa sebenarnya data ilmuwan karena ada begitu banyak definisi tentang itu, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) tapi sepertinya semua orang mengatakan saya ingin menjadi:

Nah pada akhirnya, yang saya temukan adalah "apa itu ilmuwan data" adalah pertanyaan yang sangat sulit dijawab. Heck, ada dua bulan penuh di Amstat di mana mereka mencurahkan waktu untuk mencoba menjawab pertanyaan ini:

Nah untuk saat ini, saya harus menjadi ahli statistik yang seksi untuk menjadi ilmuwan data, tetapi mudah-mudahan komunitas yang divalidasi silang mungkin dapat menjelaskan dan membantu saya memahami apa artinya menjadi seorang ilmuwan data. Bukankah semua ahli statistik ahli data?


(Edit / Perbarui)

Saya pikir ini bisa meningkatkan pembicaraan. Saya baru saja menerima email dari American Statistics Association tentang lowongan kerja dengan Microsoft untuk mencari Data Scientist. Berikut tautannya: Posisi Ilmuwan Data . Saya pikir ini menarik karena peran posisi mengenai banyak sifat khusus yang telah kita bicarakan, tetapi saya pikir banyak dari mereka memerlukan latar belakang yang sangat ketat dalam statistik, serta bertentangan dengan banyak jawaban yang diposting di bawah ini. Jika tautannya mati, berikut adalah kualitas yang dicari Microsoft dalam ilmuwan data:

Persyaratan dan Keterampilan Pekerjaan Inti:

Pengalaman Domain Bisnis menggunakan Analytics

  • Harus memiliki pengalaman di beberapa domain bisnis yang relevan dalam pemanfaatan keterampilan berpikir kritis untuk membuat konsep masalah bisnis yang kompleks dan solusi mereka menggunakan analitik canggih dalam set data bisnis dunia nyata skala besar
  • Kandidat harus dapat menjalankan proyek analitik secara mandiri dan membantu klien internal kami memahami temuan dan menerjemahkannya ke dalam tindakan untuk memberi manfaat bagi bisnis mereka.

Pemodelan Prediktif

  • Pengalaman lintas industri dalam pemodelan prediktif
  • Definisi masalah bisnis dan pemodelan konseptual dengan klien untuk memperoleh hubungan penting dan untuk menentukan ruang lingkup sistem

Statistik / Ekonometrika

  • Analisis data eksplorasi untuk data terus menerus dan kategorikal
  • Spesifikasi dan estimasi persamaan model struktural untuk perusahaan dan perilaku konsumen, biaya produksi, permintaan faktor, pilihan diskrit, dan hubungan teknologi lainnya sesuai kebutuhan
  • Teknik statistik canggih untuk menganalisis data kontinu dan kategorikal
  • Analisis deret waktu dan implementasi model peramalan
  • Pengetahuan dan pengalaman dalam bekerja dengan berbagai masalah variabel
  • Kemampuan untuk menilai kebenaran model dan melakukan tes diagnostik
  • Kemampuan untuk menginterpretasikan statistik atau model ekonomi
  • Pengetahuan dan pengalaman dalam membangun simulasi peristiwa diskrit, dan model simulasi dinamis

Manajemen data

  • Keakraban dengan penggunaan T-SQL dan analisis untuk transformasi data dan penerapan teknik analisis data eksplorasi untuk set data dunia nyata yang sangat besar
  • Perhatian terhadap integritas data termasuk redudansi data, akurasi data, nilai-nilai abnormal atau ekstrem, interaksi data dan nilai-nilai yang hilang.

Keterampilan Komunikasi dan Kolaborasi

  • Bekerja secara mandiri dan dapat bekerja dengan tim proyek virtual yang akan meneliti solusi inovatif untuk mengatasi masalah bisnis
  • Berkolaborasi dengan mitra, menerapkan keterampilan berpikir kritis, dan mendorong proyek analitik dari ujung ke ujung
  • Keahlian komunikasi yang unggul, baik lisan maupun tulisan
  • Visualisasi hasil analitik dalam bentuk yang dapat dikonsumsi oleh beragam pemangku kepentingan

Paket Perangkat Lunak

  • Paket perangkat lunak Statistik / Ekonometrik lanjutan: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
  • Eksplorasi, visualisasi, dan manajemen data: T-SQL, Excel, PowerBI, dan alat yang setara

Kualifikasi:

  • Dibutuhkan minimal 5+ tahun pengalaman terkait
  • Gelar pascasarjana di bidang kuantitatif diinginkan.
Ahli Statistik Rusty
sumber
6
Pertanyaan bagus! Saya telah bertanya-tanya tentang ini cukup banyak belakangan ini. Di mata saya tampaknya pekerjaan yang memasukkan data ilmuwan dalam deskripsi mencari orang yang dapat menerapkan metode statistik / ML yang berskala baik, belum tentu orang yang dapat berurusan dengan teori. Saya masih berpikir bahwa ada beberapa redundansi dalam uraian tugas ini. Membutuhkan PhD mungkin sering merupakan kualifikasi yang berlebihan dan SDM yang membuat uraian tugas ini sangat dipengaruhi oleh desas-desus seputar data besar. Apakah seorang ilmuwan data ahli statistik atau sebaliknya adalah pertanyaan utama yang ingin saya jawab.
Gumeo
4
Saya pikir ini adalah makalah yang sangat bagus yang membahas perubahan dalam budaya menjadi seorang ahli statistik dibandingkan menjadi seorang ilmuwan data: projecteuclid.org/download/pdf_1/euclid.ss/1009213726
RustyStatistician
6
"Tetapi jika saya melakukan semua wawancara kerja ini untuk posisi ilmuwan data, mengapa rasanya mereka tidak pernah menanyakan pertanyaan statistik" ... kisah hidup saya ... secara harfiah LOL !!! Saya pikir ilmu data, statistik, ekonometrika, biostat, dll. memiliki tumpang tindih yang cukup besar tetapi mereka semua menggunakan jargon yang berbeda yang membuat komunikasi sulit (terutama ketika Anda sedang diwawancarai oleh orang SDM yang tidak memiliki pengetahuan dan fokus pada kata-kata kunci). Semoga peningkatan upaya antar-disiplin dan beberapa pikiran terbuka yang sangat dibutuhkan akan mengubah ini di masa depan.
Zachary Blumenfeld
9
Saya telah mengikuti "kebangkitan ilmuwan data" sejak menjadi arus utama pada tahun 2008. Bagi saya itu dan sebagian besar istilah pemasaran memicu hype - statistik disiplin ilmu, pembelajaran mesin, teknik data, analisis data semua adalah sama dengan penekanan berbeda. Paraphrasing G. Box: Jika ditanya pertanyaan seperti "Apakah Anda seorang Bayesian, sering, analis data, perancang eksperimen, ilmuwan data?" Bilang iya".
Momo
10
@Momo: Namun demikian, jika seseorang membuka salah satu dari lebih dari 600 halaman buku teks yang disebut "Pembelajaran mesin" (atau serupa) dan salah satu buku teks yang disebut "Statistik" (atau serupa), akan ada sedikit tumpang tindih. Saya Bishop Pola Pengakuan dan Machine Learning atau Murphy Machine Learning memiliki hampir nol persimpangan dengan Lehman & Casella Teori Titik Estimasi , Casella & Berger statistik Inference , atau Maxwell & Delaney Merancang Percobaan dan Analisis data . Mereka sangat berbeda sehingga saya pikir orang yang akrab dengan satu set buku mungkin mengalami kesulitan membaca yang lain.
amoeba

Jawaban:

52

Ada beberapa definisi lucu yang belum diberikan:

Data Scientist: Seseorang yang melakukan statistik pada Mac.

Saya suka yang ini, karena ia bermain dengan baik pada sudut yang lebih hype daripada substansi.

Data Scientist: Seorang Ahli Statistik yang tinggal di San Francisco.

Demikian pula, ini riff pada Pantai Barat rasa semua ini.

Secara pribadi, saya menemukan diskusi (secara umum, dan di sini) agak membosankan dan berulang-ulang. Ketika saya berpikir tentang apa yang ingin saya --- mungkin seperempat abad atau lebih yang lalu --- saya bertujuan untuk analis kuantitatif. Itu masih apa yang saya lakukan (dan cinta!) Dan sebagian besar tumpang tindih dan mencakup apa yang diberikan di sini dalam berbagai jawaban.

(Catatan: Ada sumber yang lebih tua untuk kutipan dua tetapi saya tidak dapat menemukannya sekarang.)

Dirk Eddelbuettel
sumber
27
+1. I find the discussion (in general, and here) somewhat boring and repetitivedan pembicaraan sia-sia tentang hal-hal sepele atau kata-kata baru, saya akan menambahkan. Saya masih belum bisa membedakan antara ilmuwan data, ilmuwan kristen, dan ilmuwan data.
ttnphns
1
LOL @ data ilmuwan.
dsaxton
4
Dan saya mengarahkan topi saya kepada Orang yang Sangat Serius (tentu saja anonim) yang baru saja datang, turun jabatan dan tidak meninggalkan alasan. Petunjuk: Itu bukan bagaimana diskusi meningkat.
Dirk Eddelbuettel
1
Menjadi ahli statistik di San Francisco Selatan yang sangat aktif memperjuangkan gelar Data Scientist, definisi kedua mengenai terlalu dekat dengan rumah (tapi saya bukan downvoter).
Cliff AB
1
(+1) @CliffAB Saya sebenarnya seorang ahli statistik di South San Francisco juga.
RustyStatistician
87

Orang-orang mendefinisikan Ilmu Data secara berbeda, tetapi saya pikir bagian umumnya adalah:

  • pengetahuan praktis bagaimana menangani data,
  • keterampilan pemrograman praktis.

Bertentangan dengan namanya, jarang "sains". Artinya, dalam ilmu data penekanannya adalah pada hasil praktis (seperti dalam rekayasa), bukan bukti, kemurnian matematis atau karakteristik keras untuk ilmu akademik. Hal-hal perlu dikerjakan, dan ada sedikit perbedaan jika didasarkan pada makalah akademis, penggunaan perpustakaan yang ada, kode Anda sendiri atau peretasan dadakan.

Ahli statistik tidak perlu seorang programmer (dapat menggunakan pena & kertas dan perangkat lunak khusus). Juga, beberapa panggilan pekerjaan dalam ilmu data tidak ada hubungannya dengan statistik. Misalnya itu rekayasa data seperti memproses data besar, bahkan jika matematika paling maju mungkin ada menghitung rata-rata (secara pribadi saya tidak akan menyebut kegiatan ini "ilmu data", meskipun). Selain itu, "ilmu data" sedang digemari, sehingga pekerjaan yang berhubungan dengan tangensial menggunakan judul ini - untuk memikat pelamar atau meningkatkan ego pekerja saat ini.

Saya suka taksonomi dari jawaban Michael Hochster di Quora :

Tipe A Data Scientist: A adalah untuk Analisis. Jenis ini terutama berkaitan dengan membuat pengertian data atau bekerja dengannya dengan cara yang cukup statis. Tipe A Data Scientist sangat mirip dengan ahli statistik (dan mungkin satu) tetapi mengetahui semua detail praktis dari bekerja dengan data yang tidak diajarkan dalam kurikulum statistik: pembersihan data, metode untuk menangani set data yang sangat besar, visualisasi , pengetahuan yang mendalam tentang domain tertentu, menulis dengan baik tentang data, dan sebagainya.

Tipe B Data Scientist: B adalah untuk Bangunan. Tipe B Data Para ilmuwan berbagi latar belakang statistik dengan Tipe A, tetapi mereka juga coders yang sangat kuat dan mungkin dilatih insinyur perangkat lunak. Tipe B Data Scientist terutama tertarik menggunakan data “dalam produksi.” Mereka membangun model yang berinteraksi dengan pengguna, sering menyajikan rekomendasi (produk, orang yang mungkin Anda kenal, iklan, film, hasil pencarian).

Dalam pengertian itu, Ilmuwan Data Tipe A adalah ahli statistik yang dapat memprogram. Tetapi, bahkan untuk bagian kuantitatif, mungkin ada orang-orang dengan latar belakang lebih dalam ilmu komputer (misalnya pembelajaran mesin) daripada statistik biasa, atau yang berfokus misalnya pada visualisasi data.

Dan Diagram Venn Ilmu Data (di sini: peretasan ~ pemrograman):

Diagram Venn Ilmu Data

lihat juga diagram Venn alternatif ( ini dan itu ). Atau bahkan tweet , walaupun lucu, menunjukkan daftar keterampilan dan aktivitas khas seorang ilmuwan data:

seorang ilmuwan data harus bisa

Lihat juga posting ini: Ilmuwan data - ahli statistik, programmer, konsultan dan visualisator? .

Piotr Migdal
sumber
14
Saya suka tweet itu. Saya akan menambahkan bahwa dia juga harus tahu cara membuat pizza, menumbuhkan sayuran ekologis sendiri, menulis puisi dan menari salsa :)
Tim
3
Berdalih minor: tidak semua "ilmu" memiliki penekanan pada "bukti atau kemurnian matematika". Pikirkan misalnya biologi.
amoeba
2
Apa artinya meretas nilai p? Menurut saya seseorang (alias klien) memiliki target nilai-p yang ditentukan dan ilmuwan data seharusnya memotong dan memotong data sehingga target nilai-p dapat dicapai. Atau apakah itu seharusnya berarti sesuatu yang berbeda?
emory
2
@amory Tweet ini lucu (Ini adalah pastish dari paragraf dari en.wikiquote.org/wiki/Time_Enough_for_Love , "Seorang manusia harus dapat [daftar]. Spesialisasi adalah untuk serangga."). "Meretas nilai-p" jelas merupakan praktik yang kelam (sayangnya, lazim di beberapa disiplin akademis), dan (saya harap) ada di sini sebagai lelucon.
Piotr Migdal
4
+1 untuk komentar tentang tidak memanggil seseorang Ilmuwan Data yang menghitung "statistik" sederhana pada set data yang sangat besar. Saya pikir kita akan keluar dari fase dalam Ilmu Data di mana Ilmuwan Komputer yang berspesialisasi dalam komputasi cluster (Hadoop, dll) diberi label "Data Scientists". Saya tidak memandang rendah keterampilan itu, tetapi keterampilan itu tidak sepenting keterampilan statistik / penalaran / investigasi dan teknologinya bergerak melampaui pengurangan peta.
Wayne
42

Ada sejumlah survei bidang ilmu data. Saya suka yang ini , karena mencoba menganalisis profil orang-orang yang benar-benar memegang pekerjaan ilmu data. Alih-alih menggunakan bukti anekdotal atau bias penulis, mereka menggunakan teknik sains data untuk menganalisis data ilmuwan DNA.

Cukup mengungkap untuk melihat keterampilan yang terdaftar oleh para ilmuwan data. Perhatikan bahwa 20 keterampilan teratas mengandung banyak keterampilan TI.

Di dunia saat ini, seorang ilmuwan data diharapkan menjadi dongkrak dari semua perdagangan; pembelajar mandiri yang memiliki dasar kuantitatif yang kuat, kecakapan pemrograman, keingintahuan intelektual tanpa batas, dan keterampilan komunikasi yang hebat.

masukkan deskripsi gambar di sini

MEMPERBARUI:

Saya seorang ahli statistik, tetapi apakah saya seorang ilmuwan data? Saya mengerjakan masalah ilmiah jadi saya harus menjadi ilmuwan!

Jika Anda melakukan PhD, kemungkinan besar Anda sudah menjadi seorang ilmuwan, terutama jika Anda telah menerbitkan makalah dan penelitian aktif. Anda tidak perlu menjadi ilmuwan untuk menjadi ilmuwan data. Ada beberapa peran di beberapa perusahaan, seperti Walmart (lihat di bawah), di mana PhD diperlukan, tetapi biasanya para ilmuwan data memiliki gelar BS dan MS seperti yang Anda lihat dari contoh di bawah ini.

Seperti yang dapat Anda bayangkan dari grafik di atas, kemungkinan besar, Anda akan diminta untuk memiliki keterampilan pemrograman dan penanganan data yang baik. Juga, seringkali ilmu data dikaitkan dengan tingkat, seringkali "mendalam", dari keahlian dalam pembelajaran mesin. Anda tentu bisa menyebut diri Anda seorang ilmuwan data jika Anda memiliki gelar PhD dalam statistik. Namun, PhD dalam ilmu komputer dari sekolah-sekolah top mungkin lebih kompetitif daripada lulusan statistik, karena mereka mungkin memiliki pengetahuan statistik terapan yang cukup kuat yang dilengkapi dengan keterampilan pemrograman yang kuat - kombinasi yang dicari oleh para pemberi kerja. Untuk mengatasinya, Anda harus memiliki keterampilan pemrograman yang kuat, sehingga dalam keseimbangan Anda akan sangat kompetitif. Yang menarik adalah bahwa biasanya semua stat PhD akan memiliki pengalaman pemrograman, tetapi dalam ilmu data seringkali persyaratannya jauh lebih tinggi dari itu,

Bagi saya keuntungan memiliki gelar PhD dalam statistik adalah dalam masalah yang ditangkap dalam sisa frasa "jack of all trade" yang biasanya dijatuhkan: "master of none". Adalah baik untuk memiliki orang yang tahu sedikit tentang segalanya, tetapi saya selalu mencari orang yang tahu sesuatu yang mendalam juga, apakah itu statistik atau ilmu komputer tidak begitu penting. Yang penting adalah bahwa pria itu mampu mencapai ke bawah, itu adalah kualitas yang berguna ketika Anda membutuhkannya.

Survei ini juga mencantumkan pemberi kerja teratas para ilmuwan data. Microsoft di atas, tampaknya, yang mengejutkan bagi saya. Jika Anda ingin mendapatkan ide yang lebih baik tentang apa yang mereka cari, mencari LinkeIn dengan "ilmu data" di bagian Pekerjaan sangat membantu. Di bawah ini adalah dua kutipan dari pekerjaan MS dan Walmart di LinkedIn.

  • Ilmuwan Data Microsoft

    • 5+ tahun pengalaman Pengembangan Perangkat Lunak dalam membangun Sistem / Layanan Pemrosesan Data
    • Sarjana atau kualifikasi yang lebih tinggi dalam Ilmu Komputer, EE, atau Matematika dengan spesialisasi dalam Statistik, Penambangan Data atau Pembelajaran Mesin.
    • Keterampilan Pemrograman Yang Sangat Baik (C #, Java, Python, Dll) dalam memanipulasi data skala besar
    • Pengetahuan kerja tentang Hadoop atau teknologi pemrosesan Big Data lainnya
    • Pengetahuan tentang produk analitik (misalnya R, SQL AS, SAS, Mahout, dll.) Merupakan nilai tambah.

Perhatikan, bagaimana mengetahui paket stat hanya merupakan nilai tambah, tetapi keterampilan pemrograman yang sangat baik di Jawa adalah persyaratan.

  • Walmart, Ilmuwan Data

    • PhD dalam ilmu komputer atau bidang serupa atau MS dengan setidaknya 2-5 tahun pengalaman terkait
    • Keterampilan pengkodean fungsional yang baik dalam C ++ atau Java (Java sangat disukai)
    • harus mampu menghabiskan hingga 10% hari kerja harian dalam menulis kode produksi dalam C ++ / Java / Hadoop / Hive
    • Pengetahuan tingkat ahli dari salah satu bahasa scripting seperti Python atau Perl.
    • Pengalaman bekerja dengan set data besar dan alat komputasi terdistribusi merupakan nilai tambah (Peta / Kurangi, Hadoop, Hive, Spark dll.)

Di sini, PhD lebih disukai, tetapi hanya jurusan ilmu komputer yang dinamai. Komputasi terdistribusi dengan Hadoop atau Spark mungkin merupakan keterampilan yang tidak biasa bagi ahli statistik, tetapi beberapa fisikawan teoretis dan ahli matematika terapan menggunakan alat serupa.

PEMBARUAN 2:

"Sudah Saatnya Membunuh Gelar" Data Scientist ", kata Thomas Davenport yang ikut menulis artikel di Harvard Business Review pada tahun 2012 berjudul " Data Scientist: Pekerjaan Terseksi di Abad ke-21 " yang memulai dengan menggila para ilmuwan data:

Apa artinya hari ini untuk mengatakan bahwa Anda adalah — atau ingin menjadi, atau ingin mempekerjakan — “ilmuwan data?” Sayangnya, tidak banyak.

Aksakal
sumber
3
+1 untuk menggunakan data dan menautkan ke laporan yang digerakkan oleh data yang bagus. Tetapi apakah tangkapan layar membutuhkan antarmuka browser web?
Piotr Migdal
@PiotrMigdal, saya harus belajar memotong atau berhenti menjadi malas
Aksakal
4
Saya memotongnya untuk Anda.
amoeba
1
Saya tergoda untuk melakukan downvote setelah pembaruan hari ini: utas ini sudah sangat sibuk dan memiliki dinding kutipan yang sangat besar untuk digulir ke bawah tidak terlalu membantu menurut pendapat saya ... Mungkin tautan + ringkasan singkat dapat mencukupi?
amoeba
1
@amoeba, saya menanggalkan daftar. Ini komentar yang adil
Aksakal
39

Di suatu tempat saya pernah membaca ini (EDIT: Josh Will menjelaskan tweet-nya ):

Ilmuwan data adalah orang yang lebih baik dalam statistik daripada programmer dan lebih baik dalam pemrograman daripada ahli statistik apa pun.

Kutipan ini dapat dijelaskan secara singkat oleh proses sains data ini . Pandangan pertama ke skema ini terlihat seperti "baik, di mana bagian pemrograman?", Tetapi jika Anda memiliki banyak data, Anda harus dapat memprosesnya.

pengguna3624251
sumber
11
Jadi mungkin setiap kontributor R yang merupakan ahli statistik adalah ilmuwan data? ;)
Tim
15
Wow, saya baru saja berjalan-jalan situs, bertanya-tanya tentang pertanyaan ini (mengingat bahwa ada datacience ) dan kemudian secara sepintas belajar bahwa saya memiliki halaman Wikipedia sialan ? Itu adalah berita baru bagi saya ... Dan untuk apa nilainya, saya dilatih dalam Ekonometrika, bukan statistik, tetapi telah bekerja sebagai 'kuant' selama 20 tahun lebih. Itulah efektif sama dengan ilmu data ...
Dirk Eddelbuettel
3
-1. Saya mengundurkan diri bukan karena saya tidak suka dengan kutipannya (itu kemungkinan besar hanya sedikit saja), tetapi karena jawabannya terlalu singkat dan tidak penting, khususnya dibandingkan dengan banyak jawaban lain di sini. Saya sarankan itu diubah menjadi komentar, kecuali mungkin Anda mengembangkannya entah bagaimana.
amoeba
3
Berikut adalah penjelasan dari kutipan ini oleh penulisnya Josh Wills . Tiga paragraf pertama setelah kutipan cukup relevan dengan diskusi ini.
amoeba
3
@amoeba: Saya menyukai artikel Josh Wills hingga saat ini: "Saya menduga bahwa kami mengajar orang-orang statistik canggih dengan cara yang cenderung menakuti para ilmuwan komputer dengan berfokus pada model parametrik yang membutuhkan banyak kalkulus alih-alih model non-parametrik yang terutama komputasi ". Juga, saya sangat tidak setuju dengannya bahwa lebih mudah untuk mengajarkan statistik lanjutan kepada orang-orang CS daripada bagaimana memprogram dengan baik untuk ahli statistik (walaupun saya tentu setuju bahwa kebanyakan ahli statistik adalah pemrogram yang buruk).
Cliff AB
15

Saya telah menulis beberapa jawaban dan setiap kali mereka mendapat panjang dan akhirnya saya memutuskan untuk bangun di kotak sabun. Tetapi saya pikir percakapan ini belum sepenuhnya mengeksplorasi dua faktor penting:

  1. The Sains dalam Ilmu data. Pendekatan ilmiah adalah pendekatan di mana Anda mencoba menghancurkan model, teori, fitur, pilihan teknik, dll. Anda sendiri, dan hanya ketika Anda tidak dapat melakukannya, Anda menerima bahwa hasil Anda mungkin berguna. Ini adalah pola pikir dan banyak Ilmuwan Data terbaik yang saya temui memiliki latar belakang sains keras (kimia, biologi, teknik).

  2. Ilmu Data adalah bidang yang luas. Hasil Ilmu Data yang baik biasanya melibatkan tim kecil Ilmuwan Data, masing-masing dengan spesialisasi mereka sendiri. Misalnya, satu anggota tim lebih teliti dan statistik, yang lain adalah pemrogram yang lebih baik dengan latar belakang teknik, dan yang lainnya adalah konsultan yang kuat dengan pengetahuan bisnis. Ketiganya cepat mempelajari materi pelajaran, dan ketiganya penasaran dan ingin menemukan kebenaran - betapapun menyakitkan - dan untuk melakukan apa yang menjadi kepentingan terbaik dari pelanggan (internal atau eksternal), bahkan jika pelanggan tidak aku tidak mengerti.

Mode selama beberapa tahun terakhir - sekarang memudar, saya pikir - adalah merekrut Ilmuwan Komputer yang telah menguasai teknologi cluster (ekosistem Hadoop, dll) dan mengatakan itu adalah Ilmuwan Data yang ideal. Saya pikir itulah yang telah dihadapi OP, dan saya menyarankan OP untuk mendorong kekuatan mereka dalam ketelitian, kebenaran, dan pemikiran ilmiah.

Wayne
sumber
@RustyStatistician: Sama-sama. Saya akan menambahkan bahwa konsultan tempat saya bekerja memiliki PhD (teknik, biologi, astronomi, ilmu komputer), tetapi secara umum dilihat gelar MS - sering kali orang-orang dengan pengalaman kerja yang kembali untuk MS di Analytics - sebagai titik awal . Yang mengatakan, saya bersyukur setiap hari untuk rekan kerja PhD biologi saya yang saat ini pada proyek di mana saya memimpin teknologi. Seiring dengan pimpinan proyek yang memiliki latar belakang Ekonomi (dan MS dalam Analisis), kami adalah tim yang hebat! (MS saya ada di Inteligensi Buatan.)
Wayne
+1, tapi saya ingin tahu tentang poin pertama Anda yang mengatakan bahwa ilmu data [baik] adalah ilmu. Jika demikian, ini adalah istilah yang aneh dan mungkin menyesatkan (?) Karena "ilmu data" tidak mempelajari "data" itu sendiri; itu menggunakan data untuk mempelajari sesuatu yang lain, apa pun yang menarik dalam aplikasi yang diberikan. Sebaliknya, misalnya "ilmu politik" seharusnya mempelajari politik dan "ilmu saraf" mempelajari neuron, seperti namanya.
amoeba
1
@amoeba: Sebenarnya, saya maksudkan bahwa seorang Ilmuwan Data harus menggunakan metode ilmiah ala Richard Feynman sebagai bagian dari bagaimana mereka memahami dan menggunakan data. (Seperti yang Anda katakan, dalam mengejar aplikasi tertentu.) Ini adalah bagian statistik pekerjaan: "Variabel ini tampaknya sangat signifikan - apakah itu bocoran dari masa depan?" Atau "Model ini tampaknya masuk akal, tetapi mari kita jalankan CV pada seluruh proses pembuatan model, dan kemudian mari kita lakukan beberapa resampling di atas itu." Berusaha keras untuk menyangkal model / teori Anda dan melibatkan orang lain dalam melakukannya. Tidak menerima "M&M Hijau menyebabkan kanker".
Wayne
@Wayne adalah satu-satunya yang menyebutkan "metode ilmiah" sejauh ini. Ini sangat menyedihkan.
jgomo3
Pemahaman fisika, terutama unit, diperlukan bagi siapa pun yang mencoba memahami apa pun. Namun, dalam dunia baru kita yang berani ini, seringkali cukup untuk melakukan pengamatan heuristik yang memiliki nilai prediksi sub-optimal sebagai "gob-stoppers," tetapi bukan solusi nyata.
Carl
14

Saya pikir Bitwise mencakup sebagian besar jawaban saya tetapi saya akan menambahkan 2c saya.

Tidak, saya minta maaf tetapi ahli statistik bukan ilmuwan data, setidaknya berdasarkan pada bagaimana sebagian besar perusahaan mendefinisikan peran saat ini. Perhatikan bahwa definisi telah berubah dari waktu ke waktu, dan satu tantangan dari para praktisi adalah memastikan mereka tetap relevan.

Saya akan membagikan beberapa alasan umum mengapa kami menolak kandidat untuk peran "Data Scientist":

  • Harapan tentang ruang lingkup pekerjaan. Biasanya DS harus dapat bekerja secara mandiri. Itu berarti tidak ada orang lain yang bisa membuat dataset untuknya guna menyelesaikan masalah yang ditugaskan padanya. Jadi, dia harus dapat menemukan sumber data, meminta mereka, memodelkan solusi dan kemudian, sering kali, juga membuat prototipe yang memecahkan masalah. Sering kali itu hanyalah pembuatan dasbor, alarm, atau laporan langsung yang terus diperbarui.
  • Komunikasi . Tampaknya, banyak ahli statistik mengalami kesulitan "menyederhanakan" dan "menjual" ide-ide mereka kepada para pelaku bisnis. Bisakah Anda menunjukkan hanya satu grafik dan menceritakan sebuah kisah dari data sedemikian rupa sehingga semua orang di ruangan itu bisa mendapatkannya? Perhatikan, bahwa ini adalah setelah Anda memastikan bahwa Anda dapat mempertahankan setiap bit analisis jika ditantang.
  • Keterampilan pengkodean . Kami tidak memerlukan keterampilan pengkodean tingkat produksi, karena kami memiliki pengembang untuk itu, namun, kami membutuhkannya untuk dapat menulis prototipe dan menggunakannya sebagai layanan web dalam contoh AWS EC2. Jadi, keterampilan pengkodean tidak berarti kemampuan untuk menulis skrip R. Saya dapat menambahkan kelancaran di Linux di suatu tempat di sini mungkin. Jadi, standarnya lebih tinggi dari apa yang cenderung dipercaya oleh kebanyakan ahli statistik.
  • SQL dan basis data . Tidak, dia tidak dapat mengambil itu di pekerjaan, karena kita benar-benar membutuhkannya untuk mengadaptasi SQL dasar yang sudah dia ketahui dan belajar bagaimana untuk menanyakan berbagai sistem DB yang kita gunakan di seluruh organisasi termasuk Redshift, HIVE, dan Presto - masing-masing yang menggunakan rasa SQL sendiri. Plus, mempelajari SQL di tempat kerja berarti kandidat akan menciptakan masalah di setiap analis lain sampai mereka belajar bagaimana menulis pertanyaan yang efisien.
  • Pembelajaran Mesin . Biasanya mereka telah menggunakan Regresi Logistik atau beberapa teknik lain untuk memecahkan masalah berdasarkan dataset yang diberikan (gaya Kaggle). Namun, meskipun wawancara dimulai dari algoritme dan metode, wawancara akan segera berfokus pada topik seperti pembuatan fitur (ingat Anda harus membuat dataset, tidak ada orang lain yang membuatnya untuk Anda), kemampuan pemeliharaan, skalabilitas dan kinerja serta yang terkait trade off. Untuk beberapa konteks Anda dapat memeriksa makalah yang relevan dari Google yang diterbitkan di NIPS 2015.
  • Analisis Teks . Bukan suatu keharusan, tetapi beberapa pengalaman dalam Pemrosesan Bahasa Alami baik untuk dimiliki. Bagaimanapun, sebagian besar data dalam format tekstual. Seperti yang telah dibahas, tidak ada orang lain yang dapat membuat transformasi dan membersihkan teks untuk Anda agar dapat dikonsumsi oleh ML atau pendekatan statistik lainnya. Juga, perhatikan bahwa hari ini bahkan lulusan CS sudah melakukan beberapa proyek yang menandai kotak ini.

Tentu saja untuk peran junior Anda tidak dapat memiliki semua hal di atas. Tetapi, berapa banyak dari ketrampilan ini yang bisa Anda lewatkan dan mulai bekerja?

Akhirnya, untuk memperjelas, alasan paling umum untuk menolak non-ahli statistik adalah kurangnya pengetahuan dasar statistik. Dan di suatu tempat ada perbedaan antara seorang insinyur data dan seorang ilmuwan data. Namun demikian, para insinyur data cenderung menerapkan peran ini, karena sering kali mereka percaya bahwa "statistik" hanyalah rata-rata, varian, dan distribusi normal. Jadi, kami dapat menambahkan beberapa kata kunci statistik yang relevan namun menakutkan dalam deskripsi pekerjaan untuk memperjelas apa yang kami maksud dengan "statistik" dan mencegah kebingungan.

iliasfl
sumber
4
Sejak 2006 saya mengajar statistik terapan dan kursus analisis data dalam program yang disebut "informatika bisnis" di dua universitas dan ini berlaku 100% untuk apa yang dipelajari siswa saya. 1. Mereka perlu mengumpulkan data nyata, mungkin berantakan dari bisnis mereka, web, survei, dll. 2. Bersihkan, siapkan dan simpan data dalam basis data SQL untuk kursus. 3. Lakukan berbagai analisis statistik pada data. 4. Siapkan 1-2 halaman brief eksekutif singkat dan tulis laporan mendalam dengan pemrograman literal (rajutan atau sejenisnya). Dari ilmu data itu informatika bisnis dengan kursus statistik / ML tambahan, bukan?
Momo
4
Tentu saja, kursus Anda mencakup banyak keterampilan yang diperlukan. Saya kira kita dapat menemukan banyak kombinasi, misalnya, gelar Ilmu Komputer dengan beberapa program statistik dan tesis / magang pada masalah berbasis bisnis ML. Pada akhirnya, yang penting adalah kedalaman dan luasnya keterampilan yang relevan yang dibawa oleh kandidat.
iliasfl
11

Izinkan saya mengabaikan hype dan buzzwords. Saya pikir "Data Scientist" (atau apa pun yang Anda ingin menyebutnya) adalah hal yang nyata dan berbeda dari ahli statistik. Ada banyak jenis posisi yang secara efektif adalah ilmuwan data tetapi tidak diberi nama itu - salah satu contohnya adalah orang yang bekerja dalam genomik.

Cara saya melihatnya, seorang ilmuwan data adalah seseorang yang memiliki keterampilan dan keahlian untuk merancang dan melaksanakan penelitian pada sejumlah besar data kompleks (misalnya dimensi sangat tinggi di mana mekanisme yang mendasarinya tidak diketahui dan kompleks).

Ini berarti:

  • Pemrograman: Mampu menerapkan analisis dan jaringan pipa, seringkali membutuhkan beberapa tingkat paralelisasi dan antarmuka dengan basis data dan sumber daya komputasi kinerja tinggi.
  • Ilmu Komputer (algoritma): Merancang / memilih algoritma yang efisien sehingga analisis yang dipilih layak dan tingkat kesalahan dikontrol. Kadang-kadang ini juga membutuhkan pengetahuan tentang analisis numerik, optimisasi, dll.
  • Ilmu komputer / statistik (biasanya penekanan pada pembelajaran mesin): Merancang dan mengimplementasikan kerangka kerja untuk mengajukan pertanyaan pada data atau menemukan "pola" di dalamnya. Ini tidak hanya mencakup pengetahuan tentang berbagai tes / alat / algoritma tetapi juga bagaimana merancang ketidaksepakatan yang tepat, validasi silang, dan sebagainya.
  • Pemodelan: Seringkali kami ingin dapat menghasilkan beberapa model yang memberikan representasi data yang lebih sederhana sehingga kami dapat membuat prediksi yang berguna dan mendapatkan wawasan tentang mekanisme yang mendasari data. Model probabilitas sangat populer untuk ini.
  • Keahlian khusus-domain: Salah satu aspek kunci dari keberhasilan bekerja dengan data kompleks adalah menggabungkan wawasan khusus-domain. Jadi saya akan mengatakan bahwa sangat penting bahwa ilmuwan data memiliki keahlian dalam domain, dapat dengan cepat mempelajari bidang baru, atau harus dapat berinteraksi dengan baik dengan para ahli di bidang yang dapat menghasilkan wawasan yang berguna tentang cara mendekati data .
Bitwise
sumber
6
Dan siapa yang ahli statistik, menurut Anda? Bagaimana daftar keterampilan ini berbeda dari keterampilan yang seharusnya dimiliki oleh "ahli statistik"?
amoeba
4
@amoeba Saya mungkin salah, tetapi banyak ahli statistik tidak memiliki beberapa keterampilan ini (misalnya pemrograman luas dengan kumpulan data besar-besaran, pelatihan tingkat pascasarjana dalam ilmu komputer). Juga, beberapa keterampilan statistik tidak relevan untuk sering ilmuwan data (beberapa teori, beberapa sub-bidang).
Bitwise
4
@rocinante: Saya sangat tidak setuju bahwa "pemrograman dengan 'kumpulan data besar' tidak benar-benar menjadi penghalang". Saya rasa saya tidak kenal siapa pun dengan gelar "ahli statistik" yang dapat mengimplementasikan perangkat lunak yang membuat keputusan waktu nyata berdasarkan paket yang masuk pada server. Tentu saja tidak semua ilmuwan data bisa, tetapi proporsinya jauh lebih tinggi.
Cliff AB
3
@rocinante, pemahaman yang baik tentang statistik diperlukan tetapi tidak cukup dalam pandangan saya. Mengenai kedalaman / kesulitan statistik vs keterampilan lain, saya berpendapat bahwa mendapatkan pemahaman yang baik dari sisi ilmu komputer sama mendalam / sulit, jika tidak lebih. Juga, mengenai pertanyaan pada SE itu, Anda menemukan pertanyaan-pertanyaan semacam itu pada SE apa pun (termasuk yang SE ini) - itu tidak berarti apa-apa kecuali bahwa beberapa orang menginginkan solusi mudah tanpa pemahaman.
Bitwise
6
Satu hal yang menjadi melelahkan dalam debat "ilmu data vs statistik" ini adalah implikasi halus bahwa para ilmuwan data seperti generasi ahli statistik yang unggul. Faktanya adalah bahwa seiring dengan semakin luasnya pengetahuan Anda, kedalaman turun, dan orang-orang yang lebih baik daripada tidak mengerti semua tugas yang diperlukan untuk menjadi "ilmuwan data", saya akan membayangkan pengetahuan mereka tentang sebagian besar dari hal-hal ini menjadi cukup dangkal. Secara umum, sangat sulit untuk menjadi ahli dalam bidang apa pun yang dikuasai oleh para ilmuwan data mistis ini.
dsaxton
7

Semua jawaban bagus, namun dalam pengalaman berburu pekerjaan saya, saya telah mencatat bahwa istilah "ilmuwan data" telah dikacaukan dengan "analis data junior" di benak para perekrut yang saya hubungi. Jadi banyak orang baik yang tidak memiliki pengalaman statistik selain dari kursus pengantar satu istilah yang mereka lakukan beberapa tahun yang lalu sekarang menyebut diri mereka ilmuwan data. Sebagai seseorang yang memiliki latar belakang ilmu komputer dan pengalaman bertahun-tahun sebagai analis data, saya mengambil gelar PhD dalam Statistik di kemudian hari dalam karir saya dengan berpikir bahwa itu akan membantu saya menonjol di antara kerumunan, saya menemukan diri saya di tengah kerumunan besar "ilmuwan data" ". Saya pikir saya akan kembali ke "ahli statistik"!

Sean
sumber
5
Saya pada dasarnya melihat hal yang sama. Pekerjaan apa pun yang meminta beberapa pekerjaan dengan data atau analisis disebut "Ilmu Data". Saya pikir hal yang sangat mirip terjadi pada "Quant" di bidang keuangan, di mana siapa pun yang melakukan pekerjaan dengan data menyebut diri mereka "Quant".
Akavall
6

Saya seorang karyawan junior, tetapi jabatan saya adalah "ilmuwan data." Saya pikir jawaban Bitwise adalah deskripsi yang tepat tentang apa yang saya pekerjakan, tetapi saya ingin menambahkan satu poin lagi berdasarkan pengalaman saya sehari-hari di tempat kerja:

Data ScienceStatistics,
StatisticsData Science.

Sains adalah proses penyelidikan. Ketika data adalah sarana yang digunakan untuk penyelidikan itu, ilmu data terjadi. Itu tidak berarti bahwa setiap orang yang bereksperimen atau melakukan penelitian dengan data haruslah seorang ilmuwan data, dengan cara yang sama bahwa tidak semua orang yang bereksperimen atau melakukan penelitian dengan kabel harus seorang insinyur listrik. Tetapi ini berarti bahwa seseorang dapat memperoleh pelatihan yang cukup untuk menjadi "penanya data" yang profesional, dengan cara yang sama seperti seseorang dapat memperoleh pelatihan yang cukup untuk menjadi ahli listrik yang profesional. Pelatihan itu kurang lebih terdiri dari poin-poin dalam jawaban Bitwise, yang statistiknya merupakan komponen tetapi tidak keseluruhan.

Jawaban Piotr juga merupakan ringkasan yang bagus dari semua hal yang perlu saya lakukan seandainya saya tahu bagaimana melakukannya dalam minggu tertentu. Pekerjaan saya sejauh ini sebagian besar telah membantu memperbaiki kerusakan yang dilakukan oleh mantan karyawan yang termasuk dalam komponen "Zona Bahaya" pada diagram Venn.

shadowtalker
sumber
2
+1. Saya pikir ini sangat berharga di utas ini untuk mendengar dari orang-orang yang benar-benar dipekerjakan sebagai "ilmuwan data".
amoeba
(+1) @amoeba Saya setuju 100% dengan sentimen Anda.
RustyStatistician
8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science
@ petugas saya pasti setuju.
RustyStatistician
1
StatisticsData ScienceStatisticsData ScienceData Science
3

Baru-baru ini saya juga tertarik pada sains data sebagai karier, dan ketika saya memikirkan apa yang saya pelajari tentang pekerjaan sains data dibandingkan dengan berbagai kursus statistik yang saya ambil (dan nikmati!), Saya mulai menganggap ilmuwan data sebagai ilmuwan komputer yang mengalihkan perhatian mereka ke data. Secara khusus, saya mencatat perbedaan utama berikut. Namun perlu dicatat bahwa perbedaan muncul mood. Berikut ini hanya mencerminkan kesan subjektif saya, dan saya tidak mengklaim sifat umum. Hanya kesan saya!

  1. Dalam statistik, Anda sangat peduli tentang distribusi, probabilitas, dan prosedur inferensial (bagaimana melakukan tes hipotesis, yang merupakan distribusi yang mendasarinya, dll). Dari apa yang saya pahami, ilmu data lebih sering daripada tidak tentang prediksi, dan kekhawatiran tentang pernyataan inferensial sampai batas tertentu diserap oleh prosedur dari ilmu komputer, seperti validasi silang.

  2. Dalam kursus statistik, saya sering hanya membuat data saya sendiri, atau menggunakan beberapa data siap pakai yang tersedia dalam format yang agak bersih. Itu berarti itu dalam format persegi panjang yang bagus, beberapa spreadsheet excel, atau sesuatu seperti itu yang cocok dengan RAM. Pembersihan data pasti terlibat, tetapi saya tidak pernah berurusan dengan "mengekstraksi" data dari web, apalagi dari basis data yang harus disiapkan untuk menampung sejumlah data yang tidak sesuai dengan RAM lagi. Kesan saya adalah bahwa aspek komputasi ini jauh lebih dominan dalam ilmu data.

  3. Mungkin ini mencerminkan ketidaktahuan saya tentang apa yang dilakukan ahli statistik dalam pekerjaan statistik biasa, tetapi sebelum ilmu data saya tidak pernah berpikir untuk membuat model menjadi produk yang lebih besar. Ada analisis yang harus dilakukan, masalah statistik yang harus dipecahkan, beberapa parameter untuk diperkirakan, dan hanya itu. Dalam ilmu data, nampaknya model prediktif yang sering (meskipun tidak selalu) dibangun menjadi sesuatu yang lebih besar. Misalnya, Anda mengklik di suatu tempat, dan dalam milidetik, algoritma prediktif akan memutuskan apa yang ditampilkan sebagai hasilnya. Jadi, sementara dalam statistik, saya selalu bertanya-tanya "parameter apa yang bisa kita perkirakan, dan bagaimana kita melakukannya dengan elegan", tampaknya dalam ilmu data fokusnya lebih pada "apa yang bisa kita prediksi yang berpotensi berguna dalam produk data" .

Sekali lagi, hal di atas tidak mencoba memberikan definisi umum. Saya hanya menunjukkan perbedaan besar yang saya rasakan sendiri. Saya belum dalam ilmu data, tapi saya berharap untuk transisi di tahun depan. Dalam pengertian ini, ambil dua sen saya di sini dengan sebutir garam.

coffeinjunky
sumber
2

Saya katakan bahwa Data Scientist adalah peran di mana seseorang menciptakan hasil yang dapat dibaca manusia untuk bisnis, menggunakan metode untuk membuat hasil secara statistik solid (signifikan).

Jika ada bagian dari definisi ini yang tidak diikuti, kita berbicara tentang pengembang, ilmuwan / ahli statistik sejati, atau insinyur data.

Alexey Burnakov
sumber
2

Saya selalu suka memotong esensi masalah ini.

statistics - science + some computer stuff + hype = data science
Mark L. Stone
sumber
1
Kedengarannya seperti kesan saya telah membentuk "pembelajaran mesin", yang saya rangkum sebagai "belajar cara mengoperasikan perangkat lunak tanpa memahami cara kerjanya sebenarnya" (tentu saja tidak adil, tetapi kami melihat banyak "pembelajaran mesin" orang-orang yang keluar dari sekolah yang tidak mengerti apa-apa selain apa yang ditunjukkan oleh parameter tuning dari berbagai jenis jaring saraf.)
jbowman
1

Ilmu data adalah perpaduan multidisiplin dari inferensi data, pengembangan algoritma, dan teknologi untuk memecahkan masalah yang kompleks secara analitis. Tetapi karena kelangkaan Data Ilmuwan, karier dalam ilmu data benar-benar dapat menciptakan banyak peluang. Namun, organisasi mencari profesional bersertifikat dari SAS, Data Science Council of America (DASCA), Hortonworks, dll. Semoga ini adalah informasi yang baik!

pengguna169155
sumber
1

Ilmuwan data memiliki keterampilan yang sangat mahir dalam pengembangan Python, MySQL, dan Java.

Mereka memiliki pemahaman yang sangat jelas tentang fungsi analitis, sangat baik di matematika, statistik, data mining, keterampilan analisis prediktif dan juga mereka memiliki pengetahuan yang sangat baik tentang bahasa pengkodean seperti Python dan R.

Banyak ilmuwan data saat ini memiliki gelar Ph.D. atau gelar master mereka sebenarnya menurut penelitian hanya sekitar 8% hanya memiliki gelar sarjana sehingga jauh lebih mendalam.

Membangun model statistik yang mengambil keputusan berdasarkan data. Setiap keputusan bisa sulit, misalnya memblokir halaman dari render, atau lunak, misalnya menetapkan skor untuk kejahatan halaman, yang digunakan oleh sistem ke bawah atau manusia.

Melakukan eksperimen kausalitas yang berupaya mengaitkan akar penyebab fenomena yang diamati. Ini dapat dilakukan dengan merancang eksperimen A / B atau jika eksperimen A / B tidak memungkinkan untuk menerapkan pendekatan epidemiologis untuk masalah tersebut, misalnya model kausal @ Rubin

Mengidentifikasi produk atau fitur baru yang berasal dari membuka nilai data; menjadi pemimpin pemikiran tentang nilai data. Contoh yang bagus tentang hal itu adalah fitur rekomendasi produk yang pertama kali disediakan Amazon untuk khalayak luas.

Rameez
sumber
1
Ya tidak. Saya setinggi yang Anda bisa dapatkan di rantai pekerjaan ilmuwan data, dan saya tidak tahu Java sama sekali, saya juga tidak mahir dalam Python, dan keterampilan MySQL saya yang terbaik dari kualitas generik. Dalam grup saya, kami memiliki beberapa orang lain yang tahu sedikit Python, lebih suka R, dan hanya satu orang yang tahu Java tetapi dia terutama kode dalam R dan C / C ++ (seperti saya.) Tiga orang tahu Python tetapi tidak benar-benar tahu apa-apa bahasa tingkat bawah. Saya tidak ingin masuk ke dalam Python v. R flame wars, atau Java v. C / C ++, tetapi tidak berarti bahwa salah satu daftar keahlian terkait pemrograman Anda diperlukan.
jbowman
0

Untuk menjawab pertanyaan Anda, "Apa itu ilmuwan data?" Mungkin bermanfaat untuk menyadari perbedaan antara Data Scientist dan Data Mechanic seperti yang tercantum dalam http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/

Deep Mukherjee
sumber
1
Agar ini menjadi jawaban yang lengkap, harap sorot poin utama dari artikel di jawaban Anda, sehingga memberi OP dan pembaca lainnya poin utama.
Greenparker