Apakah para ilmuwan data menggunakan Excel?

37

Saya akan menganggap diri saya sebagai ilmuwan data pekerja harian. Seperti kebanyakan (saya pikir), saya membuat bagan pertama saya dan melakukan agregasi pertama saya di sekolah menengah dan perguruan tinggi, menggunakan Excel. Ketika saya melewati masa kuliah, sekolah pascasarjana dan ~ 7 tahun pengalaman kerja, saya dengan cepat mengambil apa yang saya anggap sebagai alat yang lebih maju, seperti SQL, R, Python, Hadoop, LaTeX, dll.

Kami sedang mewawancarai untuk posisi ilmuwan data dan satu kandidat mengiklankan dirinya sebagai "ilmuwan data senior" (istilah yang sangat rumit hari ini) dengan pengalaman 15+ tahun. Ketika ditanya apa toolset pilihannya, dia menjawab bahwa itu adalah Excel.

Saya menganggap ini sebagai bukti bahwa dia tidak berpengalaman seperti yang diklaim oleh resumenya, tetapi tidak yakin. Bagaimanapun, hanya karena itu bukan alat pilihan saya, bukan berarti itu bukan milik orang lain. Apakah para ilmuwan data yang berpengalaman menggunakan Excel? Bisakah Anda menganggap kurangnya pengalaman dari seseorang yang terutama menggunakan Excel?

JHowIX
sumber
Sebagian besar iklan pekerjaan sains data meminta keterampilan khusus, seperti R, Hadoop, apa pun. Apakah Anda lalai menyebutkan ini di iklan Anda? Kecuali jika Data Scientist baru Anda akan bekerja dalam gelembung, maka ia harus bekerja dengan tim, dan mungkin perlu bekerja dengan perangkat lunak tim standar ...
Spacedman
1
baik jika mereka tidak akan menggunakan \LaTeX{}maka saya tidak akan mempekerjakan mereka. just kidding ...
aeroNotAuto
1
@Spacedman: Saya memberikan cerita untuk konteks anekdotal tetapi saya benar-benar lebih tertarik pada pandangan orang tentang excel daripada saya menggunakan tips. Tim kami bebas menggunakan alat apa pun yang kami suka.
JHowIX
1
Ya lihat di sini . Untuk lelucon, lihat di sini juga .
Dirk Eddelbuettel
1
Terlepas dari tahun yang ditentukan, saya berharap daftar Pro / Con dari setidaknya tiga alat dari seorang ilmuwan data. Mereka perlu menunjukkan kapasitas untuk menyelidiki, menimbang pilihan, dan mengkomunikasikan resolusi. Bahkan, atau terutama, dalam sebuah wawancara, saya berharap untuk melihat keterlibatan nyata dan kapasitas untuk memperluas masa lalu yang berpotensi besar, tetapi saat ini kurang, pertanyaan wawancara.
Dave

Jawaban:

28

Kebanyakan orang non-teknis sering menggunakan Excel sebagai pengganti basis data. Saya pikir itu salah tetapi bisa ditoleransi. Namun, seseorang yang seharusnya berpengalaman dalam analisis data tidak dapat menggunakan Excel sebagai alat utamanya (tidak termasuk tugas yang jelas untuk melihat data untuk pertama kalinya). Itu karena Excel tidak pernah dimaksudkan untuk analisis semacam itu dan sebagai konsekuensinya, sangat mudah untuk membuat kesalahan di Excel (bukan berarti tidak mudah untuk membuat kesalahan jenis lain saat menggunakan alat lain, tetapi Excel semakin memperburuk situasi.)

Untuk meringkas apa yang tidak dimiliki Excel dan merupakan keharusan untuk analisis apa pun:

  1. Reproduksibilitas. Analisis data perlu direproduksi.
  2. Kontrol versi. Baik untuk kolaborasi dan juga baik untuk reproduksibilitas. Alih-alih menggunakan xls, gunakan csv (masih sangat kompleks dan memiliki banyak kasus tepi, tetapi parser csv cukup bagus saat ini.)
  3. Pengujian. Jika Anda tidak memiliki tes, kode Anda rusak. Jika kode Anda rusak, analisis Anda lebih buruk daripada tidak berguna.
  4. Maintabilitas.
  5. Ketepatan. Keakuratan numerik, penguraian tanggal yang akurat, di antaranya sangat kurang di Excel.

Sumber lainnya:

Kelompok Bunga Risiko Spreadsheet Eropa - Cerita Horor

Anda seharusnya tidak menggunakan spreadsheet untuk pekerjaan penting (maksud saya)

Microsoft Excel Mungkin Menjadi Perangkat Lunak Paling Berbahaya Di Planet Ini

Hancurkan Data Anda Menggunakan Excel Dengan Trik Aneh Yang Ini!

Lembar kerja Excel sulit diperbaiki

Robert Smith
sumber
Untuk melihat data dan menganalisisnya dengan cepat, adakah alat yang diterima secara luas oleh para profesional sebagai sebanding tetapi lebih baik dari Excel? Saya seorang ilmuwan data pemula, dan saya sebagian besar telah menggunakan (Postgre) SQL, tetapi sesuatu seperti Excel bisa lebih cepat bekerja jika Anda hanya mencoba berbagai hal.
sudo
1
Saya juga harus mengeluh bahwa CSV bukan standar. Anda benar-benar harus memastikan bahwa apa pun yang dibuka itu setuju dengan apa pun yang membuatnya. OpenOffice melakukannya dengan benar dan memungkinkan Anda memilih banyak opsi CSV saat memuat, alih-alih mengasumsikan apa pun tentang format.
sudo
@ sudo Alat ini bergantung pada bahasa pemrograman pilihan Anda, yang sebagian besar merupakan preferensi pribadi. Sebagai contoh saja, R secara historis merupakan pilihan yang baik, Python semakin populer dalam analisis data dalam beberapa tahun terakhir, Julia adalah pendatang baru yang sangat menjanjikan di bidang ini. Sebagian besar bahasa pemrograman menyediakan pustaka dewasa yang memberi Anda struktur (misalnya kerangka data) yang sangat cocok untuk analisis data dan semuanya lebih baik daripada Excel. CSV telah distandarisasi tetapi ada detail yang diterapkan secara berbeda, tetapi itu seharusnya tidak menjadi masalah besar dalam pekerjaan sehari-hari Anda.
Robert Smith
Saya memang menggunakan Python untuk pemrosesan ringan, tetapi itu tidak benar-benar melayani tujuan Excel. Misalnya, di Excel, Anda bisa menggunakan alat seperti autofilter dan bagan interaktif. Saya biasanya menampilkan data saya ke CSV untuk dilihat oleh atasan saya di Excel atau apalah.
sudo
@ Sudo Kemudian Anda ingin Pandas. Panda menyediakan banyak metode untuk memanipulasi data Anda. Itu termasuk subsetting berdasarkan indeks, kolom atau kondisi, yang jauh lebih fleksibel dan kuat daripada autofilter. Kemudian Anda dapat memplot hasilnya ( df.plot()) dan mengekspor output Anda ke csv ( df.to_csv('output.csv')). Perlu diingat bahwa analisis data biasanya membutuhkan lebih dari penyaringan dan perencanaan. Oleh karena itu, fokusnya harus pada kebenaran, sehingga Anda perlu memisahkan presentasi dari analisis. Lakukan analisis Anda dengan Python (atau bahasa lain), bagikan hasil Anda dalam csv jika itu yang Anda inginkan.
Robert Smith
15

Apakah para ilmuwan data yang berpengalaman menggunakan Excel?

Saya telah melihat beberapa ilmuwan data yang berpengalaman, yang menggunakan Excel - baik karena preferensi mereka, atau karena spesifik bisnis dan lingkungan TI tempat kerja mereka (misalnya, banyak lembaga keuangan menggunakan Excel sebagai alat utama mereka, setidaknya, untuk pemodelan). Namun, saya pikir sebagian besar ilmuwan data yang berpengalaman mengenali kebutuhan untuk menggunakan alat, yang optimal untuk tugas-tugas tertentu, dan mematuhi pendekatan ini.

Bisakah Anda menganggap kurangnya pengalaman dari seseorang yang terutama menggunakan Excel?

Tidak Anda tidak bisa. Ini adalah akibat wajar dari pemikiran saya yang disebutkan di atas. Ilmu data tidak secara otomatis menyiratkan data besar - ada banyak pekerjaan ilmu data yang dapat ditangani dengan sangat baik oleh Excel. Karena itu, jika seorang ilmuwan data (bahkan yang berpengalaman) tidak memiliki pengetahuan (setidaknya, dasar) alat ilmu data modern, termasuk yang berfokus pada data besar, itu agak mengganggu. Ini karena eksperimen tertanam kuat ke dalam sifat ilmu data karena analisis data eksplorasi menjadi bagian yang penting dan, bahkan, sangat penting. Oleh karena itu, seseorang, yang tidak memiliki keinginan untuk mengeksplorasi alat-alat lain dalam domain mereka, dapat peringkat lebih rendah di antara kandidat secara keseluruhan cocok untuk posisi ilmu data (tentu saja, ini cukup kabur, karena beberapa orang sangat cepat dalam belajar materi baru, plus,

Oleh karena itu, sebagai kesimpulan, saya berpikir bahwa jawaban terbaik yang mungkin dimiliki oleh seorang ilmuwan data yang berpengalaman terhadap sebuah pertanyaan sehubungan dengan alat pilihan mereka adalah sebagai berikut: Alat pilihan saya adalah yang optimal, yaitu yang paling sesuai dengan tugas yang ada.

Aleksandr Blekh
sumber
5
Saya tidak akan menyalahkan seseorang karena tidak mengenal Hadoop tetapi bahkan dalam situasi data kecil saya merasa seolah-olah R lebih unggul. Hanya ada sedikit hal yang bisa Anda lakukan dengan R yang tidak bisa Anda lakukan dengan Excel. Yang menjadi perhatian saya adalah orang ini belum "menemukan" bahwa dalam usia 15+ tahun
JHowIX
@JHowIX: Apakah Anda terbiasa dengan istilah "cukup baik"? Saya juga penggemar berat R dan lebih suka banyak alat, termasuk Excel, setiap hari. Namun, fakta bahwa R dapat melakukan lebih banyak tidak menyiratkan bahwa Excel (atau alat lain yang cocok untuk suatu tugas) lebih rendah dalam konteks kerja tertentu. Jadi, sementara kekhawatiran Anda valid (saya menyebutnya dengan menggunakan kata "pengganggu"), mungkin orang tersebut belum memiliki kesempatan / kebutuhan untuk melakukan itu. Ingat, bahwa Anda berbicara tentang waktu, ketika R ada, tetapi populer sebagian besar di bidang akademis dan ilmu data (disebut analisis data atau semacamnya) tidak sepanas hari ini.
Aleksandr Blekh
13

Saya pikir kebanyakan orang menjawab tanpa memiliki pengetahuan yang baik tentang unggul. Excel (sejak 2010) memiliki basis data [multi tabel] kolom memori, yang disebut power pivot (yang memungkinkan input dari csv / database dll), memungkinkannya untuk menyimpan jutaan baris (tidak harus dimuat pada spreadsheet) . Ia juga memiliki alat ETL yang disebut permintaan daya yang memungkinkan Anda membaca data dari berbagai sumber (termasuk hadoop). Dan ia memiliki alat visualisasi (power view & power map). Banyak Ilmu Data sedang melakukan agregasi dan analisis top-n di mana power pivot unggul. Tambahkan ke sifat interaktif alat ini - setiap pengguna dapat dengan mudah menarik dan melepaskan dimensi untuk memecah hasil dan saya harap Anda dapat melihat manfaatnya. Jadi ya Anda tidak bisa melakukan pembelajaran mesin,

seanv507
sumber
Menarik. Saya terbiasa dengan hal-hal lambat dan buggy yaitu Excel 1998-2008. Harus mencoba yang baru.
sudo
Saya berharap saya dapat mendukung jawaban seanv507 jutaan kali. Sebagian besar jawaban di sini menunjukkan bahwa banyak orang tidak menyadari betapa kuatnya versi excel yang lebih baru. Dan harap dicatat bahwa ketika Anda menggunakan alat analisis data baru (Mis. Kueri daya, pivot daya, DAX), Anda tidak lagi terbatas pada 1, 048, 576 baris data dan sejumlah keterbatasan lainnya tanpa alat ini
maze55555
Orang tanpa latar belakang bisnis tidak menggunakan excel. Periode. Dan mengingat lulusan bisnis biasanya tidak masuk ke ilmu data, Anda dapat memahami ketidaktahuan.
NoName
5

Dalam bukunya Data Smart, John Foreman memecahkan masalah ilmu data yang umum (pengelompokan, naif bayes, metode ensemble, ...) menggunakan Excel. Memang selalu baik memiliki pengetahuan tentang Python atau R tetapi saya kira Excel masih bisa menyelesaikan sebagian besar pekerjaan!

Anil Narassiguin
sumber
2
Sebenarnya, saya sendiri cukup terkejut ketika saya membaca buku yang bisa Anda lakukan dengan Excel. Dan itu memiliki built-in evolusioner dan pemecah non-linear lainnya! Manfaat Excel yang bagus adalah bahwa pekerjaan Anda, terutama jika Anda menggunakan kode yang dapat direproduksi, dapat diakses oleh lebih banyak orang daripada kode R atau Python.
Victor Ma
5

Saya terkejut berapa banyak orang yang terikat pada kesejukan profesi daripada pekerjaan yang sebenarnya harus dilakukan. Excel adalah alat yang luar biasa, dengan Powerpivot gratis, Powerquery, dapat melakukan banyak hal. (ini tidak tersedia di OS X). Dan jika Anda tahu VBA, Anda dapat melakukan beberapa hal yang baik. Dan kemudian jika Anda menambahkan di atas pengetahuan tentang python Anda dapat menggabungkan langkah-langkah pertama ekstraksi data dan manipulasi dengan python dan kemudian menggunakan excel, terutama jika Anda adalah orang visual. Dengan excel, Anda dapat benar-benar memeriksa data agregat sebelum dimasukkan ke proses atau visualisasi lebih lanjut. Ini harus memiliki alat.

Donatas Svilpa
sumber
4

Excel hanya memungkinkan data yang sangat kecil dan tidak memiliki apa pun yang cukup berguna dan fleksibel untuk pembelajaran mesin atau bahkan hanya merencanakan. Semua yang akan saya lakukan di Excel, adalah menatap subset data untuk pandangan pertama atas nilai-nilai untuk memastikan saya tidak melewatkan sesuatu yang terlihat oleh mata.

Jadi, jika alat favoritnya adalah Excel, ini mungkin menyarankan dia jarang berurusan dengan pembelajaran mesin, statistik, ukuran data yang lebih besar atau plot canggih. Seseorang seperti ini saya tidak akan memanggil Ilmuwan Data. Tentu saja judul tidak masalah dan itu tergantung banyak pada kebutuhan Anda.

Bagaimanapun, jangan membuat penilaian dengan pernyataan pengalaman atau CV. Saya telah melihat riwayat hidup dan mengenal orang-orang di belakangnya.

Jangan berasumsi. Uji dia! Anda harus cukup baik untuk melakukan tes. Telah ditunjukkan bahwa wawancara saja hampir tidak berguna untuk menentukan keterampilan (mereka hanya menunjukkan kepribadian). Buat tes belajar yang diawasi sangat sederhana dan biarkan dia menggunakan alat apa pun yang dia inginkan.

Dan jika Anda ingin menyaring orang pada wawancara pertama, tanyakan padanya tentang wawasan yang sangat mendasar tetapi penting tentang statistik atau pembelajaran mesin. Sesuatu yang diketahui setiap karyawan Anda saat ini.

Gerenuk
sumber
2

Biarkan saya pertama-tama mengklarifikasi bahwa saya memulai perjalanan saya ke ilmu data dari sudut pandang programmer dan basis data pengembang. Saya bukan ahli ilmu data 10 tahun atau dewa statistik. Namun, saya melakukan pekerjaan ilmuwan data dan kumpulan data besar untuk perusahaan yang bekerja dengan klien yang agak besar di seluruh dunia.

Dari pengalaman saya, ilmuwan data menggunakan alat apa pun yang mereka butuhkan untuk menyelesaikan pekerjaan. Excel, R, SAS, Python, dan lainnya semuanya adalah alat dalam kotak peralatan untuk ilmuwan data yang baik. Yang terbaik dapat menggunakan berbagai alat untuk menganalisis dan mengolah data.

Oleh karena itu, jika Anda menemukan diri Anda membandingkan R dengan Python, maka kemungkinan Anda melakukan semuanya salah di dunia ilmu data. Ilmuwan data yang baik menggunakan keduanya ketika masuk akal untuk menggunakan salah satu dari yang lain. Ini juga berlaku untuk Excel.

Saya pikir agak sulit untuk menemukan orang yang akan memiliki pengalaman dalam banyak alat dan bahasa yang berbeda sementara hebat dalam segala hal. Saya juga berpikir itu akan sulit untuk menemukan data ilmuwan secara khusus yang tidak hanya dapat memprogram algoritma yang kompleks tetapi juga tahu bagaimana menggunakannya dari sudut pandang statistik juga.

Sebagian besar ilmuwan data yang bekerja sama dengan saya memiliki 2 rasa. Mereka yang bisa memprogram dan mereka yang tidak bisa. Saya jarang bekerja dengan ilmuwan data yang dapat menarik data dengan Python, memanipulasinya dengan sesuatu seperti Pandas, memasukkan model ke data dalam R dan kemudian menyajikannya kepada manajemen di akhir minggu.

Maksudku, aku tahu mereka ada. Saya telah membaca banyak blog sains data dari orang-orang yang mengembangkan scrappers web, mendorongnya ke Hadoop, menariknya kembali dengan Python, memprogram hal-hal kompleks dan menjalankannya melalui R untuk mem-boot. Mereka ada. Mereka diluar sana. Saya hanya belum menemukan terlalu banyak yang bisa melakukan semua itu. Mungkin hanya daerah saya saja?

Jadi, apakah itu berarti hanya mengkhususkan pada satu hal yang buruk? Tidak. Banyak teman saya yang berspesialisasi hanya dalam satu bahasa utama dan membunuhnya. Saya tahu banyak orang data yang hanya tahu R dan membunuhnya. Saya juga tahu banyak orang yang hanya menggunakan Excel untuk menganalisis data karena itulah satu-satunya yang dapat dibuka dan digunakan oleh sebagian besar ilmuwan non-data (terutama di perusahaan B2B). Pertanyaan yang harus Anda jawab adalah apakah hal ini adalah SATU hal yang Anda butuhkan untuk posisi ini? Dan yang paling penting, dapatkah mereka mempelajari hal-hal baru?

PS

Ilmu Data tidak hanya terbatas pada "DATA BESAR" atau NoSQL.

Glen Swan
sumber
Hai Glen, terima kasih atas komentar Anda. Lihatlah tautan berikut. Ini dari Swami Chandrasekaran yang memimpin tim Watson di IBM, jadi ilmuwan data yang cukup berpengalaman menurut saya. Dia memiliki pemrograman pada dasarnya hal ketiga yang perlu diketahui oleh ilmuwan data, di balik "Fundamental" dan Statistik. Menurut peta jalannya, begitu Anda tahu cara memprogram, Anda adalah 15% dari cara untuk menjadi ilmuwan data. Berdasarkan hal ini, saya mungkin sedikit tidak setuju dengan pernyataan bahwa para ilmuwan data sejati memiliki cita rasa "non-pemrograman". nirvacana.com/thoughts/becoming-a-data-scientist
JHowIX
Yah, saya hanya mengatakan itu berdasarkan pengalaman. Sebagian besar program statistik dan ilmu data bahkan tidak mencakup pemrograman di luar apa yang Anda butuhkan untuk program statistik populer. Karena itu, sebagian besar orang yang saya temui di dunia statistik tidak pandai pemrograman. Ini seperti sebuah renungan ketika mereka memasuki dunia nyata dan menyadari itu membantu.
Glen Swan
1

Excel dapat menjadi alat yang sangat baik untuk analisis data eksplorasi itu benar-benar tergantung pada kebutuhan Anda dan tentu saja ia memiliki keterbatasan seperti alat apa pun, tetapi excel jelas layak mendapat tempat di aula ketenaran ilmu data.

Patut diingat bahwa dalam praktiknya sebagian besar pengguna akan mengeksplorasi set data yang sangat berkurang (dibuat dari kueri SQL).

Excel sangat kuat untuk mengeksplorasi data ketika Anda menggunakan objek "tabel" dalam kombinasi dengan tabel pivot, memvisualisasikan semuanya maksimal 1-2 klik dan banyak grafik excel di powerpoint terlihat hebat, kecuali jika Anda ingin membuat sesuatu yang sangat dipesan lebih dahulu misalnya dalam konteks komputasi ilmiah. Sifat interaktif berarti Anda dapat menjelajah dengan cepat.

Manfaat objek "tabel" adalah saat Anda mentransformasikan data lebih lanjut dalam excel untuk memungkinkan Anda menjelajahi distribusi baru, tabel pivot semuanya mengingat variabel.

Di mana excel lemah adalah bahwa daftar rumus bisa dibilang membatasi, misalnya pernyataan kasus SQL atau pernyataan python jauh lebih fleksibel daripada rantai tanpa akhir fungsi if.

Itu benar-benar tergantung pada kebutuhan Anda tetapi excel pasti layak mendapat tempat di aula ketenaran ilmu data.

Anekdot yang menarik, tim yang bekerja pada algoritme umpan berita Facebook semuanya secara teratur terlihat bermain dengan excel dan banyak spreadsheet.

William Mahmood
sumber
0

Saya mengajar kursus Analisis Bisnis yang mencakup SQL dan Excel. Saya mengajar di sekolah bisnis sehingga murid-murid saya bukan yang paling mampu secara teknis, itulah sebabnya saya tidak menggunakan sesuatu seperti R, Panda, atau Weka. Yang sedang berkata, Excel adalah alat yang cukup kuat untuk digunakan untuk beberapa analisis data. Itu mendapatkan sebagian besar kekuatan ini dari kemampuannya untuk bertindak sebagai ujung depan untuk SQL Server Analysis Services (komponen dalam SQL Server untuk analisis data) menggunakan Add-In Penambangan Data.

SSAS memungkinkan Anda membangun pohon keputusan, melakukan regresi linier dan logistik, dan bahkan membuat jaringan bayesian atau saraf. Saya telah menemukan bahwa menggunakan Excel sebagai front-end adalah pendekatan yang tidak terlalu mengancam untuk melakukan analisis semacam ini karena mereka semua pernah menggunakan Excel sebelumnya. Cara menggunakan SSAS tanpa Excel adalah melalui versi khusus Visual Studio dan itu bukan alat yang paling ramah pengguna di luar sana. Saat Anda menggabungkannya dengan beberapa alat Excel lainnya seperti Power Query dan Power Pivot, Anda dapat melakukan beberapa analisis data yang cukup canggih.

Pengungkapan Penuh, saya mungkin tidak akan menggunakannya lagi ketika saya mengajar versi baru kursus tahun depan (kami membaginya menjadi dua kursus sehingga orang dapat lebih fokus pada analisis data). Tapi itu hanya karena universitas bisa mendapatkan lisensi yang cukup untuk Alteryx yang bahkan lebih mudah digunakan dan lebih kuat tetapi $ 4-85rb / pengguna / tahun jika Anda tidak bisa mendapatkannya gratis. Katakan apa yang Anda akan tentang Excel, tetapi itu mengalahkan titik harga itu.

James Endicott
sumber
0

Excel bisa menjadi alat yang sangat baik. Tentu, tergantung pada apa yang Anda lakukan, itu mungkin tidak sesuai dengan tagihan, tetapi jika ya, akan sangat bodoh untuk mengabaikannya. Meskipun perlu beberapa saat untuk menyiapkan saluran pipa Anda, di Excel Anda dapat menjalankan banyak hal: UI bawaan, perluasan yang mudah melalui VBA bahkan dengan Python (mis. Https://www.xlwings.org ). Mungkin tidak ideal untuk hal-hal seperti kontrol versi tetapi ada cara untuk membuatnya bekerja dengan Git (mis. Https://www.xltrail.com/blog/auto-export-vport-vba-commit-hook ).

Bjoern Stiel
sumber
-2

Individu ini bekerja dengan 'Big Data' dan terutama menggunakan Excel? Serius?!?! Excel hanya menangani hingga 1, 048, 576 baris data dalam satu spreadsheet. Untuk set data di luar itu perlu plugin. Juga tabel pivot di Excel memiliki batasan parah pada analisis yang dapat dilakukan dengan menggunakannya.

Jenis tugas analitik data apa yang perlu dilakukan dalam pekerjaan yang Anda rekrut?

Saya sarankan Anda melakukan wawancara yang mencakup tes jenis tugas yang perlu dilakukan dalam pekerjaan yang sedang dipertimbangkan. Tanpa melanggar kerahasiaan, privasi atau perlindungan data, tugas pemrograman atau analisis data yang ditetapkan sebagai bagian dari wawancara harus mencakup subset (nama samaran) dari dataset yang relevan dengan pos yang diwawancarai. Kalau tidak, Anda mungkin akhirnya merekrut seseorang yang pandai berbicara dalam wawancara berbasis percakapan tetapi sebenarnya tidak kompeten dalam melaksanakan pekerjaan yang sebenarnya.

dac2002
sumber
Tidak ada yang mengatakan 'data besar'. Mereka mengatakan 'ilmuwan data'. Tidak semua data adalah 'data besar'. Saya telah bekerja dengan para ilmuwan data berpengalaman yang menggunakan semua R, Python, SQL, dan Excel dalam satu proyek. Tidak semua analisis data terprogram atau skrip. Seperti yang dikatakan di tempat lain, spec pekerjaan yang tidak jelas => berbagai jenis ilmuwan data.
smci