Kiat untuk ilmuwan data baru

8

Saya akan memulai pekerjaan di mana saya akan bekerja dengan dataset besar dan akan diharapkan untuk menemukan tren, dll ... Saya telah menemukan banyak sumber di mana untuk belajar ML dan keterampilan keras lainnya dan merasa bahwa saya (semi ) kompeten untuk tujuan ini.

Saya tertarik mengetahui apakah ada soft skill khusus yang bermanfaat sebagai ilmuwan data. Hal-hal apa yang Anda harap Anda ketahui memulai?

Sementara Kaggle sangat berguna saat belajar, itu juga menyajikan tujuan yang jelas. Bagaimana Anda menangani diberi dataset, tetapi tidak ada tujuan yang jelas?

Beri tahu saya jika ini terlalu luas, saya bisa memikirkan pertanyaan yang lebih spesifik.

Hobbes
sumber
3
tip # 1: tidak pernah memelihara anjing yang terbakar
Brandon Loudermilk
1
Jika Anda tidak keberatan, silakan bagikan industri tempat Anda berada. Matematika dan konsepnya tetap sama, namun struktur datanya bervariasi dan juga bagaimana seseorang dapat mendekatinya. Saran di bawah ini sangat tepat dan jika dipraktikkan akan sangat membantu. Saya berharap dengan mengetahui industri ini saya dapat membagikan sesuatu yang dapat Anda hubungkan secara langsung.
Drj
Saya harap siapa pun yang mewawancarai Anda untuk pekerjaan ini sekarang membaca ini dan berpikir "mengapa kita tidak mengajukan pertanyaan itu saat wawancara?".
Spacedman
Drj, saya akan bekerja sebagian dengan data dari proses pembuatan dan sebagian dengan data umpan balik pelanggan. Sepertinya spektrum yang luas. Saya berasal dari akademisi tempat data dihasilkan oleh eksperimen saya sendiri dan saya memiliki tujuan yang sangat jelas.
Hobbes

Jawaban:

8

Saya pikir ada banyak soft skill penting untuk dipertimbangkan dalam domain Ilmu Data.

Inilah beberapa di antaranya:

  1. Tahu pasti apa tujuannya, menghabiskan banyak waktu untuk pertengkaran data, model, visualisasi dan laporan ketika itu tidak semua untuk tujuan spesifik dalam pikiran adalah sia-sia. Berkomunikasi dengan orang yang kurang teknis adalah keterampilan itu sendiri.
  2. Ulangi berulang kali dengan pemilik produk. Terus pastikan Anda berada di jalan yang benar.
  3. Jika data tidak menceritakan kisah yang mereka pikir / ingin sampaikan kepada mereka, itu bukan masalahnya, jelaskan mengapa ini terjadi, bias apa yang mungkin memainkan peran dan sebagainya. Jangan menerapkan semua jenis filter atau terus mengubah parameter untuk mendapatkan hasil yang diinginkan.

Mengenai pertanyaan kedua Anda:

Sasaran harus diperoleh dari pemilik produk secara eksplisit atau berasal dari tujuan yang kurang matematis. Contohnya adalah di mana Anda perlu memprediksi kedatangan kereta berdasarkan beberapa fitur. Mereka ingin model memprediksi sebanyak mungkin dalam rentang kesalahan 10 menit. Ini relatif eksplisit.

Kadang-kadang kurang jelas dari itu, mereka mungkin mengatakan kita membutuhkannya seakurat mungkin. Maka Anda harus memutuskan apa yang harus dioptimalkan, dalam beberapa kasus, ini hanya akan meminimalkan MSE tetapi dalam kasus lain, hal-hal lain mungkin lebih masuk akal untuk kasus Anda. Biasanya, ini akan jelas dari tujuan implisit dan sesuatu yang Anda akan menjadi lebih baik dengan lebih banyak pengalaman. Baik tujuan implisit maupun eksplisit berasal dari komunikasi yang jelas dengan pemilik produk.

Jan van der Vegt
sumber
Terima kasih atas komentarnya, saya pikir saran Anda tentang berkomunikasi dengan orang-orang yang kurang teknis benar-benar membantu dan pasti sesuatu yang perlu saya kerjakan.
Hobbes
Saya menambahkan beberapa info tentang tujuannya juga
Jan van der Vegt
Sangat membantu, saya akan terus mengingat hal ini. (Tebak saya tidak dapat memilih sampai saya memiliki reputasi yang lebih tinggi)
Hobbes
5

"Bagaimana Anda menangani diberi dataset, tetapi tidak ada tujuan yang jelas?"

Ini akan menjadi hal biasa.

Terlepas dari saran di atas, pahamilah bahwa penting untuk memahami tujuan bisnis tempat Anda berada, dan klien langsung Anda. Seringkali Anda perlu memahami masalah khusus yang membuat mereka beralih ke data lebih baik daripada yang mereka lakukan. Sangat umum untuk disajikan dengan data dan tujuan yang tidak jelas dari klien internal atau eksternal Anda - biasanya tugas Anda untuk menyediakan tujuan yang dapat dicapai dengan data dan akan memecahkan masalah bisnis aktual klien. Sejumlah pemikiran lateral akan diperlukan untuk membuat hasil data dan solusi bisnis cocok.

Saya akan meringkas hal di atas sebagai 'mendefinisikan tujuan terlalu penting (dan mungkin terlalu sulit!) Diserahkan kepada klien (sendiri)'.

Dalam konteks pembelajaran mesin, CRISP-DM adalah metodologi yang mencoba untuk memecahkan masalah ini dengan mengulangi melalui loop sehingga pemahaman data tambahan dapat digunakan dalam diskusi dengan klien untuk lebih memahami masalah asli. Jadi, misalnya, mereka mungkin menyatakan tujuan yang tidak jelas, diskusi kedua setelah Anda melakukan EDA akan sedikit mempertajamnya. Ketika nanti Anda menghasilkan model yang berfungsi dengan baik, tetapi tidak pada target yang tepat, Anda akan semakin dekat dengan tujuan bisnis yang sebenarnya.

Dengan kata lain, jangan terlalu terganggu oleh ketidakjelasan tugas. Berharap untuk menemukan vaccuum, dan isi untuk keuntungan Anda.

Ini sedikit pergeseran ke samping, tetapi metodologi six sigma berusaha untuk memecahkan masalah ini dalam konteks yang berbeda dengan sistem DMAIC ('D' singkatan dari 'Define', dalam hal 'suara pelanggan'), jadi itu adalah kemungkinan bahwa beberapa kiat dapat diperoleh dalam sumber daya untuk konteks six sigma (misalnya latihan yang dapat Anda lakukan dengan klien yang membantu mereka mengungkapkan apa yang Anda inginkan dengan lebih jelas)

Robert de Graaf
sumber
Terima kasih, itu umpan balik yang bagus. Saya terutama suka 'mendefinisikan tujuan terlalu penting (dan mungkin terlalu sulit!) Untuk diserahkan kepada klien (sendiri)'. Saya pasti akan melihat ke CRISP-DM.
Hobbes