Saya akan memulai pekerjaan di mana saya akan bekerja dengan dataset besar dan akan diharapkan untuk menemukan tren, dll ... Saya telah menemukan banyak sumber di mana untuk belajar ML dan keterampilan keras lainnya dan merasa bahwa saya (semi ) kompeten untuk tujuan ini.
Saya tertarik mengetahui apakah ada soft skill khusus yang bermanfaat sebagai ilmuwan data. Hal-hal apa yang Anda harap Anda ketahui memulai?
Sementara Kaggle sangat berguna saat belajar, itu juga menyajikan tujuan yang jelas. Bagaimana Anda menangani diberi dataset, tetapi tidak ada tujuan yang jelas?
Beri tahu saya jika ini terlalu luas, saya bisa memikirkan pertanyaan yang lebih spesifik.
Jawaban:
Saya pikir ada banyak soft skill penting untuk dipertimbangkan dalam domain Ilmu Data.
Inilah beberapa di antaranya:
Mengenai pertanyaan kedua Anda:
Sasaran harus diperoleh dari pemilik produk secara eksplisit atau berasal dari tujuan yang kurang matematis. Contohnya adalah di mana Anda perlu memprediksi kedatangan kereta berdasarkan beberapa fitur. Mereka ingin model memprediksi sebanyak mungkin dalam rentang kesalahan 10 menit. Ini relatif eksplisit.
Kadang-kadang kurang jelas dari itu, mereka mungkin mengatakan kita membutuhkannya seakurat mungkin. Maka Anda harus memutuskan apa yang harus dioptimalkan, dalam beberapa kasus, ini hanya akan meminimalkan MSE tetapi dalam kasus lain, hal-hal lain mungkin lebih masuk akal untuk kasus Anda. Biasanya, ini akan jelas dari tujuan implisit dan sesuatu yang Anda akan menjadi lebih baik dengan lebih banyak pengalaman. Baik tujuan implisit maupun eksplisit berasal dari komunikasi yang jelas dengan pemilik produk.
sumber
"Bagaimana Anda menangani diberi dataset, tetapi tidak ada tujuan yang jelas?"
Ini akan menjadi hal biasa.
Terlepas dari saran di atas, pahamilah bahwa penting untuk memahami tujuan bisnis tempat Anda berada, dan klien langsung Anda. Seringkali Anda perlu memahami masalah khusus yang membuat mereka beralih ke data lebih baik daripada yang mereka lakukan. Sangat umum untuk disajikan dengan data dan tujuan yang tidak jelas dari klien internal atau eksternal Anda - biasanya tugas Anda untuk menyediakan tujuan yang dapat dicapai dengan data dan akan memecahkan masalah bisnis aktual klien. Sejumlah pemikiran lateral akan diperlukan untuk membuat hasil data dan solusi bisnis cocok.
Saya akan meringkas hal di atas sebagai 'mendefinisikan tujuan terlalu penting (dan mungkin terlalu sulit!) Diserahkan kepada klien (sendiri)'.
Dalam konteks pembelajaran mesin, CRISP-DM adalah metodologi yang mencoba untuk memecahkan masalah ini dengan mengulangi melalui loop sehingga pemahaman data tambahan dapat digunakan dalam diskusi dengan klien untuk lebih memahami masalah asli. Jadi, misalnya, mereka mungkin menyatakan tujuan yang tidak jelas, diskusi kedua setelah Anda melakukan EDA akan sedikit mempertajamnya. Ketika nanti Anda menghasilkan model yang berfungsi dengan baik, tetapi tidak pada target yang tepat, Anda akan semakin dekat dengan tujuan bisnis yang sebenarnya.
Dengan kata lain, jangan terlalu terganggu oleh ketidakjelasan tugas. Berharap untuk menemukan vaccuum, dan isi untuk keuntungan Anda.
Ini sedikit pergeseran ke samping, tetapi metodologi six sigma berusaha untuk memecahkan masalah ini dalam konteks yang berbeda dengan sistem DMAIC ('D' singkatan dari 'Define', dalam hal 'suara pelanggan'), jadi itu adalah kemungkinan bahwa beberapa kiat dapat diperoleh dalam sumber daya untuk konteks six sigma (misalnya latihan yang dapat Anda lakukan dengan klien yang membantu mereka mengungkapkan apa yang Anda inginkan dengan lebih jelas)
sumber