Seberapa pentingkah pengetahuan domain dalam profesi kita?

8

atau: Apakah memilih domain saat memasuki suatu pekerjaan mempersempit pilihan masa depan Anda untuk domain dan karenanya pekerjaan?

Untuk membuat pertanyaan ini seluas mungkin diterapkan ...

  • profesi mengacu pada semua jenis analis data, dari ahli statistik di atas pemrogram pelajar mesin hingga penambang data.
  • bayangkan Anda diminta untuk memberikan saran kepada audiensi yang berisi siswa dan profesional dari kelas usia yang berbeda

Mungkin titik awal:

Kompetisi di Kaggle telah menunjukkan bahwa orang luar dapat mengungguli model yang dibuat oleh karyawan perusahaan (lihat misalnya di sini ). Di sisi lain, pengalaman kerja saya (terbatas) telah membawa saya pada kesimpulan, bahwa memahami bagaimana dan di mana data telah dihasilkan adalah mutlak wajib untuk menciptakan lingkungan abstrak di mana sesuatu seperti kompetisi Kaggle dapat terjadi. Selain itu, tanpa pengetahuan domain, saya merasa kesulitan untuk melaporkan hasilnya ke lapisan / departemen lain. Beberapa mengasosiasikan keterampilan terakhir sebagai kunci "profesi" baru "Ilmu Data" (lihat misalnya di sini atau di sini ).

steffen
sumber
pertanyaan sudah ditandai untuk membuatnya cw.
steffen
1
Wrt. untuk contoh Kaggle: 1. "Internal benchmark" (yang tampaknya menjadi dasar untuk "340% outperforms") tidak mengatakan itu adalah model terbaik yang dimiliki Allstate. Kompetisi lain menggunakan model yang cukup sederhana dan dasar untuk pembandingan, yang mungkin terjadi di sini juga. 2. Tanpa pengetahuan domain: jangan lupa jumlah pengetahuan analisis domain dan data yang muncul selama persiapan kumpulan data. Dan: Saya tidak tahu profesi / aplikasi keahlian dari pemenang.
cbeleites tidak senang dengan SX

Jawaban:

7

Saya membuat analogi: Memecahkan masalah statistik tanpa konteks seperti tinju sambil ditutup matanya. Anda mungkin menjatuhkan lawan, tetapi Anda mungkin menampar tiang ring.

Saya kebanyakan bekerja dengan peneliti ilmu kedokteran dan sosial. Tampaknya ada perasaan yang tersebar luas di sana bahwa model yang tepat untuk penelitian adalah

1) Mereka datang dengan ide, mengumpulkan data, menulis tentang hal itu dan kemudian 2) Mereka memberikannya kepada kita untuk "melakukan statistik".

Jadi, saya setuju bahwa kita perlu memahami masalahnya; tentu saja, kita tidak perlu pemahaman penuh tentang penelitian seperti yang dimiliki oleh praktisi. Itulah sebabnya saya (dan banyak orang data lainnya) dapat bekerja dengan orang-orang di profesi yang berbeda. Tetapi, semakin sedikit yang kita ketahui tentang suatu subjek, semakin banyak kita perlu berinteraksi dengan profesional untuk memastikan bahwa hasilnya masuk akal.

Salah satu dari banyak hal yang saya sukai tentang apa yang saya lakukan adalah saya bisa belajar sedikit tentang banyak mata pelajaran yang berbeda.

Peter Flom
sumber
1
Analogi yang sangat bagus. Meskipun sedikit statistik dalam DoE (pengacakan, perencanaan ukuran sampel) tidak sakit, tidak ... Dan kebutuhan untuk interaksi dapat meledak jika tumpang tindih dalam pengetahuan (dan juga terminologi) terlalu rendah.
cbeleites tidak senang dengan SX
5

Seberapa pentingkah pengetahuan domain dalam profesi kita?

  • Cukup penting untuk memberikan nama yang berbeda pada analisis data berorientasi domain (mis. Metrik: biometrik, psikometrik, kemometrik, ...)

  • The campuran pengetahuan domain dan pengetahuan statistik sangat penting dalam

    • desain eksperimen, misalnya praktis ./. kelayakan statistik, norma-norma spesifik domain, perencanaan ukuran sampel
    • memandu analisis data (Apa jenis transformasi atau pra-pemrosesan yang bermakna secara fisik / biologis / kimia? Koreksi apa dari data mentah yang diperlukan ?, kriteria untuk kualitas data, heuristik)
    • memeriksa apakah hasilnya mungkin bermakna / benar
    • interpretasi hasil
      Berikut adalah contoh interpretasi domain-spesifik dari classifier yang mungkin hanya karena kedua data-analitis dan pengetahuan spektroskopi bersama-sama berada di tangan (bagian "LDA deskriptif dan interpretasi spektroskopi"). Coba bayangkan jumlah komunikasi yang akan dibutuhkan antara seorang analis data tanpa pengetahuan spektroskopi dan seorang spektroskopi tanpa gagasan LDA untuk sampai pada interpretasi seperti itu.
    • Dalam konteks (kurangnya) reproduksibilitas hasil yang dipublikasikan, ada kekhawatiran tentang penelitian yang dilakukan seolah-olah tidak ada pengetahuan lebih lanjut tentang bidang / masalah / data, lihat misalnya E. R: Dougherty: Pengembangan biomarker: Prudence, risiko, dan reproduktifitas, BioEssays, 2012, 34, 277-279.
      Beck-Bornholt & Dubben mungkin akan berpendapat bahwa menggabungkan lebih banyak pengetahuan domain meningkatkan prevalensi (probabilitas sebelumnya) dari ide-ide ilmiah yang baik.
    • The tidak ada makan siang gratis teorema petunjuk ke arah yang sama.

    (Saya seorang ahli kimia yang berspesialisasi dalam chemometrics dan spektroskopi, dan melakukan pengukuran dan analisis data)

Apakah memilih domain saat memasuki suatu pekerjaan mempersempit pilihan masa depan Anda untuk domain dan karenanya pekerjaan?

Mungkin, tetapi pada saat yang sama, Anda akan dapat mengklaim lebih banyak keahlian di bidang itu dan akibatnya dapat melamar pekerjaan khusus (dan pengalaman saya adalah bahwa kami ahli kimia adalah spesies yang sangat dicari).

Dan, di samping itu, Anda menunjukkan bahwa Anda dapat bergabung dengan pekerjaan di domain baru.

cbeleites
sumber