Apa saja pertanyaan wawancara yang baik untuk kandidat pengembang algoritma statistik?

15

Saya mewawancarai orang-orang untuk posisi pengembang algoritma / peneliti dalam konteks statistik / pembelajaran mesin / data mining.

Saya mencari pertanyaan untuk ditanyakan untuk menentukan, secara khusus, keakraban, pemahaman dan kelenturan kandidat dengan teori yang mendasarinya, misalnya sifat dasar dari harapan dan perbedaan, beberapa distribusi umum, dll.

Saya saat masuk ke pertanyaan adalah: "Ada kuantitas yang tidak diketahui yang kami ingin perkiraan Untuk tujuan ini kita memiliki estimator. Y 1 , Y 2 , ... , Y n yang, mengingat X , semua berisi dan independen, dan masing-masing memiliki varians diketahui σ 2 i , yang berbeda untuk masing-masing. Cari optimal estimator Y = f ( Y 1 , ... , Y n )XY1,Y2,...,YnXσsaya2Y=f(Y1,,Yn) yang tidak bias dan memiliki varian minimal. "

Saya berharap ada kandidat yang serius untuk menanganinya dengan mudah (diberikan waktu untuk menyelesaikan perhitungan), namun saya terkejut melihat berapa banyak kandidat yang seharusnya dari bidang yang relevan gagal membuat kemajuan sekecil apa pun. Karena itu saya menganggapnya sebagai pertanyaan yang baik dan diskriminatif. Satu-satunya masalah dengan pertanyaan ini adalah hanya satu.

Apa pertanyaan lain yang bisa digunakan untuk ini? Atau, di mana saya dapat menemukan koleksi pertanyaan seperti itu?

Meni Rosenfeld
sumber
7
Bagi banyak orang yang mempelajari mesin (termasuk yang baik), pertanyaan itu jauh dari zona nyaman mereka. Ini adalah pertanyaan ahli statistik yang jelas.
Marc Claesen
4
Pertanyaan ini secara sah membatasi / mematikan topik. Namun, ia memiliki banyak pandangan, beberapa upvotes, jawaban dengan beberapa upvote, &, terlebih lagi, adalah CW. Itu bisa tetap terbuka, IMO.
gung - Reinstate Monica
2
XXXX
4
Sebagai peringatan, Google melakukan penelitian besar terhadap proses SDM internal mereka dan menemukan bahwa skor pewawancara tidak berkorelasi sama sekali dengan kinerja pekerjaan selanjutnya !! Kesan saya terhadap literatur di sini adalah bahwa (1) pertanyaan jenis puzzle adalah yang terburuk, melayani hanya untuk membuat pewawancara merasa pintar (yaitu 0 kekuatan perkiraan) dan (2) melanjutkan, pertanyaan berdasarkan pengalaman mungkin memiliki nilai prediksi. Kinerja masa lalu meramalkan kinerja masa depan & Anda mungkin ingin memfokuskan pertanyaan untuk memastikan seperti apa kinerja mereka di masa lalu, tetapi wawancara itu jauh kurang informatif daripada yang dipikirkan pewawancara.
Matthew Gunn
3
Ketidakcocokan dijamin dengan memiliki bobot yang sama dengan satu. Namun, walaupun membatasi solusi Anda untuk kombinasi linier dari estimator, hampir selalu akan menjadi kasus bahwa beberapa estimator berdasarkan data yang sama akan sangat berkorelasi. (Jika mereka benar-benar independen, maka mereka akan diterapkan pada subset data yang terpisah dan independen.) Sama sekali tidak jelas bahwa kombinasi linear dari penaksir akan optimal.
whuber

Jawaban:

12

Apa yang ingin dilakukan oleh pengembang statistik Anda?

Angkatan Darat AS mengatakan "latih kamu akan bertarung, karena kamu akan bertarung seperti kamu dilatih" Uji mereka pada apa yang Anda ingin mereka lakukan sepanjang hari. Sungguh, Anda ingin mereka "menciptakan nilai" atau "menghasilkan uang" untuk perusahaan.

Bos 101

Pikirkan "tunjukkan saya uang."

  • Uang tumbuh di pohon yang disebut karyawan. Anda memasukkan "uang receh" (upah mereka) dan mereka membayar Anda "seperempat" (nilai mereka).
  • Jika Anda tidak dapat menghubungkan pekerjaan mereka dengan bagaimana mereka menghasilkan uang untuk perusahaan maka Anda maupun mereka tidak melakukan pekerjaan mereka dengan benar.

Catatan: Jika pertanyaan manipulasi simbolis Anda tidak terhubung dengan bersih ke "uang" maka Anda mungkin mengajukan pertanyaan yang salah.

Ada 3 hal yang harus dilakukan setiap karyawan untuk menjadi karyawan:

  • Mampu benar-benar melakukan pekerjaan
  • Bekerja dengan baik dengan tim
  • Bersedia / termotivasi untuk benar-benar melakukan pekerjaan itu

Jika Anda tidak mendapatkan dasar yang kuat ini, tidak ada jawaban lain yang akan membantu Anda.

Jika Anda dapat menggantinya dengan perangkat lunak yang bagus atau remaja yang terlatih, maka pada akhirnya Anda harus melakukannya, dan itu akan dikenakan biaya.

Data 101

Apa yang harus mereka lakukan:

  • gunakan citarasa internal perangkat lunak Anda (jaringan, os, kantor, presentasi, dan analisis)
  • menggunakan beberapa rasa standar industri perangkat lunak (Excel, R, JMP, MatLab, pick_three )
  • dapatkan datanya sendiri. Mereka harus mengetahui set data dasar untuk tugas-tugas dasar. Mereka harus tahu repositori. Mereka harus tahu data terkenal mana yang digunakan untuk tugas yang mana. Fisher Iris. Kepiting Pearson. ... mungkin ada 20 elemen yang harus ada di sini. UCI, NIST, NOAA.
  • Mereka harus tahu aturan penanganan data. data biner (T / F) memiliki konten informasi yang sangat berbeda dari kategori (A, B, C, D) atau kontinu. Penanganan data yang benar berdasarkan tipe data adalah penting.
  • Beberapa tugas statistik Dasar meliputi: apakah keduanya sama atau berbeda (alias klaster / klasifikasi), bagaimana hubungannya dengan itu
    (regresi / pemasangan termasuk model linier, glm, basis radial,
    persamaan perbedaan), apakah benar bahwa "x "(pengujian hipotesis), berapa banyak sampel yang saya butuhkan (sampel penerimaan), bagaimana cara mendapatkan
    data terbanyak dari sedikit / eksperimen murah / efisien (Desain statistik
    eksperimen) - penafian, saya insinyur bukan ahli statistik Anda mungkin bertanya kepada mereka pertanyaan "apa saja tugas mendasar yang berbeda, dan bagaimana Anda menguji bahwa ahli statistik dapat melakukannya secara efisien dan benar?
  • akses / gunakan data itu sendiri. Ini tentang format dan alat.
    Mereka harus dapat membaca dari csv, xlsx (excel), SQL, dan
    gambar. (HDF5, Rdata) Jika Anda memiliki format khusus, mereka harus
    dapat membacanya dan bekerja dengan alat dengan cepat dan
    efisien. Mereka harus tahu kekuatan / kelemahan format. CSV cepat digunakan, telah ada selamanya, prototipe cepat, tetapi kembung, tidak efisien dan lambat dijalankan.
  • memproses data dengan benar, menggunakan praktik terbaik, dan tidak melakukan dosa. Jangan pernah membuang data. Jangan cocokkan data binomial dengan garis kontinu. Jangan menentang fisika.
  • datang dengan hasil yang dapat diulang dan direproduksi. Beberapa
    orang mengatakan "ada kebohongan, kebohongan, dan statistik" tetapi tidak di
    perusahaan saya . Input bagus yang sama memberikan output baik yang sama. Outputnya bukan angka, itu selalu merupakan keputusan bisnis yang menginformasikan
    tindakan teknis dan menghasilkan hasil bisnis. Tes yang berbeda dapat mengatur putaran di 5,5, atau 6,5, tetapi kemampuan selalu di atas 1,33.
  • menyajikan temuan dalam bahasa dan pada tingkat yang
    dapat
    dipahami oleh para pembuat keputusan , dan / atau antek, dan / atau diri mereka sendiri dalam setahun, dengan kesalahan paling sedikit. Suatu hal yang indah adalah mampu menjelaskannya sehingga nenek Anda mendapatkannya. ( Tautan ) ini adalah jawaban saya, tetapi saya menyukainya.

Zinger analitik:

Saya pikir pertanyaan-pertanyaan mustahil itu hebat. Mereka tidak mungkin karena suatu alasan. Mampu mengetahui apakah ada sesuatu yang mustahil di luar gerbang adalah hal yang baik. Mengetahui mengapa, memiliki beberapa cara untuk melibatkannya, atau dapat mengajukan pertanyaan yang berbeda bisa lebih baik.

Pertanyaan CV lainnya. ( tautan ) Di reddit. ( tautan ) lainnya ( tautan )

BTW: ini pertanyaan yang bagus. Saya mungkin harus memperbarui jawaban ini dari waktu ke waktu.

EngrStudent
sumber
3
Ini sepertinya jawaban yang bagus, untuk pertanyaan yang berbeda dari yang saya tanyakan. Saya tidak bertanya bagaimana memilih karyawan yang baik (saya mungkin akan menanyakan hal seperti itu di tempat kerja. Seandainya saya perlu), saya bertanya tentang menguji kualifikasi tertentu.
Meni Rosenfeld
Saya akan mengurangi ke statistik hanya saat itu.
EngrStudent