Pertanyaan wawancara statistik

65

Saya mencari beberapa statistik (dan probabilitas, saya kira) pertanyaan wawancara, dari yang paling dasar sampai yang lebih maju. Jawaban tidak perlu (meskipun tautan ke pertanyaan spesifik di situs ini akan berhasil).

shabbychef
sumber
Akan sangat menarik jika seseorang dapat memberikan contoh di mana mereka memberikan diri mereka ketika diwawancarai ...
kjetil b halvorsen

Jawaban:

40

Tidak yakin apa pekerjaannya, tapi saya pikir "Jelaskan x kepada seorang pemula" mungkin akan menjadi baik-

a) karena mereka mungkin perlu melakukan ini dalam pekerjaan

b) kurasa itu ujian yang bagus untuk memahami.

Chris Beeley
sumber
8
(+1): Saya tidak bisa menghitung berapa kali saya pikir saya sudah mengerti sesuatu, tetapi kemudian saya gagal menjelaskannya kepada orang lain dengan kata-kata yang mudah. Contoh: p-value;)
steffen
6
"Jika Anda tidak dapat menjelaskannya kepada anak berusia enam tahun, maka Anda mungkin tidak memahaminya sendiri" - Albert Einstein. Mungkin tidak terlalu ekstrem, tetapi Anda mengerti maksudnya: :)
JM bukan ahli statistik
1
Saya suka "Jelaskan nilai-p", dengan atau tanpa bagian "ke pemula".
shabbychef
inilah mengapa cross-valided sangat bagus. banyak pertanyaan dan jawaban "awam".
Neil McGuigan
Saran yang sangat bagus apakah Anda sedang mewawancarai atau tidak!
JMS
21

Standar Q tempat saya bekerja adalah di sepanjang garis:

Lihat output regresi logistik berganda ini dari paket statistik yang Anda klaim telah digunakan (lebih disukai yang kami gunakan juga). XXX adalah variabel independen minat pokok. Bagaimana Anda menafsirkan hasil untuk kolega dengan pengetahuan tentang materi pelajaran tetapi tidak ada pelatihan statistik formal? (Jika perlu meminta interpretasi terpisah estimasi titik, CI, nilai-p).

onestop
sumber
15
Dalam konteks yang lebih akademis, orang mungkin juga bertanya: 'lihatlah keluaran model ini dalam makalah ini yang Anda (rekan) tulis . Katakan padaku apa artinya. " Jawaban yang tidak memuaskan kemudian berakibat fatal karena tidak ada alasan untuk ketidaktahuan, namun sering terjadi.
conjugateprior
4
@conjugateprior Tidak benar. Selama setidaknya ada satu penulis bersama yang tidak hadir, itu adalah bidang penulis bersama yang tidak hadir. Penggunaan utama teknik ini adalah pada presentasi konferensi.
Mark L. Stone
18

Anda mungkin juga ingin merenungkan apakah wawancara merupakan media terbaik untuk mengukur konstruk minat. Jika Anda ingin mengukur pengetahuan sebelumnya tentang probabilitas atau statistik, lebih baik Anda lebih mengandalkan tes tertulis. Anda dapat mengajukan lebih banyak pertanyaan, dan dengan demikian meningkatkan keandalan pengukuran. Ini lebih terstandarisasi baik dalam administrasi, dan dalam penilaian. Dan begitu instrumen dikembangkan, mungkin menggunakan lebih sedikit sumber daya untuk mengelola.

Anda kemudian dapat menggunakan wawancara sebagai alat yang lebih fokus melihat faktor-faktor seperti keterampilan verbal dan interpersonal.

Jeromy Anglim
sumber
1
Ini poin yang bagus. Saya telah menemukan di masa lalu bahwa sangat sulit untuk mengatakan apakah seorang kandidat tertentu akan berhasil, kecuali jika Anda pernah bekerja dengan mereka di masa lalu.
shabbychef
15

Dua pertanyaan yang pernah saya tanyakan:

1) Anda cocok dengan regresi berganda untuk menguji pengaruh variabel tertentu yang diminati oleh pekerja di departemen lain. Variabel tersebut kembali tidak signifikan, tetapi rekan kerja Anda mengatakan bahwa ini tidak mungkin karena diketahui memiliki pengaruh. Apa yang akan Anda katakan / lakukan?

2) Anda memiliki 1000 variabel dan 100 pengamatan. Anda ingin menemukan variabel signifikan untuk respons tertentu. Apa yang akan kamu lakukan?

Lembah kecil
sumber
Bisakah Anda memposting jawaban juga? Untuk 1) Saya berasumsi, mungkin ada beberapa variabel dependen yang menyebabkan masalah. Untuk 2) Saya mungkin akan pergi untuk uji statistik χ² (chi-squared)
Rishi Dua
2
Ada banyak tanggapan yang masuk akal untuk keduanya, berikut adalah pemikiran cepat saya: 1) model regresi berasal dari sampel, sampel ini memiliki variasi acak dan oleh karena itu model ini hanya perkiraan dan dapat mengakibatkan kesalahan tipe 1 atau tipe 2. Mungkin juga ada kolinearitas berat di antara para prediktor. Untuk 2) itu masalah P besar vs kecil N. Ada banyak teknik untuk menangani situasi ini, seperti mengurangi dimensi dan Lasso.
Glen
2) lakukan variabel univariat dan mengidentifikasi variabel mana yang paling signifikan untuk mengurangi set variabel
adam
11

Ini adalah kumpulan data besar. Apa rencana Anda untuk berurusan dengan pencilan? Bagaimana dengan nilai yang hilang? Bagaimana dengan transformasi?

Bisakah mereka berurusan dengan data dunia nyata?

Neil McGuigan
sumber
Pengguna anonim yang terhormat, tolong jangan gunakan edit untuk komentar (ini bukan untuk Anda, Neil).
10

Banyak pertanyaan / jawaban di situs ini dapat memberikan ide untuk pertanyaan yang bagus. Saya akan memberikan daftar dengan beberapa tautan yang menurut saya bagus. Posting yang saya jawab terlalu terwakili, karena saya tahu posting itu lebih baik, bukan karena mereka yang terbaik! Saya memberikan komentar singkat untuk setiap tautan, sehingga Anda dapat memutuskan apakah Anda ingin mengikuti tautan tersebut.

Apa intuisi di balik SVD? "Bisakah Anda menjelaskan kepada salah satu klien kami bagaimana SVD bekerja?"

Estimasi Kemungkinan Maksimum (MLE) dalam istilah awam "Bisakah Anda menjelaskan dalam bahasa nonteknis gagasan estimasi kemungkinan maksimum?"

Taleb dan Black Swan "Katakan padaku, apa itu angsa hitam, dan mengapa itu relevan? Kapan itu relevan?"

Inferensi statistik ketika sampel "adalah" populasi "Apa yang dapat Anda katakan tentang inferensi statistik ketika sampel adalah seluruh populasi?"

Goodness of fit dan model mana untuk memilih regresi linier atau Poisson "Kami memiliki masalah regresi di mana responsnya adalah variabel jumlah. Mana yang akan Anda pilih dalam konteks ini, kuadrat terkecil atau regresi Poisson (atau mungkin beberapa lainnya)? Jelaskan pilihan Anda , apa perbedaan utama antara model ini? "

Apa perbedaan antara varian terbatas dan tak terbatas "Bisakah Anda menjelaskan, dalam bahasa sesederhana mungkin, apa artinya variabel acak memiliki ekspektasi tak terbatas atau varian tak terbatas? Apa kepentingan praktis perbedaan ini? Jelaskan dengan contoh."

Apa yang modern, alternatif yang mudah digunakan untuk regresi bertahap? "Bagaimana Anda membangun model regresi yang kompleks ketika ada banyak variabel prediktor yang mungkin? Jelaskan berbagai strategi yang mungkin, dan ceritakan tentang masalah dengan masing-masingnya"

Bagaimana cara mengatasi pemisahan yang sempurna dalam regresi logistik? "Apa masalah pemisahan dalam regresi logistik, penyebabnya, gejalanya? Apa yang dapat Anda lakukan untuk menyelesaikannya, jika itu benar-benar masalah?"

Mengapa matriks korelasi perlu semi-pasti positif dan apa artinya menjadi semi-pasti positif atau tidak? dan
apa yang dikatakan oleh matriks kovariansi non positif yang pasti tentang data saya? "Jelaskan mengapa matriks kovarians harus positif (semi) pasti, dan apa artinya itu. Bagaimana fakta itu bisa digunakan?"

Apa versi median multidimensi "Bisakah Anda mengusulkan beberapa cara untuk menggeneralisasi median ke data multivarian?"

Menafsirkan istilah interaksi dalam regresi logit dengan variabel kategori dan Apa praktik terbaik dalam mengidentifikasi efek interaksi? dan Dua efek utama negatif namun efek interaksi positif? dan Termasuk interaksi tetapi bukan efek utama dalam suatu model dan Bagaimana menafsirkan efek utama ketika efek interaksi tidak signifikan? "Jelaskan apa yang dimaksud dengan interaksi dalam model regresi. Secara khusus, apa artinya jika interaksi itu signifikan sedangkan efek utama tidak? Apakah ada beberapa perbedaan dalam interpretasi interaksi antara regresi linier biasa dan regresi logistik?"

Apa yang bisa menjadi alasan untuk menggunakan transformasi akar kuadrat pada data? dan Transformasi data yang tepat "Kapan, bagaimana dan mengapa Anda mengubah variabel respons dalam model regresi (atau ANOVA)? Apakah ada alternatif?

Bisakah saya mempercayai hasil ANOVA untuk DV yang tidak terdistribusi normal? "Bagaimana Anda akan memperlakukan ANOVA dengan residu yang tidak normal?

Mengapa statistik berguna ketika banyak hal yang penting adalah satu kesempatan?

Bagaimana saya bisa memodelkan jumlah variabel acak Bernoulli secara efisien?

Kapan harus menggunakan persamaan estimasi umum vs model efek campuran?

Apa yang terjadi di sini, ketika saya menggunakan kuadrat kerugian dalam pengaturan regresi logistik? "Mengapa kita menggunakan kemungkinan maksimal untuk regresi logistik? Mengapa tidak kuadrat?"

kjetil b halvorsen
sumber
9

Saya pernah ditanya bagaimana saya akan menjelaskan relevansi teorema batas pusat dengan kelas mahasiswa baru dalam ilmu sosial yang nyaris tidak memiliki pengetahuan tentang statistik.

Wolfgang
sumber
4
Relevansi dari Teorema Limit Pusat adalah membuat orang berpikir bahwa semuanya adalah Normal, padahal sebenarnya tidak ada. Dan karena itu mengarah pada banyak kesimpulan yang salah.
Mark L. Stone
8

Bagaimana Anda mencegah pemasangan berlebihan ketika Anda membuat model statistik?

Jawaban yang bagus: validasi silang

Neil McGuigan
sumber
6

Saya sering bertanya "bagaimana Anda mendefinisikan / menjelaskan apa perkiraan itu?"

Jawaban untuk jenis pertanyaan yang sangat umum membantu saya untuk melihat apakah orang terhubung dengan kasus perkiraan tertentu. Tidak ada jawaban yang benar tetapi menjawab ini secara sintetis selama wawancara tidak selalu mudah :)

robin girard
sumber
5

Untuk konteks data pengamatan:

Pertimbangkan model regresi ini diterapkan untuk masalah substantif ini. Apa, jika ada, di dalamnya dapat diartikan secara kausal? [Pemeriksaan lebih lanjut] Apa yang perlu Anda pelajari untuk mengubah pendapat Anda?

conjugateprior
sumber
4

Bagaimana Anda menghitung jumlah pohon kayu cendana di Bangalore?

pengguna3153
sumber
1
Apakah itu semacam pertanyaan Fermi ?
Thies Heidecke
2
Pertanyaan bagus. Saya telah menggunakan versi ini di kelas (pohon di taman). Mereka mendapat ide pengambilan sampel, tetapi cenderung kehilangan kebutuhan akan definisi operasional: kapan Anda mulai menyebutnya pohon?
zbicyclist
4

Di bawah judul Penyebab vs korelasi :

Adalah umum untuk menggunakan keterlibatan pelanggan / pengguna sebagai fitur untuk model prediksi. Misalnya, orang yang mengklik tombol ini lebih cenderung berlangganan daripada orang yang tidak. Orang-orang yang berbelanja pada hari Senin lebih mungkin untuk berbelanja lagi daripada mereka yang berbelanja pada hari Selasa.

Jika kami menganggap ini ekstrem: Pengguna yang mengeklik "pembelian" lebih cenderung membeli produk daripada pengguna yang tidak mengeklik pembelian.

Tetapi jelas itu tidak terlalu membantu dalam menjelaskan mengapa beberapa pengguna berlangganan dan beberapa tidak.

Bagaimana Anda menyeimbangkan menggunakan fitur pelanggan yang menjelaskan mengapa mereka berlangganan vs yang sangat berkorelasi dengan berlangganan, tetapi perlu untuk menyelesaikan tugas?

ilanman
sumber
3

Ini adalah set TinkerToy . Tunjukkan pada saya bagaimana jarak Euclidean bekerja dalam tiga dimensi. Sekarang tunjukkan kepada saya bagaimana regresi berganda bekerja.

Bisakah mereka menjelaskan bagaimana statistik bekerja di dunia fisik?

Neil McGuigan
sumber
1
NN
1
jika Anda ingin menyebarkan plot dua variabel dengan 100 pengamatan, Anda hanya perlu 2 dimensi, bukan 100 :), dan seterusnya
Neil McGuigan
3

Kami menjalankan pusat layanan pelanggan. Kami mendapat 1 juta panggilan per bulan. Bagaimana kita menguranginya menjadi sepuluh ribu?

pengguna3153
sumber
5
hapus 99% ponsel Anda!
shabbychef
5
Berhentilah membayar tagihan telepon.
Glen
3
Dikenakan biaya untuk panggilan tersebut. (nomor 900 di AS ...)
gWaldo
7
Pertanyaan ini tentang aturan 80-20. Ini adalah aturan umum dalam bisnis; misalnya, "80% dari penjualan Anda berasal dari 20% dari klien Anda". Microsoft mencatat bahwa dengan memperbaiki 20% bug yang paling banyak dilaporkan, 80% kesalahan dan kerusakan akan dihilangkan. Jadi itu berarti mengatur sebuah FAQ untuk mengidentifikasi mengatasi 20% dari masalah ini
Rishi Dua
3

Banyak pertanyaan yang kami ajukan mirip dengan yang telah dijelaskan. Tetapi beberapa yang belum saya baca, yang digunakan: Anda mungkin diminta untuk membuat sketsa program di papan tulis untuk melakukan sesuatu seperti: mensimulasikan dadu bergulir atau masalah probabilitas lainnya, atau menghitung serangkaian bilangan prima (misalnya semua bilangan prima yang kurang dari 1.000.000) - Anda akan dapat melakukan ini dalam bahasa apa pun yang Anda inginkan, tetapi sebagian besar orang memilih R, dan beberapa memilih Python (saya percaya), tetapi saya kira Anda dapat memilih Stata, SAS, SPSS , Matlab, dll. Anda mungkin akan ditanyai pertanyaan untuk menyelidiki kedalaman pengetahuan Anda tentang bahasa pemrograman pilihan Anda - mengapa menggunakan terapkan alih-alih untuk loop dalam R, misalnya.

Anda juga mungkin diminta untuk merancang eksperimen atau penelitian lain untuk menyelidiki sesuatu - biasanya sesuatu yang praktis - kadang-kadang ini terkait dengan pekerjaan yang kita lakukan, tetapi seringkali tidak. (Anda seharusnya tidak memiliki pengetahuan tentang pekerjaan yang kami lakukan, tetapi Anda harus dapat memahami inti masalah yang belum Anda dengar dan berspekulasi dengan cerdas, bahkan jika diberi pengetahuan domain tertentu, Anda akan tahu itu salah - tidak apa-apa, Anda tidak diharapkan memiliki pengetahuan domain). Anda mungkin diminta untuk mempertimbangkan hal-hal seperti kekuasaan.

Jeremy Miles
sumber
2

Saat melakukan analisis varians variabel kuantitatif, kadang-kadang ditemukan bahwa frekuensi variabel sangat tinggi (> 5) maka kami menggunakan uji eksak Fisher untuk menemukan independensi variabel.

Mike Anderson
sumber
Ini mungkin akan dimasukkan di bawah jawaban Chris.
JM bukan ahli statistik
4
Apakah jawaban yang benar untuk yang satu ini termasuk mengetahui bahwa ada kontroversi tentang apakah marjinal tetap masuk akal dan memiliki pendapat tentang subjek?
Ben Bolker
1

Kehadiran rata-rata yang dibayarkan di Yankees games tahun lalu adalah 55.000. Anda secara acak bertanya kepada sekelompok orang di NYC apakah mereka pergi ke pertandingan Yankees musim lalu, dan jika mereka melakukannya, Anda mencatat kehadiran yang dibayar. Berapa rata-rata pengunjung yang hadir untuk permainan yang dihadiri orang-orang yang Anda temui yang menghadiri pertandingan?

Saya akan memberi Anda petunjuk untuk jawaban saya (petunjuk tidak disediakan): pengambilan sampel dengan panjang bias. Saya mencetak home run dalam hal itu, tetapi itu tidak cukup untuk memenangkan pertandingan, ha ha. Catatan: Saya menyebutkan banyak peringatan yang berkaitan dengan bagaimana pengambilan sampel dilakukan, dan pewawancara mengatakan kepada saya untuk mengabaikan semuanya.

Mark L. Stone
sumber