Statistik dan Big Data

181
Apa itu ilmuwan data?

Setelah baru-baru ini lulus dari program PhD saya di bidang statistik, saya selama beberapa bulan terakhir mulai mencari pekerjaan di bidang statistik. Hampir setiap perusahaan yang saya anggap memiliki lowongan pekerjaan dengan judul pekerjaan " Data Scientist ". Bahkan, rasanya seperti sudah lama...

173
Bagaimana menafsirkan plot QQ

Saya bekerja dengan dataset kecil (21 pengamatan) dan memiliki plot QQ normal berikut di R: Melihat plot tidak mendukung normalitas, apa yang bisa saya simpulkan tentang distribusi yang mendasarinya? Sepertinya bagi saya bahwa distribusi yang lebih condong ke kanan akan lebih cocok, bukan?...

167
Kapan saya harus menggunakan laso vs ridge?

Katakanlah saya ingin memperkirakan sejumlah besar parameter, dan saya ingin menghukum beberapa dari mereka karena saya percaya mereka harus memiliki sedikit efek dibandingkan dengan yang lain. Bagaimana cara saya memutuskan skema hukuman apa yang akan digunakan? Kapan regresi ridge lebih tepat?...

159
ROC vs kurva presisi dan penarikan

Saya mengerti perbedaan formal di antara mereka, yang ingin saya ketahui adalah ketika lebih relevan untuk menggunakan satu vs yang lain. Apakah mereka selalu memberikan wawasan pelengkap tentang kinerja sistem klasifikasi / deteksi yang diberikan? Kapan masuk akal untuk menyediakan keduanya,...

154
Generatif vs diskriminatif

Saya tahu bahwa generatif berarti "berdasarkan " dan diskriminatif berarti "berdasarkan ," tetapi saya bingung pada beberapa poin:P(x,y)P(x,y)P(x,y)P(y|x)P(y|x)P(y|x) Wikipedia (+ banyak hit lainnya di web) mengklasifikasikan hal-hal seperti SVM dan pohon keputusan sebagai diskriminatif. Tetapi...