Statistik dan Big Data

56
Apakah "hibrid" antara Fisher dan Neyman-Pearson pendekatan untuk pengujian statistik benar-benar "mishmash tidak koheren"?

Ada aliran pemikiran tertentu yang dengannya pendekatan paling luas untuk pengujian statistik adalah "hibrida" antara dua pendekatan: yaitu pendekatan Fisher dan pendekatan Neyman-Pearson; kedua pendekatan ini, menurut klaim, adalah "tidak kompatibel" dan karenanya "hibrida" yang dihasilkan adalah...

56
Regulator L2 setara dengan Gaussian Prior

Saya terus membaca ini dan secara intuitif saya bisa melihat ini, tetapi bagaimana orang beralih dari regularisasi L2 ke mengatakan bahwa ini adalah Gaussian Prior secara analitik? Hal yang sama berlaku untuk mengatakan L1 setara dengan Laplacean sebelumnya. Referensi lebih lanjut akan bagus....

56
Tantangan Industri vs Kaggle. Apakah mengumpulkan lebih banyak pengamatan dan memiliki akses ke lebih banyak variabel lebih penting daripada pemodelan mewah?

Saya harap judulnya cukup jelas. Di Kaggle, sebagian besar pemenang menggunakan susun dengan kadang-kadang ratusan model dasar, untuk memeras beberapa% ekstra MSE, keakuratan ... Secara umum, menurut pengalaman Anda, seberapa pentingkah pemodelan mewah seperti menumpuk vs sekadar mengumpulkan lebih...

55
Memahami validasi silang bertingkat

Apa perbedaan antara validasi silang bertingkat dan validasi silang ? Wikipedia mengatakan: Dalam stratifikasi k-fold cross-validation , lipatan dipilih sehingga nilai respons rata-rata hampir sama di semua lipatan. Dalam kasus klasifikasi dikotomis, ini berarti bahwa setiap lipatan berisi...

55
Wald test untuk regresi logistik

Sejauh yang saya mengerti tes Wald dalam konteks regresi logistik digunakan untuk menentukan apakah variabel prediktor tertentu signifikan atau tidak. Ia menolak hipotesis nol dari koefisien yang sesuai menjadi nol.XXX Tes terdiri dari membagi nilai koefisien dengan kesalahan standar...