Statistik dan Big Data

81
Apa perbedaan antara model zero-inflated dan hurdle?

Saya bertanya-tanya apakah ada perbedaan yang jelas antara apa yang disebut sebagai distribusi nol (model) dan apa yang disebut distribusi hurdle-at-zero (model)? Istilah-istilah itu cukup sering muncul dalam literatur dan saya menduga itu tidak sama, tetapi bisakah Anda menjelaskan kepada saya...

80
Menghitung jumlah optimal tempat sampah dalam histogram

Saya tertarik menemukan metode seoptimal mungkin untuk menentukan berapa banyak nampan yang harus saya gunakan dalam histogram. Data saya harus berkisar antara 30 hingga 350 objek paling banyak, dan khususnya saya mencoba menerapkan ambang (seperti metode Otsu) di mana objek "baik", yang saya harus...

79
Perbedaan KL antara duaausa univariat

Saya perlu menentukan KL-divergence antara dua Gaussians. Saya membandingkan hasil saya dengan ini , tetapi saya tidak dapat mereproduksi hasilnya. Hasil saya jelas salah, karena KL bukan 0 untuk KL (p, p). Saya bertanya-tanya di mana saya melakukan kesalahan dan bertanya apakah ada yang bisa...

79
The Book of Why oleh Judea Pearl: Mengapa dia memukul statistik?

Saya sedang membaca The Book of Why karya Judea Pearl, dan itu sudah masuk ke kulit saya 1 . Secara khusus, tampak bagi saya bahwa ia tanpa syarat menghantam statistik "klasik" dengan mengemukakan argumen orang bodoh bahwa statistik tidak pernah dapat menyelidiki hubungan sebab akibat, bahwa ia...

78
Contoh: regresi LASSO menggunakan glmnet untuk hasil biner

Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84,...

78
Clustering pada output t-SNE

Saya punya aplikasi di mana akan berguna untuk mengelompokkan dataset yang berisik sebelum mencari efek subkelompok di dalam kluster. Saya pertama kali melihat PCA, tetapi dibutuhkan ~ 30 komponen untuk mencapai 90% dari variabilitas, jadi pengelompokan hanya pada beberapa PC akan membuang banyak...