Statistik dan Big Data

21
Beberapa imputasi dan pemilihan model

Beberapa imputasi cukup mudah ketika Anda memiliki model linear apriori yang ingin Anda perkirakan. Namun, hal-hal tampaknya menjadi sedikit lebih rumit ketika Anda benar-benar ingin melakukan pemilihan model (misalnya menemukan variabel prediktor "terbaik" dari variabel kandidat yang lebih besar -...

21
Apa perbedaan antara distribusi "pembatas" dan "stasioner"?

Saya melakukan pertanyaan pada rantai Markov dan dua bagian terakhir mengatakan ini: Apakah rantai Markov ini memiliki distribusi terbatas. Jika jawaban Anda adalah "ya", cari distribusi terbatas. Jika jawaban Anda "tidak", jelaskan alasannya. Apakah rantai Markov ini memiliki distribusi...

21
Fungsi apa yang bisa menjadi kernel?

Dalam konteks pembelajaran mesin dan pengenalan pola, ada konsep yang disebut Kernel Trick . Menghadapi masalah di mana saya diminta untuk menentukan apakah suatu fungsi bisa menjadi fungsi kernel atau tidak, apa sebenarnya yang harus dilakukan? Haruskah saya periksa dulu apakah mereka dalam bentuk...

21
Mendeteksi pencilan dalam data hitungan

Saya memiliki apa yang saya anggap naif sebagai masalah yang cukup lurus ke depan yang melibatkan deteksi outlier untuk banyak set data penghitungan yang berbeda. Secara khusus, saya ingin menentukan apakah satu atau lebih nilai dalam serangkaian data jumlah lebih tinggi atau lebih rendah dari yang...

21
Hutan acak vs regresi

Saya menjalankan model regresi OLS pada kumpulan data dengan 5 variabel independen. Variabel independen dan variabel dependen keduanya kontinu dan terkait linier. R Square adalah sekitar 99,3%. Tetapi ketika saya menjalankan hal yang sama menggunakan hutan acak di R hasil saya adalah '% Var...

21
Menggabungkan informasi dari berbagai penelitian untuk memperkirakan rata-rata dan ragam data yang terdistribusi normal - pendekatan Bayesian vs meta-analitik

Saya telah meninjau satu set makalah, masing-masing melaporkan rata-rata yang diamati dan SD pengukuran dalam masing-masing sampel dengan ukuran yang diketahui, . Saya ingin membuat tebakan terbaik tentang kemungkinan distribusi ukuran yang sama dalam studi baru yang saya rancang, dan seberapa...