Statistik dan Big Data

56

Bagaimana cara mendapatkan nilai-p (periksa signifikansi) dari suatu efek dalam model campuran lme4?

Saya menggunakan lme4 dalam R agar sesuai dengan model campuran lmer(value~status+(1|experiment))) di mana nilai kontinu, status dan percobaan adalah faktor, dan saya dapatkan Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98...

56

Bagaimana cara mensimulasikan data yang memenuhi kendala spesifik seperti memiliki rata-rata spesifik dan standar deviasi?

Pertanyaan ini dimotivasi oleh pertanyaan saya tentang meta-analisis . Tapi saya membayangkan bahwa itu juga akan berguna dalam konteks pengajaran di mana Anda ingin membuat dataset yang persis mencerminkan dataset yang sudah ada diterbitkan. Saya tahu cara menghasilkan data acak dari distribusi...

r dataset simulation random-generation

56

Apakah semua nilai dalam interval kepercayaan 95% sama-sama mungkin?

Saya telah menemukan informasi sumbang pada pertanyaan: " Jika seseorang membangun interval kepercayaan 95% (CI) dari perbedaan dalam cara atau perbedaan dalam proporsi, apakah semua nilai dalam CI sama kemungkinannya? Atau, apakah estimasi titik adalah yang paling mungkin , dengan nilai di dekat...

confidence-interval

56

R perpustakaan untuk pembelajaran yang mendalam

Saya bertanya-tanya apakah ada perpustakaan R yang bagus di luar sana untuk mempelajari jaringan saraf yang dalam? Aku tahu ada yang nnet, neuralnetdan RSNNS, namun tidak satupun dari ini tampaknya menerapkan metode pembelajaran yang mendalam. Saya terutama tertarik pada yang tidak diawasi diikuti...

r neural-networks deep-learning rbm deep-belief-networks

56

Regresi logistik pada R menghasilkan pemisahan sempurna (fenomena Hauck-Donner). Sekarang apa?

Saya mencoba untuk memprediksi hasil biner menggunakan 50 variabel penjelas kontinu (kisaran sebagian besar variabel adalah hingga ∞ ). Kumpulan data saya memiliki hampir 24.000 baris. Ketika saya menjalankan di R, saya mendapatkan:−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm...

r regression logistic separation

56

Apakah "hibrid" antara Fisher dan Neyman-Pearson pendekatan untuk pengujian statistik benar-benar "mishmash tidak koheren"?

Ada aliran pemikiran tertentu yang dengannya pendekatan paling luas untuk pengujian statistik adalah "hibrida" antara dua pendekatan: yaitu pendekatan Fisher dan pendekatan Neyman-Pearson; kedua pendekatan ini, menurut klaim, adalah "tidak kompatibel" dan karenanya "hibrida" yang dihasilkan adalah...

hypothesis-testing statistical-significance p-value type-i-and-ii-errors history

56

Apa perbedaan antara PCA dan autoencoder?

Baik PCA dan autoencoder dapat melakukan pengurangan demensi, jadi apa perbedaan di antara mereka? Dalam situasi apa saya harus menggunakan satu sama

machine-learning pca neural-networks autoencoders

56

Regulator L2 setara dengan Gaussian Prior

Saya terus membaca ini dan secara intuitif saya bisa melihat ini, tetapi bagaimana orang beralih dari regularisasi L2 ke mengatakan bahwa ini adalah Gaussian Prior secara analitik? Hal yang sama berlaku untuk mengatakan L1 setara dengan Laplacean sebelumnya. Referensi lebih lanjut akan bagus....

regression references regularization

56

Tantangan Industri vs Kaggle. Apakah mengumpulkan lebih banyak pengamatan dan memiliki akses ke lebih banyak variabel lebih penting daripada pemodelan mewah?

Saya harap judulnya cukup jelas. Di Kaggle, sebagian besar pemenang menggunakan susun dengan kadang-kadang ratusan model dasar, untuk memeras beberapa% ekstra MSE, keakuratan ... Secara umum, menurut pengalaman Anda, seberapa pentingkah pemodelan mewah seperti menumpuk vs sekadar mengumpulkan lebih...

large-data stacking collecting-data kaggle

56

Apakah salah untuk menguraikan kembali “1 dari 80 kematian disebabkan oleh kecelakaan mobil” karena “1 dari 80 orang meninggal akibat kecelakaan mobil?”

Pernyataan Satu (S1): "Satu dari 80 kematian disebabkan oleh kecelakaan mobil." Pernyataan Dua (S2): "Satu dari 80 orang meninggal akibat kecelakaan mobil." Sekarang, saya pribadi tidak melihat banyak perbedaan sama sekali antara kedua pernyataan ini. Saat menulis, saya akan menganggapnya dapat...

interpretation risk

55

Alternatif untuk regresi logistik di R

Saya ingin banyak algoritma yang melakukan tugas yang sama dengan regresi logistik. Itu adalah algoritma / model yang dapat memberikan prediksi untuk respon biner (Y) dengan beberapa variabel penjelas (X). Saya akan senang jika setelah Anda menyebutkan algoritma, jika Anda juga akan menunjukkan...

r regression logistic classification predictive-models

55

Ukuran pseudo- manakah yang harus dilaporkan untuk regresi logistik (Cox & Snell atau Nagelkerke)?

Saya memiliki SPSSoutput untuk model regresi logistik. Output melaporkan dua ukuran untuk model fit, Cox & Snelldan Nagelkerke. Jadi sebagai patokan, R2R²R^² tindakan R ^ ² ini yang akan Anda laporkan sesuai model? Atau, yang mana dari indeks kesesuaian ini yang biasanya dilaporkan dalam...

logistic goodness-of-fit r-squared

55

Kritik teori kausalitas Pearl

Pada tahun 2000, Mutiara Judea menerbitkan Kausalitas . Kontroversi apa yang mengelilingi pekerjaan ini? Apa kritik

causality

55

Pertanyaan tentang bagaimana efek acak ditentukan dalam lmer

Baru-baru ini saya mengukur bagaimana arti kata baru diperoleh dari eksposur berulang (praktek: hari 1 hingga hari 10) dengan mengukur ERP (EEG) ketika kata itu dilihat dalam konteks yang berbeda. Saya juga mengendalikan sifat-sifat konteks, misalnya, kegunaannya untuk penemuan makna kata baru...

r mixed-model lme4-nlme random-effects-model

55

Rekomendasi buku statistik lanjutan

Ada beberapa utas di situs ini untuk rekomendasi buku tentang statistik pengantar dan pembelajaran mesin, tetapi saya mencari teks tentang statistik lanjutan termasuk, dalam urutan prioritas: kemungkinan maksimum, model linear umum, analisis komponen utama, model non-linear . Saya sudah mencoba...

generalized-linear-model pca maximum-likelihood references saddlepoint-approximation

55

Apa yang keren tentang teorema representasi de Finetti?

Dari Theory of Statistics oleh Mark J. Schervish (halaman 12): Meskipun teorema 1,Finetti representasi 1,49 adalah pusat untuk memotivasi model parametrik, itu sebenarnya tidak digunakan dalam implementasi mereka. Bagaimana teorema pusat untuk model

probability modeling mathematical-statistics parametric

55

Memilih antara LM dan GLM untuk variabel respons log-transformed

Saya mencoba memahami filosofi di balik menggunakan Generalized Linear Model (GLM) vs Linear Model (LM). Saya telah membuat kumpulan data contoh di bawah ini di mana: catatan( y) = x + εcatatan⁡(y)=x+ε\log(y) = x + \varepsilon Contohnya tidak memiliki kesalahan sebagai fungsi dari besarnya ,...

r generalized-linear-model linear-model gamma-distribution link-function

55

Teorema batas pusat untuk median sampel

Jika saya menghitung median dari jumlah pengamatan yang cukup besar yang diambil dari distribusi yang sama, apakah teorema limit pusat menyatakan bahwa distribusi median akan mendekati distribusi normal? Pemahaman saya adalah bahwa ini benar dengan menggunakan sejumlah besar sampel, tetapi apakah...

normal-distribution mathematical-statistics sampling median central-limit-theorem

55

Memahami validasi silang bertingkat

Apa perbedaan antara validasi silang bertingkat dan validasi silang ? Wikipedia mengatakan: Dalam stratifikasi k-fold cross-validation , lipatan dipilih sehingga nilai respons rata-rata hampir sama di semua lipatan. Dalam kasus klasifikasi dikotomis, ini berarti bahwa setiap lipatan berisi...

cross-validation stratification

55

Wald test untuk regresi logistik

Sejauh yang saya mengerti tes Wald dalam konteks regresi logistik digunakan untuk menentukan apakah variabel prediktor tertentu signifikan atau tidak. Ia menolak hipotesis nol dari koefisien yang sesuai menjadi nol.XXX Tes terdiri dari membagi nilai koefisien dengan kesalahan standar...

logistic z-statistic