Statistik dan Big Data

21

Menghasilkan variabel acak binomial berkorelasi

Saya bertanya-tanya apakah mungkin untuk menghasilkan variabel binomial acak berkorelasi mengikuti pendekatan transformasi linier? Di bawah ini, saya mencoba sesuatu yang sederhana dalam R dan menghasilkan beberapa korelasi. Tapi saya bertanya-tanya apakah ada cara berprinsip untuk melakukan...

21

Menunjukkan bahwa 100 pengukuran untuk 5 subjek memberikan informasi yang jauh lebih sedikit daripada 5 pengukuran untuk 100 subjek

Di sebuah konferensi saya mendengar pernyataan berikut: 100 pengukuran untuk 5 subjek memberikan informasi yang jauh lebih sedikit daripada 5 pengukuran untuk 100 subjek. Ini agak jelas bahwa ini benar, tetapi saya bertanya-tanya bagaimana orang dapat membuktikannya secara matematis ... Saya...

mixed-model variance repeated-measures sample-size intraclass-correlation

21

Bagaimana cara membuat jaringan saraf saya lebih baik dalam memprediksi gelombang sinus?

Di sini, lihat: Anda dapat melihat dengan tepat di mana data pelatihan berakhir. Data pelatihan berubah dari menjadi .−1−1-1111 Saya menggunakan Keras dan jaringan padat 1-100-100-2 dengan aktivasi tanh. Saya menghitung hasil dari dua nilai, p dan q sebagai p / q. Dengan cara ini saya dapat...

regression neural-networks python keras

21

Dengan ukuran sampel yang cukup besar, sebuah tes akan selalu menunjukkan hasil yang signifikan kecuali ukuran efek sebenarnya adalah nol. Mengapa?

Saya ingin tahu tentang klaim yang dibuat dalam artikel Wikipedia tentang ukuran efek . Secara khusus: [...] perbandingan statistik non-nol akan selalu menunjukkan hasil yang signifikan secara statistik kecuali ukuran efek populasi benar-benar nol Saya tidak yakin apa artinya ini /...

hypothesis-testing

21

Kehilangan pelatihan meningkat seiring waktu [duplikat]

Pertanyaan ini sudah memiliki jawaban di sini : Bagaimana perubahan fungsi biaya menjadi positif? (1 jawaban) Apa yang harus saya lakukan ketika jaringan saraf saya tidak belajar? (5 jawaban) Ditutup bulan lalu . Saya melatih model (Recurrent Neural...

machine-learning neural-networks loss-functions rnn training-error

21

Batas estimator regresi ridge regresi “unit-variance” ketika

Pertimbangkan regresi ridge dengan kendala tambahan mengharuskan y memiliki satuan jumlah kuadrat (ekuivalen, satuan varians); jika diperlukan, orang dapat berasumsi bahwa y memiliki satuan jumlah kuadrat juga:y^y^\hat{\mathbf y}yy\mathbf

pca regularization ridge-regression partial-least-squares constrained-regression

21

Mengapa nama "kernel" dalam statistik dan ML?

Ini telah ditanyakan pada situs SE lainnya dalam konteks sistem operasi dan aljabar linier, tetapi pertanyaan yang sama mengganggu saya mengenai metode kernel yang digunakan dalam statistik dan pembelajaran mesin. Seringkali dikatakan bahwa kernel, misalnya dalam estimasi kepadatan kernel atau...

terminology

21

Apakah ada perbedaan antara Frequentist dan Bayesian pada definisi Kemungkinan?

Beberapa sumber mengatakan fungsi kemungkinan bukan probabilitas kondisional, beberapa mengatakan itu. Ini sangat membingungkan saya. Menurut sebagian besar sumber yang saya lihat, kemungkinan distribusi dengan parameter θθ\theta , harus merupakan produk dari fungsi massa probabilitas yang...

probability bayesian conditional-probability likelihood frequentist

21

Mengapa nama Tipe 1, 2 error?

Apa motivasi memperkenalkan tingkat tipuan tambahan dari 'false positive' deskriptif ke integer '1'? Apakah 'false positive' terlalu

terminology frequentist type-i-and-ii-errors

21

Apa sebenarnya benih dalam generator angka acak?

Saya mencoba beberapa pencarian google biasa dll tetapi sebagian besar jawaban yang saya temukan agak ambigu atau bahasa / perpustakaan tertentu seperti Python atau C ++ stdlib.hdll. Saya mencari bahasa agnostik, jawaban matematis, bukan spesifik perpustakaan. Sebagai contoh, banyak yang...

random-generation

21

Mengapa Central Limit Theorem rusak dalam simulasi saya?

Katakanlah saya memiliki nomor berikut: 4,3,5,6,5,3,4,2,5,4,3,6,5 Saya sampel beberapa dari mereka, katakanlah, 5 dari mereka, dan menghitung jumlah 5 sampel. Kemudian saya ulangi berulang-ulang untuk mendapatkan banyak jumlah, dan saya plot nilai-nilai penjumlahan dalam histogram, yang akan...

central-limit-theorem

20

Selalu Laporkan Kesalahan Standar Kuat (Putih)?

Telah disarankan oleh Angrist dan Pischke bahwa Robust (yaitu kuat terhadap heteroskedastisitas atau varians yang tidak setara) Kesalahan Standar dilaporkan sebagai hal yang biasa daripada pengujian untuk itu. Dua pertanyaan: Apa dampaknya terhadap kesalahan standar dalam melakukan hal tersebut...

regression standard-error heteroscedasticity robust-standard-error

20

Bagaimana hutan acak menghasilkan hutan acak

Saya bukan ahli hutan acak tapi saya jelas mengerti bahwa masalah utama dengan hutan acak adalah generasi pohon (acak). Bisakah Anda jelaskan bagaimana pohon itu dihasilkan? (mis. Apa distribusi yang digunakan untuk pembuatan pohon?) Terima kasih sebelumnya !

machine-learning r algorithms cart random-forest

20

Kapan Anda bisa menggunakan kriteria berbasis data untuk menentukan model regresi?

Saya pernah mendengar bahwa ketika banyak spesifikasi model regresi (katakanlah, dalam OLS) dianggap sebagai kemungkinan untuk dataset, ini menyebabkan beberapa masalah perbandingan dan nilai-p dan interval kepercayaan tidak lagi dapat diandalkan. Salah satu contoh ekstrem dari hal ini adalah...

regression frequentist multiple-comparisons

20

Post-hocs untuk tes subjek?

Apa metode yang disukai untuk melakukan post-hocs untuk dalam tes mata pelajaran? Saya telah melihat karya yang diterbitkan di mana Tukey's HSD digunakan tetapi review dari Keppel dan Maxwell & Delaney menunjukkan bahwa kemungkinan pelanggaran kebulatan dalam desain ini membuat istilah...

r repeated-measures multiple-comparisons post-hoc sphericity

20

Apa nilai yang benar untuk presisi dan mengingat dalam kasus tepi?

Presisi didefinisikan sebagai: p = true positives / (true positives + false positives) Apakah benar bahwa, sebagai true positivesdan false positivespendekatan 0, presisi mendekati 1? Pertanyaan yang sama untuk diingat: r = true positives / (true positives + false negatives) Saat ini saya...

precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

20

Apakah cuaca saya akurat?

Sebuah pertanyaan yang mengganggu saya selama beberapa waktu, yang saya tidak tahu bagaimana mengatasinya: Setiap hari, petugas cuaca saya memberikan persentase kemungkinan hujan (mari kita anggap itu dihitung hingga 9000 digit dan dia tidak pernah mengulangi angka). Setiap hari berikutnya, hujan...

hypothesis-testing forecasting

20

Menerapkan "trik kernel" ke metode linear?

The Trik kernel yang digunakan dalam beberapa model pembelajaran mesin (misalnya SVM ). Ini pertama kali diperkenalkan dalam makalah "Fondasi teoretis dari metode fungsi potensial dalam pembelajaran pengenalan pola" pada tahun 1964. Definisi wikipedia mengatakan itu metode untuk menggunakan...

machine-learning kernel-trick

20

Algoritma Metropolis-Hastings digunakan dalam praktik

Saya membaca Blog Christian Robert hari ini dan cukup menyukai algoritma Metropolis-Hastings yang baru ia diskusikan. Tampaknya sederhana dan mudah diimplementasikan. Setiap kali saya membuat kode MCMC, saya cenderung tetap dengan algoritma MH yang sangat dasar, seperti gerakan independen atau...

mcmc metropolis-hastings

20

Cara menggabungkan interval kepercayaan untuk komponen varians dari model efek campuran saat menggunakan beberapa imputasi

Logika multiple imputation (MI) adalah untuk menghitung nilai yang hilang tidak hanya sekali tetapi beberapa kali (biasanya M = 5) kali, menghasilkan set data selesai M. Kumpulan data M lengkap kemudian dianalisis dengan metode data lengkap tempat estimasi M dan kesalahan standarnya digabungkan...

modeling confidence-interval mixed-model data-imputation