Statistik dan Big Data

24

Regresi kuantitatif: Fungsi kerugian

Saya mencoba memahami regresi kuantitatif, tetapi satu hal yang membuat saya menderita adalah pilihan fungsi kerugian. ρτ( u ) = u ( τ- 1{ u < 0 })ρτ(kamu)=kamu(τ-1{kamu<0})\rho_\tau(u) =

quantiles loss-functions quantile-regression

24

Siapa yang menemukan pohon keputusan?

Saya mencoba melacak siapa yang menemukan struktur dan algoritma data pohon keputusan. Dalam entri Wikipedia tentang pembelajaran pohon keputusan ada klaim bahwa "ID3 dan CART ditemukan secara independen pada waktu yang bersamaan (antara 1970 dan 1980)". ID3 disajikan kemudian di: Quinlan, JR...

cart history

24

F1 / Skor-Dadu vs IoU

Saya bingung tentang perbedaan antara skor F1, skor Dice dan IoU (persimpangan atas persatuan). Sekarang saya mengetahui bahwa F1 dan Dice memiliki arti yang sama (benar?) Dan IoU memiliki formula yang sangat mirip dengan dua lainnya. F1 / Dadu:2 TP2 TP+ FP+

terminology accuracy precision-recall

24

Bagaimana validitas empiris Bayes?

Jadi saya baru saja selesai membaca buku besar Pengantar Empiris Bayes . Saya pikir buku itu hebat, tetapi membangun data dari data terasa salah. Saya dilatih bahwa Anda membuat rencana analisis lalu mengumpulkan data, lalu menguji hipotesis yang sebelumnya Anda tentukan dalam rencana analisis...

machine-learning hypothesis-testing bayesian empirical-bayes

24

Generalisasi berkelanjutan dari distribusi binomial negatif

Distribusi binomial negatif (NB) didefinisikan pada bilangan bulat non-negatif dan memiliki fungsi massa probabilitas f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.Apakah masuk akal untuk mempertimbangkan distribusi kontinu pada real non-negatif yang...

distributions negative-binomial count-data continuous-data bioinformatics

24

Apa yang dimaksud dengan autoencoder variasional dan untuk tugas pembelajaran apa yang digunakan?

Sebagai per ini dan jawaban ini , autoencoder tampaknya menjadi teknik yang menggunakan jaringan saraf untuk pengurangan dimensi. Saya ingin juga tahu apa adalah variational autoencoder (perbedaan utama / manfaat lebih dari satu "tradisional" autoencoders) dan juga apa yang tugas belajar utama...

machine-learning bayesian deep-learning autoencoders variational-bayes

23

Menemukan PDF diberikan pada CDF

Bagaimana saya bisa menemukan PDF (fungsi kerapatan probabilitas) dari suatu distribusi yang diberikan CDF (fungsi distribusi

distributions pdf cdf

23

Rangkaian waktu untuk data jumlah, dengan jumlah <20

Baru-baru ini saya mulai bekerja di klinik TBC. Kami bertemu secara berkala untuk membahas jumlah kasus TB yang saat ini kami tangani, jumlah tes yang diberikan, dll. Saya ingin mulai memodelkan jumlah ini sehingga kami tidak hanya menebak apakah ada sesuatu yang tidak biasa atau tidak. Sayangnya,...

r time-series poisson-distribution count-data epidemiology

23

Bagaimana cara meningkatkan kerja?

Apa cara termudah untuk memahami peningkatan? Mengapa itu tidak meningkatkan penggolong yang sangat lemah "hingga tak terbatas"

machine-learning boosting

23

Model statistik spasial: CAR vs SAR

Kapan orang akan lebih suka menggunakan model Autoregressive Bersyarat daripada model Autoregresif Simultan ketika memodelkan data udara geo-referen yang

modeling spatial

23

Forensik statistik: Benford dan seterusnya

Metode luas apa yang ada untuk mendeteksi kecurangan, anomali, fudging, dll. Dalam karya ilmiah yang diproduksi oleh pihak ketiga? (Saya termotivasi untuk menanyakan hal ini oleh perselingkuhan Marc Hauser baru-baru ini .) Biasanya untuk pemilihan dan penipuan akuntansi, beberapa varian dari Hukum...

meta-analysis fraud

23

Apa perbedaan antara PCA dan PCA asimptotik?

Dalam dua makalah pada tahun 1986 dan 1988 , Connor dan Korajczyk mengusulkan pendekatan untuk pemodelan pengembalian aset. Karena rangkaian waktu ini biasanya memiliki lebih banyak aset daripada pengamatan periode waktu, mereka mengusulkan untuk melakukan PCA pada kovarian lintas-seksi...

pca econometrics

23

Variabel pengelompokan berdasarkan korelasi di antara mereka

Pertanyaan: Saya memiliki matriks korelasi yang besar. Alih-alih mengelompokkan korelasi individu, saya ingin mengelompokkan variabel berdasarkan korelasi mereka satu sama lain, yaitu jika variabel A dan variabel B memiliki korelasi yang sama dengan variabel C ke Z, maka A dan B harus menjadi...

correlation clustering correlation-matrix

23

Apa yang salah dengan algoritma pengocokan “naif” ini?

Ini adalah tindak lanjut dari pertanyaan Stackoverflow tentang mengacak array secara acak . Ada algoritma yang sudah mapan (seperti Knuth-Fisher-Yates Shuffle ) yang harus digunakan untuk mengocok array, daripada mengandalkan implementasi ad-hoc "naif". Saya sekarang tertarik untuk membuktikan...

combinatorics randomness

23

Alternatif untuk pohon klasifikasi, dengan kinerja prediksi yang lebih baik (misalnya: CV)?

Saya mencari alternatif untuk Pohon Klasifikasi yang mungkin menghasilkan daya prediksi yang lebih baik. Data yang saya hadapi memiliki faktor untuk variabel penjelas dan penjelas. Saya ingat pernah menemukan hutan acak dan jaringan saraf dalam konteks ini, meskipun tidak pernah mencobanya...

r machine-learning classification cart

23

Mengapa meruntuhkan penyebut dalam Teorema Bayes?

(Saya seorang pemula di statistik. Saya seorang ahli matematika dan seorang programmer dan saya mencoba untuk membangun sesuatu seperti filter spam Bayesian yang naif.) Saya perhatikan di banyak tempat bahwa orang cenderung menjabarkan penyebut dalam persamaan dari Teorema Bayes. Jadi alih-alih...

bayesian

23

Berurusan dengan regresi berkorelasi

Dalam regresi linier berganda dengan regresi yang sangat berkorelasi, apa strategi terbaik untuk digunakan? Apakah ini pendekatan yang sah untuk menambahkan produk dari semua regressor yang

regression multicollinearity

23

Kode R untuk peramalan deret waktu menggunakan filter Kalman

Adakah yang punya contoh yang baik untuk Time Series Forecasting / smoothing menggunakan Kalman Filter di

r time-series kalman-filter

23

Memperkirakan distribusi berdasarkan tiga persen

Metode apa yang dapat saya gunakan untuk menyimpulkan distribusi jika saya hanya tahu tiga persen? Misalnya, saya tahu bahwa dalam kumpulan data tertentu, persentil kelima adalah 8.135, persentil ke-50 adalah 11.259, dan persentil ke-95 adalah 23.611. Saya ingin dapat beralih dari angka lain ke...

r regression quantiles

23

Mengatur simpul dalam splines kubik alami di R

Saya memiliki data dengan banyak fitur yang berkorelasi, dan saya ingin memulai dengan mengurangi fitur dengan fungsi basis yang halus, sebelum menjalankan LDA. Saya mencoba menggunakan splines kubik alami dalam splinespaket dengan nsfungsi. Bagaimana cara menetapkan knot? Berikut kode R...

r splines