Statistik dan Big Data

24
Siapa yang menemukan pohon keputusan?

Saya mencoba melacak siapa yang menemukan struktur dan algoritma data pohon keputusan. Dalam entri Wikipedia tentang pembelajaran pohon keputusan ada klaim bahwa "ID3 dan CART ditemukan secara independen pada waktu yang bersamaan (antara 1970 dan 1980)". ID3 disajikan kemudian di: Quinlan, JR...

24
F1 / Skor-Dadu vs IoU

Saya bingung tentang perbedaan antara skor F1, skor Dice dan IoU (persimpangan atas persatuan). Sekarang saya mengetahui bahwa F1 dan Dice memiliki arti yang sama (benar?) Dan IoU memiliki formula yang sangat mirip dengan dua lainnya. F1 / Dadu:2 TP2 TP+ FP+

23
Forensik statistik: Benford dan seterusnya

Metode luas apa yang ada untuk mendeteksi kecurangan, anomali, fudging, dll. Dalam karya ilmiah yang diproduksi oleh pihak ketiga? (Saya termotivasi untuk menanyakan hal ini oleh perselingkuhan Marc Hauser baru-baru ini .) Biasanya untuk pemilihan dan penipuan akuntansi, beberapa varian dari Hukum...

23
Apa perbedaan antara PCA dan PCA asimptotik?

Dalam dua makalah pada tahun 1986 dan 1988 , Connor dan Korajczyk mengusulkan pendekatan untuk pemodelan pengembalian aset. Karena rangkaian waktu ini biasanya memiliki lebih banyak aset daripada pengamatan periode waktu, mereka mengusulkan untuk melakukan PCA pada kovarian lintas-seksi...

23
Mengapa meruntuhkan penyebut dalam Teorema Bayes?

(Saya seorang pemula di statistik. Saya seorang ahli matematika dan seorang programmer dan saya mencoba untuk membangun sesuatu seperti filter spam Bayesian yang naif.) Saya perhatikan di banyak tempat bahwa orang cenderung menjabarkan penyebut dalam persamaan dari Teorema Bayes. Jadi alih-alih...

23
Memperkirakan distribusi berdasarkan tiga persen

Metode apa yang dapat saya gunakan untuk menyimpulkan distribusi jika saya hanya tahu tiga persen? Misalnya, saya tahu bahwa dalam kumpulan data tertentu, persentil kelima adalah 8.135, persentil ke-50 adalah 11.259, dan persentil ke-95 adalah 23.611. Saya ingin dapat beralih dari angka lain ke...

23
Mengatur simpul dalam splines kubik alami di R

Saya memiliki data dengan banyak fitur yang berkorelasi, dan saya ingin memulai dengan mengurangi fitur dengan fungsi basis yang halus, sebelum menjalankan LDA. Saya mencoba menggunakan splines kubik alami dalam splinespaket dengan nsfungsi. Bagaimana cara menetapkan knot? Berikut kode R...