Statistik dan Big Data

52
Clustering dengan matriks jarak

Saya memiliki matriks (simetris) Myang mewakili jarak antara setiap pasangan node. Sebagai contoh, ABCD EFGH IJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 140 D 20 20 20 0 60 80 80 80 120 140 140 140 140 E 40 60...

52
Unggul sebagai meja kerja statistik

Tampaknya banyak orang (termasuk saya) suka melakukan analisis data eksplorasi di Excel. Beberapa batasan, seperti jumlah baris yang dibolehkan dalam spreadsheet, menyebalkan tetapi dalam kebanyakan kasus tidak membuatnya tidak mungkin menggunakan Excel untuk bermain-main dengan data. Namun,...

52
Penurunan solusi bentuk laso tertutup

Untuk masalah laso sedemikian rupa sehingga \ | \ beta \ | _1 \ leq t . Saya sering melihat hasil soft-thresholding \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} | - \ gamma) ^ + untuk kasus X ortonormal . Dikatakan bahwa solusinya dapat...

52
Mengapa kita begitu peduli tentang istilah kesalahan yang terdistribusi normal (dan homoskedastisitas) dalam regresi linier ketika kita tidak perlu?

Saya kira saya menjadi frustrasi setiap kali saya mendengar seseorang mengatakan bahwa residual dan / atau heteroskedastisitas yang tidak normal melanggar asumsi OLS. Untuk memperkirakan parameter dalam model OLS, asumsi ini tidak diperlukan oleh teorema Gauss-Markov. Saya melihat bagaimana hal ini...

52
Cumming (2008) mengklaim bahwa distribusi nilai-p yang diperoleh dalam replikasi hanya bergantung pada nilai-p yang asli. Bagaimana itu bisa benar?

Saya telah membaca paper Replikasi dan Interval pppppp Geoff Cumming 2008 : nilai p memprediksi masa depan hanya samar-samar, tetapi interval kepercayaan jauh lebih baik [~ 200 kutipan dalam Google Cendekia] - dan saya bingung dengan salah satu klaim utamanya. Ini adalah salah satu dari serangkaian...

51
Statistik dan inferensi kausal?

Dalam makalahnya tahun 1984 "Statistik dan Inferensial Kausal" , Paul Holland mengajukan salah satu pertanyaan paling mendasar dalam statistik: Apa yang bisa dikatakan model statistik tentang sebab akibat? Ini menyebabkan moto-nya: TIDAK ADA PENYEBAB TANPA MANIPULASI yang menekankan...

51
Apa sumber daya yang baik untuk desain meja?

Saya telah melihat berbagai perawatan teoritis dari grafik, seperti Grammar of Graphics . Tapi saya belum melihat yang setara dengan tabel. Sementara saya telah mengembangkan model informal praktik yang baik dalam desain tabel. Namun, saya ingin dapat memberikan referensi yang baik kepada siswa....