Statistik dan Big Data

81

Apakah sampel yang tidak seimbang penting ketika melakukan regresi logistik?

Oke, jadi saya pikir saya memiliki sampel yang cukup layak, dengan mempertimbangkan aturan praktis 20: 1: sampel yang cukup besar (N = 374) dengan total 7 variabel prediktor kandidat. Masalah saya adalah sebagai berikut: set variabel prediktor apa pun yang saya gunakan, klasifikasi tidak pernah...

81

Memahami "varians" secara intuitif

Apa cara paling bersih dan termudah untuk menjelaskan konsep varians kepada seseorang? Apa artinya secara intuitif? Jika seseorang menjelaskan hal ini kepada anak mereka, bagaimana ia akan melakukannya? Ini adalah konsep yang saya sulit mengartikulasikan - terutama ketika menghubungkan varians...

distributions variance standard-deviation inference intuition

81

Apa perbedaan antara model zero-inflated dan hurdle?

Saya bertanya-tanya apakah ada perbedaan yang jelas antara apa yang disebut sebagai distribusi nol (model) dan apa yang disebut distribusi hurdle-at-zero (model)? Istilah-istilah itu cukup sering muncul dalam literatur dan saya menduga itu tidak sama, tetapi bisakah Anda menjelaskan kepada saya...

zero-inflation

81

Teorema Bayes yang dimodifikasi XKCD: sebenarnya cukup masuk akal?

Saya tahu ini dari komik terkenal karena mengambil keuntungan dari kecenderungan analitis tertentu , tetapi sebenarnya terlihat masuk akal setelah beberapa menit menatap. Adakah yang bisa menjelaskan kepada saya apa yang dilakukan " teorema Bayes yang dimodifikasi "

bayesian hierarchical-bayesian

81

Adakah contoh di mana interval kredibel Bayesian jelas lebih rendah daripada interval kepercayaan yang sering terjadi

Sebuah pertanyaan baru tentang perbedaan antara interval kepercayaan dan interval yang dapat dipercaya membuat saya mulai membaca kembali artikel Edwin Jaynes tentang topik itu: Jaynes, ET, 1976. `Interval Keyakinan vs Interval Bayesian, 'dalam Fondasi Teori Probabilitas, Statistik Inferensi, dan...

bayesian confidence-interval

80

Fungsi objektif, fungsi biaya, fungsi kerugian: apakah semuanya itu sama?

Dalam pembelajaran mesin, orang berbicara tentang fungsi objektif, fungsi biaya, fungsi kerugian. Apakah mereka hanya nama yang berbeda dari hal yang sama? Kapan menggunakannya? Jika mereka tidak selalu merujuk pada hal yang sama, apa

machine-learning terminology artificial-intelligence

80

Menghitung jumlah optimal tempat sampah dalam histogram

Saya tertarik menemukan metode seoptimal mungkin untuk menentukan berapa banyak nampan yang harus saya gunakan dalam histogram. Data saya harus berkisar antara 30 hingga 350 objek paling banyak, dan khususnya saya mencoba menerapkan ambang (seperti metode Otsu) di mana objek "baik", yang saya harus...

rule-of-thumb histogram

80

Perbedaan antara interval kepercayaan dan interval prediksi

Untuk interval prediksi dalam regresi linear Anda masih menggunakan E [ Y | x ] = ^ β 0 + β 1 x untuk menghasilkan interval. Anda juga menggunakan ini untuk menghasilkan interval kepercayaan E [ Y | x 0 ] . Apa perbedaan keduanya?E^[ Y| x]= β0^+ β^1xE^[Y|x]=β0^+β^1x\hat{E}[Y|x] =...

regression confidence-interval predictive-models prediction-interval

80

Mengenai nilai-p, mengapa 1% dan 5%? Kenapa tidak 6% atau 10%?

Mengenai nilai-p , saya bertanya-tanya mengapa 111 % dan 555 % tampaknya menjadi standar emas untuk "statistical significance". Mengapa tidak nilai lain, seperti 666 % atau 101010 %? Apakah ada alasan matematika mendasar untuk ini, atau ini hanya konvensi yang diadakan secara

hypothesis-testing statistical-significance p-value history

79

Perbedaan KL antara duaausa univariat

Saya perlu menentukan KL-divergence antara dua Gaussians. Saya membandingkan hasil saya dengan ini , tetapi saya tidak dapat mereproduksi hasilnya. Hasil saya jelas salah, karena KL bukan 0 untuk KL (p, p). Saya bertanya-tanya di mana saya melakukan kesalahan dan bertanya apakah ada yang bisa...

normal-distribution kullback-leibler

79

The Book of Why oleh Judea Pearl: Mengapa dia memukul statistik?

Saya sedang membaca The Book of Why karya Judea Pearl, dan itu sudah masuk ke kulit saya 1 . Secara khusus, tampak bagi saya bahwa ia tanpa syarat menghantam statistik "klasik" dengan mengemukakan argumen orang bodoh bahwa statistik tidak pernah dapat menyelidiki hubungan sebab akibat, bahwa ia...

causality

79

Probabilitas satu peristiwa masa depan kehidupan nyata tunggal: Apa artinya ketika mereka mengatakan bahwa "Hillary memiliki peluang 75% untuk menang"?

Karena pemilihan adalah acara satu kali, itu bukan percobaan yang dapat diulang. Jadi, apa tepatnya arti dari pernyataan "Hillary yang memiliki peluang 75% untuk menang" ? Saya mencari definisi yang benar secara statistik, bukan yang intuitif atau konseptual. Saya adalah penggemar statistik amatir...

probability prediction politics

79

Apa perbedaan antara pembelajaran di luar kebijakan dan pembelajaran di luar kebijakan?

Situs web kecerdasan buatan mendefinisikan pembelajaran di luar kebijakan dan di-kebijakan sebagai berikut: "Pelajar di luar kebijakan mempelajari nilai kebijakan optimal secara independen dari tindakan agen. Pembelajaran Q adalah pelajar di luar kebijakan. Pelajar di luar kebijakan mempelajari...

machine-learning reinforcement-learning artificial-intelligence

78

Bagaimana cara mengetahui apakah data "berkerumun" cukup untuk algoritma pengelompokan untuk menghasilkan hasil yang bermakna?

Bagaimana Anda tahu jika data Anda (dimensi tinggi) menunjukkan pengelompokan yang cukup sehingga hasil dari kmeans atau algoritma pengelompokan lainnya benar-benar bermakna? Khususnya untuk algoritma k-means, berapa banyak pengurangan dalam varians dalam-cluster yang seharusnya ada untuk hasil...

clustering k-means

78

Sumber daya gratis untuk belajar R

Saya tertarik belajar R dengan harga murah. Apa sumber daya terbaik / buku / tutorial untuk belajar

r references

78

Apa manfaat memecah variabel prediktor kontinu?

Saya bertanya-tanya apa nilainya dalam mengambil variabel prediktor kontinu dan memecahnya (misalnya, menjadi kuintil), sebelum menggunakannya dalam model. Sepertinya saya bahwa dengan binning variabel kita kehilangan informasi. Apakah ini hanya agar kita dapat memodelkan efek non-linear? Jika...

regression modeling continuous-data binning regression-strategies

78

Contoh: regresi LASSO menggunakan glmnet untuk hasil biner

Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84,...

r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

78

Clustering pada output t-SNE

Saya punya aplikasi di mana akan berguna untuk mengelompokkan dataset yang berisik sebelum mencari efek subkelompok di dalam kluster. Saya pertama kali melihat PCA, tetapi dibutuhkan ~ 30 komponen untuk mencapai 90% dari variabilitas, jadi pengelompokan hanya pada beberapa PC akan membuang banyak...

clustering interpretation k-means tsne

78

Cara menghitung Area Di Bawah Kurva (AUC), atau statistik-c, dengan tangan

Saya tertarik menghitung area di bawah kurva (AUC), atau c-statistik, dengan tangan untuk model regresi logistik biner. Misalnya, dalam dataset validasi, saya memiliki nilai sebenarnya untuk variabel dependen, retensi (1 = dipertahankan; 0 = tidak dipertahankan), serta status retensi yang...

regression logistic classification roc auc

77

Bagaimana cara menghasilkan plot yang bagus dari hasil analisis klaster k-means?

Saya menggunakan R untuk melakukan pengelompokan K-means. Saya menggunakan 14 variabel untuk menjalankan K-means Apa cara yang bagus untuk memplot hasil K-means? Apakah ada implementasi yang ada? Apakah memiliki 14 variabel menyulitkan merencanakan hasilnya? Saya menemukan sesuatu yang...

data-visualization classification k-means unsupervised-learning