Statistik dan Big Data

9

Uji pasti Fisher pada data berpasangan

Diberikan kasus dengan kanker paru-paru dan kontrol yang cocok (tanpa kanker paru-paru) (pencocokan berdasarkan usia, jenis kelamin, dll). Untuk mencoba menemukan bukti antara efek merokok pada kanker paru-paru, saya menggunakan tes Fisher pada tabel kontingensi. Namun ini tidak memperhitungkan...

9

Apakah pohon CART menangkap interaksi di antara para prediktor?

Makalah ini mengklaim bahwa dalam CART, karena pemisahan biner dilakukan pada kovariat tunggal pada setiap langkah, semua pemisahan bersifat ortogonal dan oleh karena itu interaksi di antara kovariat tidak dipertimbangkan. Namun, banyak referensi yang sangat serius mengklaim, sebaliknya, bahwa...

machine-learning classification data-mining cart

9

Bagaimana cara mencari dan mengevaluasi diskritisasi optimal untuk variabel kontinu dengan kriteria ?

Saya memiliki kumpulan data dengan variabel kontinu dan variabel target biner (0 dan 1). Saya perlu menentukan variabel kontinu (untuk regresi logistik) sehubungan dengan variabel target dan dengan batasan bahwa frekuensi pengamatan dalam setiap interval harus seimbang. Saya mencoba algoritma...

r machine-learning chi-squared discrete-data supervised-learning

9

Bagaimana menemukan bobot untuk ukuran ketidakpatuhan

Saya ingin mempelajari (menyimpulkan) bobot atribut untuk ukuran ketidaksamaan yang dapat saya gunakan untuk pengelompokan. Saya punya beberapa contoh pasangan objek yang "mirip" (harus berada di cluster yang sama), serta beberapa contoh pasangan objek yang "tidak mirip" (tidak boleh). berada di...

clustering similarities supervised-learning semi-supervised

9

Perkiraan kesalahan out-of-bag untuk meningkatkan?

Dalam Random Forest, masing-masing pohon ditanam secara paralel pada sampel pendamping data yang unik. Karena setiap sampel boostrap diharapkan mengandung sekitar 63% dari pengamatan unik, ini menyisakan sekitar 37% dari pengamatan, yang dapat digunakan untuk menguji pohon. Sekarang, tampaknya...

machine-learning cross-validation data-mining random-forest boosting

9

Pengujian ulang atau validasi silang ketika proses pembuatan model bersifat interaktif

Saya memiliki beberapa model prediktif yang kinerjanya ingin saya uji kembali (yaitu, ambil dataset saya, "putar kembali" ke titik waktu sebelumnya, dan lihat bagaimana model tersebut akan tampil secara prospektif). Masalahnya adalah bahwa beberapa model saya dibangun melalui proses interaktif....

cross-validation modeling outliers splines overfitting

9

Mengingat dua rantai Markov menyerap, berapa probabilitas bahwa satu akan berakhir sebelum yang lain?

Saya memiliki dua rantai Markov yang berbeda, masing-masing dengan satu negara menyerap dan posisi awal yang diketahui. Saya ingin menentukan probabilitas bahwa rantai 1 akan mencapai kondisi menyerap dalam beberapa langkah lebih sedikit daripada rantai 2. Saya pikir saya bisa menghitung...

probability markov-chain transition-matrix

9

Vektorisasi Rugi Entropi Silang

Saya berurusan dengan masalah yang berkaitan dengan menemukan gradien fungsi Cross entropy loss wrt parameter θθ\theta dimana: CE(θ)=−∑iyi∗log(y^i)CE(θ)=−∑iyi∗log(y^i)CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})} Dimana, y^i=softmax(θi)y^i=softmax(θi)\hat{y}_{i} = softmax(\theta_i) dan...

machine-learning neural-networks

9

Mengapa (dan kapan) seseorang harus mempelajari fungsi hadiah dari sampel dalam pembelajaran penguatan?

Dalam pembelajaran penguatan, kami memiliki fungsi hadiah yang menginformasikan agen seberapa baik tindakan dan negara saat ini dilakukan. Dalam beberapa pengaturan umum fungsi hadiah adalah fungsi dari tiga variabel: Keadaan saat iniSSS Tindakan saat ini pada kondisi saat iniπ(s)=aπ(s)=a\pi(s) =...

machine-learning reinforcement-learning

9

Merekonsiliasi boosted regression trees (BRT), generalized boosted model (GBM), dan gradient boosting machine (GBM)

Pertanyaan: Apa perbedaan antara pohon regresi yang dikuatkan (BRT) dan model yang dikembangkan secara umum (GBM)? Bisakah mereka digunakan secara bergantian? Apakah satu bentuk khusus dari yang lain? Mengapa Ridgeway menggunakan frasa "Generalized Boosted Regression Models" (GBM), untuk...

machine-learning boosting gbm

9

KNN: 1-tetangga terdekat

Pertanyaan saya adalah tentang pengelompokan tetangga terdekat 1 dan tentang pernyataan yang dibuat dalam buku The Elements of Statistics Learning, karya Hastie, Tibshirani, dan Friedman. Pernyataannya adalah (hlm. 465, bagian 13.3): "Karena hanya menggunakan titik pelatihan yang paling dekat...

classification k-nearest-neighbour

9

Bagaimana cara menggunakan anova untuk perbandingan dua model?

Bagaimana saya harus memahami anovahasilnya ketika membandingkan dua model? Contoh: Res.Df RSS Df Sum of Sq F Pr(>F) 1 9 54.032 2 7 4.632 2 49.4 37.329 0.0001844 *** Manual tersebut menyatakan: "Hitung analisis varians (atau penyimpangan) tabel untuk satu atau lebih objek model pas."...

r regression anova

9

Mengapa eliminasi mundur dibenarkan ketika melakukan regresi berganda?

Apakah itu tidak menyebabkan pemasangan yang berlebihan? Apakah hasil saya akan lebih andal jika saya menambahkan prosedur jack-knife atau bootstrap sebagai bagian dari

multiple-regression bootstrap reliability overfitting jackknife

9

Mengapa skor komponen utama tidak berkorelasi?

Anggaplah adalah matriks data yang berpusat pada rata-rata. Matriks S = cov ( A ) adalah m × m , memiliki m nilai eigen yang berbeda, dan vektor eigen s 1 , s 2 ... s m , yang ortogonal.SEBUAHSEBUAH\mathbf AS =cov( A )S=cov(SEBUAH)\mathbf S=\text{cov}(\mathbf A)m × mm×mm\times mmmms1s1\mathbf...

correlation pca linear-algebra

9

Haruskah deviasi standar dikoreksi dalam uji T Student?

Menggunakan uji T Siswa, T-Critical dihitung melalui: t =X¯-μ0s /n√t=X¯−μ0s/nt = \frac{\bar{X} - \mu_{0}}{s / \sqrt{n}} Melihat artikel Wikipedia pada Estimasi berisi deviasi standar, ada bagian Hasil untuk Distribusi biasa yang menyebutkan faktor koreksi untuk diukur deviasi standar sampel, s ,...

t-test standard-deviation unbiased-estimator t-distribution

9

Saat menggunakan SVM, mengapa saya perlu mengukur fitur?

Menurut dokumentasi objek StandardScaler di scikit-learn: Misalnya banyak elemen yang digunakan dalam fungsi objektif dari algoritma pembelajaran (seperti kernel RBF dari Support Vector Machines atau L1 dan L2 regularizer model linier) mengasumsikan bahwa semua fitur berpusat di sekitar 0 dan...

machine-learning svm standard-deviation mean references

9

Sebuah langkah aneh pada bukti tentang distribusi bentuk kuadratik

Teorema berikut ini berasal dari edisi ke-7 " Pengantar Statistik Matematika " oleh Hogg, Craig dan Mckean dan menyangkut kondisi yang diperlukan dan cukup untuk independensi dua bentuk kuadrat variabel normal. Ini adalah ekstrak agak panjang tapi apa yang saya akan menghargai bantuan dengan hanya...

self-study mathematical-statistics quadratic-form

9

Membiarkan

Saya belajar mandiri pada teori model linier sekarang, dan satu hal yang saya temukan mengejutkan adalah meskipun didefinisikan untuk vektor acak , tidak disebutkan lagi momen-momen selanjutnya selain matriks kovarians.E[Y]E[Y]\mathbb{E}[\mathbf{Y}]Y=⎡⎣⎢⎢⎢⎢y1y2⋮yn⎤⎦⎥⎥⎥⎥Y=[y1y2⋮yn]\mathbf{Y} =...

self-study moments

9

Skema pembobotan alternatif untuk meta analisis efek acak: tidak ada standar deviasi

Saya sedang mengerjakan meta-analisis efek acak yang mencakup sejumlah studi yang tidak melaporkan penyimpangan standar; semua penelitian melaporkan ukuran sampel. Saya tidak percaya mungkin untuk memperkirakan atau menyalahkan data SD yang hilang. Bagaimana seharusnya meta-analisis yang...

stata missing-data meta-analysis meta-regression

9

Paket metafor: diagnostik bias dan sensitivitas

Saya sedang melakukan meta-analisis multi-level yang mencakup beberapa artikel dengan banyak hasil. Karena itu saya menggunakan rma.mv()fungsinya. Kode contoh: test.main = rma.mv(yi,vi,random = ~1|ID, data = data) Saya punya dua pertanyaan: Saya membaca dalam kueri sebelumnya bahwa saat...

meta-analysis sensitivity-analysis publication-bias funnel-plot