Statistik dan Big Data

9

Intuisi tentang entropi bersama

Saya kesulitan membangun intuisi tentang entropi bersama. = ketidakpastian dalam distribusi bersama p ( x , y ) ; H ( X ) = ketidakpastian dalam p x ( x ) ; H ( Y ) = ketidakpastian dalam p y ( y )

information-theory mutual-information

9

Menyesuaikan koefisien DLM yang bervariasi waktu

Saya ingin menyesuaikan DLM dengan koefisien yang bervariasi waktu, yaitu perpanjangan untuk regresi linier biasa, .yt=θ1+θ2x2yt=θ1+θ2x2y_t = \theta_1 + \theta_2x_2 Saya memiliki prediktor ( ) dan variabel respon ( y t ), marine & tangkapan ikan pedalaman tahunan masing-masing dari 1950 -...

r regression time-series dlm dynamic-regression

9

Arti kesalahan pengujian bersyarat vs kesalahan pengujian yang diharapkan dalam cross-validation

Buku teks saya tentang validasi silang adalah Elemen Pembelajaran Statistik oleh Hastie et al. (2nd ed.). Di bagian 7.10.1 dan 7.12, mereka berbicara tentang perbedaan antara kesalahan pengujian bersyarat dan tes yang diharapkan kesalahan Di sini adalah kumpulan data pelatihan, adalah fungsi...

cross-validation definition

9

R mendeteksi tren peningkatan / penurunan deret waktu

Saya memiliki banyak rangkaian waktu dengan periode: hari, minggu atau bulan. Dengan stl()fungsi atau dengan loess(x ~ y)saya dapat melihat bagaimana tren seri waktu tertentu terlihat. Saya perlu mendeteksi apakah tren deret waktu meningkat atau menurun. Bagaimana saya bisa mengaturnya? Saya...

r time-series trend

9

Nilai batas jarak Cook

Saya telah membaca tentang jarak juru masak untuk mengidentifikasi outlier yang memiliki pengaruh besar pada regresi saya. Dalam penelitian asli Cook, ia mengatakan bahwa tingkat cut-off 1 harus sebanding dengan mengidentifikasi influencer. Namun, berbagai penelitian lain menggunakan...

outliers cooks-distance

9

Mengapa 0,05 <p <0,95 hasil disebut false positive?

Sunting: Basis pertanyaan saya cacat, dan saya perlu meluangkan waktu mencari tahu apakah itu bisa masuk akal. Sunting 2: Mengklarifikasi bahwa saya mengakui bahwa nilai-p bukan ukuran langsung dari probabilitas hipotesis nol, tetapi bahwa saya berasumsi bahwa semakin dekat nilai-p ke 1, semakin...

hypothesis-testing p-value

9

Dapatkah persyaratan penuh menentukan distribusi bersama?

Saya mendengar bahwa semua persyaratan penuh (seperti yang digunakan dalam sampling Gibbs) dapat menentukan distribusi bersama. Tapi saya tidak mengerti mengapa dan bagaimana. Atau apakah saya salah dengar? Terima

distributions

9

Bias optimisme - perkiraan kesalahan prediksi

Buku Elemen Pembelajaran Statistik (tersedia dalam PDF online) membahas bias optimisim (7.21, halaman 229). Ini menyatakan bahwa bias optimisme adalah perbedaan antara kesalahan pelatihan dan kesalahan dalam sampel (kesalahan diamati jika kita sampel nilai-nilai hasil baru di masing-masing poin...

error bias validation

9

Memilih jumlah komponen utama yang jarang dimasukkan dalam regresi

Apakah ada yang punya pengalaman dengan pendekatan untuk memilih jumlah komponen utama yang jarang dimasukkan dalam model

pca sparse regression-strategies

9

Kesetaraan AIC dan nilai-p dalam pemilihan model

Dalam komentar untuk jawaban pertanyaan ini , dinyatakan bahwa menggunakan AIC dalam pemilihan model setara dengan menggunakan p-value 0,154. Saya mencobanya di R, di mana saya menggunakan algoritma seleksi subset "terbelakang" untuk membuang variabel dari spesifikasi lengkap. Pertama, dengan...

model-selection p-value aic

9

Mengevaluasi model regresi

Untuk masalah klasifikasi saya telah menggunakan Neural Networks dan mengukur kesalahan Tipe I dan II menggunakan matriks kebingungan dan ukurannya sesuai sumber daya ini ( mirror ), yang cukup mudah. Ketika dihadapkan dengan masalah estimasi, bagaimana seseorang menilai kinerja model? Dengan...

regression machine-learning estimation model-evaluation

9

Contoh CLT saat momen tidak ada

PertimbangkanXn=⎧⎩⎨1−12kw.p. (1−2−n)/2w.p. (1−2−n)/2w.p. 2−k for k>nXn={1w.p. (1−2−n)/2−1w.p. (1−2−n)/22kw.p. 2−k for k>nX_n = \begin{cases} 1 & \text{w.p. } (1 - 2^{-n})/2\\ -1 & \text{w.p. } (1 - 2^{-n})/2\\ 2^k & \text{w.p. } 2^{-k} \text{ for } k > n\\ \end{cases} Saya perlu menunjukkan...

probability self-study central-limit-theorem moments asymptotics

9

Bagaimana Anda memvisualisasikan corong yang disegmentasi? (dan bisakah Anda melakukannya dengan Python?)

Saya melihat pos ini di Moz yang menyajikan saluran pemasaran tersegmentasi: Hal semacam ini akan memiliki nilai yang cukup besar dalam pekerjaan saya. Apa yang saya tidak tahu adalah bagaimana memvisualisasikan data mentah untuk menampilkan saluran tersegmentasi seperti ini. Idenya adalah bahwa...

data-visualization python funnel-plot

9

Bagaimana bukti Sampling Penolakan masuk akal?

Saya mengambil kursus tentang metode Monte Carlo dan kami belajar metode Sampling Penolakan (atau Sampling Terima-Tolak) dalam kuliah terakhir. Ada banyak sumber daya di web yang menunjukkan bukti metode ini, tetapi entah bagaimana saya tidak yakin dengan mereka. Jadi, dalam Sampel Penolakan, kami...

sampling monte-carlo rejection-sampling

9

Dalam validasi silang k-fold, apakah pelatihan subsampel mencakup set tes?

Dalam halaman Wikipedia ini di sub-bagian untuk validasi silang K-fold dikatakan "Dalam validasi silang k-fold, sampel asli dipartisi secara acak menjadi k sebagai subsampel dengan ukuran yang sama. Dari sampel k, subsampel tunggal dipertahankan sebagai data validasi untuk menguji model, dan sisa...

cross-validation

9

Konvergensi dalam Distribusi \ CLT

Mengingat bahwa , distr kondisional. dari adalah . memiliki distr marjinal. Poisson ( ), adalah konstanta positif.Y χ 2 ( 2 n ) N q qN=nN=nN = nYYYχ2(2n)χ2(2n)\chi ^2(2n)NNNθθ\thetaθθ\theta Tunjukkan bahwa, sebagai , dalam distribusi.( Y - E ( Y ) ) / √θ→∞θ→∞\theta \rightarrow...

self-study poisson-distribution conditional-probability convergence central-limit-theorem

9

SD lebih besar dari rata-rata, skala non-negatif

Saya diberi artikel yang melaporkan penelitian yang sangat mirip dengan yang ingin dijalankan oleh lab saya. Tapi, saya perhatikan bahwa untuk variabel yang diminati, Durasi, SD lebih besar daripada rata-rata ... karena ini adalah durasi yang diukur dalam hitungan menit, itu tidak pernah bisa...

standard-deviation power-analysis

9

Mengapa bentuk fungsional tahap 1 dalam 2SLS tidak penting?

Dalam presentasi hari ini pembicara membuat klaim di atas. Dia mengatakan bahwa bahkan jika tahap pertama tidak ditentukan, koefisien estimasi tahap kedua akan tetap valid. Sebagai mahasiswa pascasarjana yang rendah saya tidak bisa meminta penjelasan, jadi sekarang saya mohon bantuan...

econometrics 2sls

9

Analisis Bayesian dari tabel kontingensi: Cara menggambarkan ukuran efek

Saya sedang mengerjakan contoh-contoh dalam Analisis Data Does Bayesian Kruschke , khususnya ANOVA eksponensial Poisson di bab. 22, yang ia sajikan sebagai alternatif untuk uji chi-square independensi untuk tabel kontingensi. Saya dapat melihat bagaimana kita mendapatkan informasi tentang...

r bayesian effect-size contingency-tables

9

Pengujian untuk penyebaran berlebihan dalam regresi logistik

R in Action (Kabacoff, 2011) menyarankan rutinitas berikut untuk menguji penyebaran berlebihan dalam regresi logistik: Fit regresi logistik menggunakan distribusi binomial: model_binom <- glm(Species=="versicolor" ~ Sepal.Width, family=binomial(), data=iris) Fit regresi logistik menggunakan...

r regression distributions logistic overdispersion