Statistik dan Big Data

18

Distribusi yang menggambarkan perbedaan antara variabel terdistribusi binomial negatif?

Sebuah Skellam Distribusi menjelaskan perbedaan antara dua variabel yang memiliki distribusi Poisson. Apakah ada distribusi serupa yang menggambarkan perbedaan antara variabel yang mengikuti distribusi binomial negatif? Data saya dihasilkan oleh proses Poisson, tetapi mencakup cukup banyak noise,...

18

Bagaimana seharusnya kesalahan standar untuk estimasi model efek campuran dihitung?

Secara khusus, bagaimana kesalahan standar efek tetap dalam model efek campuran linier harus dihitung (dalam arti frequentist)? Saya telah memimpin untuk percaya bahwa perkiraan tipikal ( ), seperti yang disajikan dalam Laird dan Ware [1982] akan memberikan SE ukurannya diremehkan karena estimasi...

r mixed-model random-effects-model

18

Apakah ada R yang setara dengan SAS PROC FREQ?

Adakah yang tahu R setara dengan SAS PROC FREQ? Saya mencoba untuk menghasilkan statistik deskriptif ringkasan untuk beberapa variabel

r descriptive-statistics sas

18

Bagaimana kerangka bayesian lebih baik dalam interpretasi ketika kita biasanya menggunakan prior tidak informatif atau subjektif?

Sering diperdebatkan bahwa kerangka bayesian memiliki keuntungan besar dalam interpretasi (lebih sering), karena ia menghitung probabilitas parameter yang diberikan data - daripada seperti pada kerangka kerja frequentist. Sejauh ini baik.p(θ|x)p(θ|x)p(\theta|x)p(x|θ)p(x|θ)p(x|\theta) Tapi, seluruh...

bayesian interpretation prior likelihood posterior

18

Mengapa pengujian chi-square menggunakan jumlah yang diharapkan sebagai varians?

Dalam pengujian , apa dasar untuk menggunakan akar kuadrat dari jumlah yang diharapkan sebagai standar deviasi (yaitu jumlah yang diharapkan sebagai variasi) dari masing-masing distribusi normal? Satu-satunya hal yang bisa saya temukan membahas ini sama sekali adalah

hypothesis-testing chi-squared

18

Variabel kepentingan dari GLMNET

Saya melihat menggunakan laso sebagai metode untuk memilih fitur dan menyesuaikan model prediksi dengan target biner. Di bawah ini adalah beberapa kode yang saya mainkan untuk mencoba metode ini dengan regresi logistik yang teratur. Pertanyaan saya adalah apakah saya mendapatkan sekelompok...

logistic importance glmnet

18

Klasifikasi teks skala besar

Saya ingin melakukan klasifikasi pada data teks saya. Saya punya 300 classes, 200 dokumen pelatihan per kelas (jadi 60000 documents in total) dan ini cenderung menghasilkan data dimensi yang sangat tinggi (kita mungkin melihat lebih dari 1 juta dimensi ). Saya ingin melakukan langkah-langkah...

machine-learning classification text-mining

18

Metode korelasi kuat mana yang benar-benar digunakan?

Saya berencana untuk melakukan studi simulasi di mana saya membandingkan kinerja beberapa teknik korelasi kuat dengan distribusi yang berbeda (condong, dengan outlier, dll.). Dengan robust , maksud saya kasus ideal kuat terhadap a) distribusi yang miring, b) outlier, dan c) ekor yang...

r correlation robust spearman-rho winsorizing

18

Apa perbedaan antara "margin of error" dan "standard error"?

Apakah "margin of error" sama dengan "standard error"? Sebuah contoh (sederhana) untuk menggambarkan perbedaan akan sangat

definition

18

Interval kepercayaan sempit - akurasi lebih tinggi?

Saya punya dua pertanyaan tentang interval kepercayaan: Rupanya interval kepercayaan yang sempit menyiratkan bahwa ada kemungkinan lebih kecil untuk mendapatkan pengamatan dalam interval itu, oleh karena itu, akurasi kami lebih tinggi. Interval kepercayaan 95% juga lebih sempit dari interval...

confidence-interval

18

Bagaimana saya bisa mendapatkan ANOVA keseluruhan yang signifikan tetapi tidak ada perbedaan berpasangan yang signifikan dengan prosedur Tukey?

Saya tampil dengan R an ANOVA dan saya mendapat perbedaan yang signifikan. Namun ketika memeriksa pasangan mana yang berbeda secara signifikan menggunakan prosedur Tukey, saya tidak mendapatkan satupun dari mereka. Bagaimana ini bisa terjadi? Ini kodenya: fit5_snow<- lm(Response ~ Stimulus,...

anova post-hoc tukey-hsd

18

Jalan acak dengan momentum

Pertimbangkan bilangan bulat acak mulai dari 0 dengan kondisi berikut: Langkah pertama adalah plus atau minus 1, dengan probabilitas yang sama. Setiap langkah di masa depan adalah: 60% kemungkinan berada di arah yang sama dengan langkah sebelumnya, 40% kemungkinan berada di arah yang berlawanan...

stochastic-processes randomness random-walk

18

Bagaimana cara menghitung kebingungan ketidaksepakatan dengan Alokasi Dirichlet Laten?

Saya bingung tentang cara menghitung kebingungan sampel ketidaksepakatan saat melakukan Latent Dirichlet Allocation (LDA). Makalah-makalah tentang topik itu membahasnya, membuat saya berpikir saya kehilangan sesuatu yang jelas ... Kesederhanaan dipandang sebagai ukuran kinerja yang baik untuk LDA....

text-mining topic-models

18

Apakah ada representasi grafis tradeoff bias-varians dalam regresi linier?

Saya menderita pemadaman. Saya disajikan gambar berikut untuk menunjukkan tradeoff bias-varians dalam konteks regresi linier: Saya dapat melihat bahwa tidak satu pun dari kedua model yang cocok - "sederhana" tidak menghargai kompleksitas hubungan XY dan "kompleks" hanya overfitting, pada...

regression variance bias

18

Bagaimana Uji Kuadrat Pearson Pearson bekerja

Setelah pemungutan suara baru-baru ini saya telah mencoba untuk memeriksa pemahaman saya tentang tes Pearson Chi Squared. Saya biasanya menggunakan statistik chi kuadrat (atau statistik chi kuadrat berkurang) untuk pas atau memeriksa cocok yang dihasilkan. Dalam hal ini varians biasanya bukan...

chi-squared histogram

18

Bagaimana menafsirkan koefisien dari regresi logistik?

Saya memiliki fungsi probabilitas berikut: Prob = 11 + e- zMasalah=11+e-z\text{Prob} = \frac{1}{1 + e^{-z}} dimana z= B0+ B1X1+ ⋯ + BnXn.z=B0+B1X1+⋯+BnXn.z = B_0 + B_1X_1 + \dots + B_nX_n. Model saya terlihat seperti Pr ( Y= 1 ) = 11 + exp( - [ - 3,92 + 0,014 × ( jenis kelamin ) ]...

probability logistic logit

18

Cara terbaik untuk melakukan multiclass SVM

Saya tahu bahwa SVM adalah classifier biner. Saya ingin memperluasnya ke multi-class SVM. Mana yang terbaik, dan mungkin cara termudah untuk melakukannya? kode: di MATLAB u=unique(TrainLabel); N=length(u); if(N>2) itr=1; classes=0; while((classes~=1)&&(itr<=length(u)))...

machine-learning matlab svm multi-class

18

Bagaimana analisis diskriminan linier mengurangi dimensi?

Ada kata-kata dari "Elemen Pembelajaran Statistik" di halaman 91: Centroid K dalam rentang ruang input p-dimensi paling banyak di subruang dimensi K-1, dan jika p jauh lebih besar dari K, ini akan menjadi penurunan dimensi yang cukup besar. Saya punya dua pertanyaan: Mengapa centroid K dalam...

machine-learning discriminant-analysis

18

Mengapa Pemrosesan Bahasa Alami tidak termasuk dalam domain Machine Learning? [Tutup]

Seperti saat ini, pertanyaan ini tidak cocok untuk format tanya jawab kami. Kami berharap jawaban didukung oleh fakta, referensi, atau keahlian, tetapi pertanyaan ini kemungkinan akan mengundang debat, argumen, polling, atau diskusi panjang. Jika Anda merasa bahwa pertanyaan ini

machine-learning text-mining natural-language

18

Keuntungan dan kerugian SVM

Adakah yang bisa menjelaskan kelebihan dan kekurangan klasifikasi SVM yang membedakannya dari pengklasifikasi

machine-learning svm