Statistik dan Big Data

18
Variabel kepentingan dari GLMNET

Saya melihat menggunakan laso sebagai metode untuk memilih fitur dan menyesuaikan model prediksi dengan target biner. Di bawah ini adalah beberapa kode yang saya mainkan untuk mencoba metode ini dengan regresi logistik yang teratur. Pertanyaan saya adalah apakah saya mendapatkan sekelompok...

18
Klasifikasi teks skala besar

Saya ingin melakukan klasifikasi pada data teks saya. Saya punya 300 classes, 200 dokumen pelatihan per kelas (jadi 60000 documents in total) dan ini cenderung menghasilkan data dimensi yang sangat tinggi (kita mungkin melihat lebih dari 1 juta dimensi ). Saya ingin melakukan langkah-langkah...

18
Interval kepercayaan sempit - akurasi lebih tinggi?

Saya punya dua pertanyaan tentang interval kepercayaan: Rupanya interval kepercayaan yang sempit menyiratkan bahwa ada kemungkinan lebih kecil untuk mendapatkan pengamatan dalam interval itu, oleh karena itu, akurasi kami lebih tinggi. Interval kepercayaan 95% juga lebih sempit dari interval...

18
Jalan acak dengan momentum

Pertimbangkan bilangan bulat acak mulai dari 0 dengan kondisi berikut: Langkah pertama adalah plus atau minus 1, dengan probabilitas yang sama. Setiap langkah di masa depan adalah: 60% kemungkinan berada di arah yang sama dengan langkah sebelumnya, 40% kemungkinan berada di arah yang berlawanan...

18
Bagaimana Uji Kuadrat Pearson Pearson bekerja

Setelah pemungutan suara baru-baru ini saya telah mencoba untuk memeriksa pemahaman saya tentang tes Pearson Chi Squared. Saya biasanya menggunakan statistik chi kuadrat (atau statistik chi kuadrat berkurang) untuk pas atau memeriksa cocok yang dihasilkan. Dalam hal ini varians biasanya bukan...