Statistik dan Big Data

48

Bagaimana cara mengidentifikasi distribusi bimodal?

Saya mengerti bahwa begitu kita memplot nilai-nilai sebagai grafik, kita dapat mengidentifikasi distribusi bimodal dengan mengamati puncak kembar, tetapi bagaimana kita menemukannya secara terprogram? (Saya mencari sebuah

distributions

48

Apakah chi-square selalu merupakan tes satu sisi?

Artikel yang diterbitkan ( pdf ) berisi 2 kalimat ini: Selain itu, kesalahan pelaporan dapat disebabkan oleh penerapan aturan yang salah atau oleh kurangnya pengetahuan tentang uji statistik. Misalnya, total df dalam ANOVA dapat dianggap sebagai kesalahan df dalam pelaporan uji , atau peneliti...

hypothesis-testing chi-squared

48

Apakah setiap matriks kovarian pasti positif?

Saya kira jawabannya harus ya, tetapi saya masih merasa ada sesuatu yang tidak benar. Seharusnya ada beberapa hasil umum dalam literatur, ada yang bisa membantu

covariance matrix covariance-matrix linear-algebra

48

Bagaimana saya menguji bahwa dua variabel kontinu independen?

Misalkan saya memiliki sampel dari distribusi gabungan dari dan . Bagaimana saya menguji hipotesis bahwa dan adalah independen ?X Y X Y( Xn, Yn) , n = 1 .. N(Xn,Yn),n=1..N(X_n,Y_n), n=1..NXXXYYYXXXYYY Tidak ada asumsi yang dibuat pada undang-undang distribusi gabungan atau marginal dan (paling...

hypothesis-testing references independence

48

Jaringan Syaraf Berulang vs Rekursif: Mana yang lebih baik untuk NLP?

Ada Jaringan Syaraf Berulang dan Jaringan Syaraf Rekursif. Keduanya biasanya dilambangkan dengan akronim yang sama: RNN. Menurut Wikipedia , NN Berulang sebenarnya adalah NN Rekursif, tapi saya tidak begitu mengerti penjelasannya. Selain itu, saya sepertinya tidak menemukan yang lebih baik (dengan...

machine-learning neural-networks deep-learning natural-language

48

Penjelasan intuitif tentang perbedaan antara Gradient Boosting Trees (GBM) & Adaboost

Saya mencoba memahami perbedaan antara GBM & Adaboost. Inilah yang saya mengerti sejauh ini: Ada keduanya meningkatkan algoritma, yang belajar dari kesalahan model sebelumnya dan akhirnya membuat jumlah model tertimbang. GBM dan Adaboost sangat mirip kecuali untuk fungsi

boosting gbm adaboost

48

Apa perbedaan antara penurunan gradien berbasis momentum dan percepatan penurunan gradien Nesterov?

Jadi penurunan gradien berbasis momentum bekerja sebagai berikut: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g di mana adalah pembaruan berat sebelumnya, dan adalah gradien saat ini sehubungan dengan parameter , adalah tingkat pembelajaran, dan adalah konstanta.g p l r s e l...

optimization gradient-descent

48

Apakah korelasi = 0,2 berarti ada hubungan “hanya 1 dalam 5 orang”?

Dalam Otak Idiot: Seorang Ilmuwan Saraf Menjelaskan Apa yang Sebenarnya Diperhatikan oleh Kepala Anda , tulis Dean Burnett Korelasi antara tinggi dan kecerdasan biasanya disebut sekitar , yang berarti tinggi dan kecerdasan tampaknya terkait hanya dalam orang.0.20.20.2111555 Bagi saya, ini...

correlation neuroscience

47

Ketika melakukan uji-t, mengapa orang lebih suka mengasumsikan (atau menguji) varian yang sama daripada selalu menggunakan pendekatan Welch dari df?

Sepertinya ketika asumsi homogenitas varians terpenuhi bahwa hasil dari uji-t Welch yang disesuaikan dan uji-t standar hampir sama. Mengapa tidak selalu menggunakan t Welch yang

variance t-test heteroscedasticity

47

Jika uji-t dan ANOVA untuk dua kelompok adalah setara, mengapa asumsi mereka tidak sama?

Saya yakin saya sudah membungkus ini sepenuhnya di kepala saya, tetapi saya tidak bisa memahaminya. Uji-t membandingkan dua distribusi normal menggunakan distribusi Z. Itu sebabnya ada asumsi normalitas dalam DATA. ANOVA setara dengan regresi linier dengan variabel dummy, dan menggunakan jumlah...

distributions regression normality-assumption t-test anova

47

Kesimpulan statistik ketika sampel “adalah” populasi

Bayangkan Anda harus melaporkan jumlah kandidat yang setiap tahun mengikuti tes yang diberikan. Tampaknya agak sulit untuk menyimpulkan% keberhasilan yang diamati, misalnya, pada populasi yang lebih luas karena kekhususan populasi target. Jadi, Anda dapat mempertimbangkan bahwa data ini mewakili...

hypothesis-testing population sampling

47

Apakah mungkin melakukan pengelompokan seri waktu berdasarkan bentuk kurva?

Saya memiliki data penjualan untuk serangkaian outlet, dan ingin mengategorikannya berdasarkan bentuk kurva mereka dari waktu ke waktu. Data terlihat kurang lebih seperti ini (tetapi jelas tidak acak, dan memiliki beberapa data yang hilang): n.quarters <- 100 n.stores <- 20 if...

r time-series clustering

47

Kode sumber paket R pertama yang akan dipelajari untuk persiapan menulis paket sendiri

Saya berencana untuk mulai menulis paket R. Saya pikir akan lebih baik untuk mempelajari kode sumber paket yang ada untuk mempelajari konvensi pembangunan paket. Kriteria saya untuk paket yang baik untuk dipelajari: Gagasan statistik / teknis yang sederhana : Intinya adalah mempelajari...

r

47

Tutorial statistik Bayesian

Saya mencoba meningkatkan kecepatan di Bayesian Statistics. Saya memiliki sedikit latar belakang statistik (STAT 101) tetapi tidak terlalu banyak - saya pikir saya bisa mengerti sebelumnya, posterior, dan kemungkinan: D. Saya tidak ingin membaca buku teks Bayesian dulu. Saya lebih suka membaca...

bayesian references

47

Bagaimana cara melakukan pemilihan subset regresi logistik?

Saya cocok dengan keluarga binomial glm di R, dan saya memiliki seluruh kelompok variabel penjelas, dan saya perlu menemukan yang terbaik (R-kuadrat sebagai ukuran baik-baik saja). Singkat penulisan skrip untuk mengulang melalui kombinasi acak yang berbeda dari variabel penjelas dan kemudian...

r logistic

47

Klarifikasi tentang penafsiran interval kepercayaan?

Pemahaman saya saat ini tentang gagasan "interval kepercayaan dengan tingkat kepercayaan " adalah bahwa jika kita mencoba menghitung interval kepercayaan berkali-kali (setiap kali dengan sampel baru), itu akan berisi parameter dari waktu.1 - α1 - α1−α1 - \alpha1 - α1−α1 - \alpha Meskipun saya...

confidence-interval

47

Istilah statistik yang paling membingungkan

Kami ahli statistik menggunakan banyak kata dengan cara yang sedikit berbeda dari cara orang lain menggunakannya. Ini menyebabkan banyak masalah ketika kita mengajar atau menjelaskan apa yang sedang kita lakukan. Saya akan memulai daftar (dan sekarang saya akan menambahkan beberapa definisi, per...

terminology communication

47

Memahami Naif Bayes

Dari StatSoft, Inc. (2013), Electronic Statistics Textbook , "Naive Bayes Classifier" : Untuk menunjukkan konsep Klasifikasi Naïve Bayes, perhatikan contoh yang ditampilkan dalam ilustrasi di atas. Seperti yang ditunjukkan, objek dapat diklasifikasikan sebagai GREEN atau RED. Tugas saya...

machine-learning naive-bayes

47

Mengapa harapan sama dengan rata-rata aritmatika?

Hari ini saya menemukan topik baru yang disebut Ekspektasi Matematika. Buku yang saya ikuti mengatakan, harapan adalah rata-rata aritmatika dari variabel acak yang berasal dari setiap distribusi probabilitas. Tetapi, ia mendefinisikan ekspektasi sebagai jumlah produk dari beberapa data dan...

expected-value

47

Bagaimana cara menemukan puncak dalam dataset?

Jika saya memiliki kumpulan data yang menghasilkan grafik seperti berikut ini, bagaimana saya secara algoritmik menentukan nilai x dari puncak yang ditampilkan (dalam hal ini tiga di

data-visualization mode