Statistik dan Big Data

52

Dalam kondisi apa sebaiknya skala Likert digunakan sebagai data ordinal atau interval?

Banyak studi dalam ilmu sosial menggunakan skala Likert. Kapan waktu yang tepat untuk menggunakan data Likert sebagai ordinal dan kapan waktu yang tepat untuk menggunakannya sebagai data

52

Apa hubungan antara uji chi square dan uji proporsi yang sama?

Misalkan saya memiliki tiga populasi dengan empat, karakteristik yang saling eksklusif. Saya mengambil sampel acak dari setiap populasi dan membuat tabel tab silang atau frekuensi untuk karakteristik yang saya ukur. Apakah saya benar mengatakan bahwa: Jika saya ingin menguji apakah ada hubungan...

chi-squared proportion contingency-tables z-test

52

Clustering dengan matriks jarak

Saya memiliki matriks (simetris) Myang mewakili jarak antara setiap pasangan node. Sebagai contoh, ABCD EFGH IJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 140 D 20 20 20 0 60 80 80 80 120 140 140 140 140 E 40 60...

clustering

52

Unggul sebagai meja kerja statistik

Tampaknya banyak orang (termasuk saya) suka melakukan analisis data eksplorasi di Excel. Beberapa batasan, seperti jumlah baris yang dibolehkan dalam spreadsheet, menyebalkan tetapi dalam kebanyakan kasus tidak membuatnya tidak mungkin menggunakan Excel untuk bermain-main dengan data. Namun,...

software computational-statistics excel

52

Apa karakterisasi paling mengejutkan dari distribusi Gaussian (normal)?

Distribusi Gaussian terstandardisasi pada dapat didefinisikan dengan memberikan kepadatannya secara eksplisit: 1RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} atau fungsi karakteristiknya. Sebagai kenang dalam ini pertanyaan itu juga satu-satunya distribusi yang mean sampel...

probability normal-distribution mathematical-statistics characteristic-function

52

Asumsi normalitas ANOVA / distribusi normal residu

The Wikipedia halaman di ANOVA daftar tiga asumsi , yaitu: Independensi kasus - ini adalah asumsi model yang menyederhanakan analisis statistik. Normalitas - distribusi residu adalah normal. Kesetaraan (atau "homogenitas") dari varians, yang disebut homoscedasticity ... Poin yang menarik di...

anova residuals assumptions normality-assumption

52

Apa perbedaan antara Multiclass dan Multilabel Problem

Apa perbedaan antara masalah multikelas dan masalah

classification clustering terminology multi-class multilabel

52

Penurunan solusi bentuk laso tertutup

Untuk masalah laso sedemikian rupa sehingga \ | \ beta \ | _1 \ leq t . Saya sering melihat hasil soft-thresholding \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} | - \ gamma) ^ + untuk kasus X ortonormal . Dikatakan bahwa solusinya dapat...

lasso

52

Penerus modern untuk Analisis Data Eksplorasi oleh Tukey?

Saya telah membaca buku Tukey "Analisis Data Eksplorasi". Ditulis pada tahun 1977, buku ini menekankan metode kertas / pensil. Apakah ada penerus yang lebih 'modern' yang memperhitungkan bahwa kita sekarang dapat langsung memplot set data besar?

data-visualization references descriptive-statistics eda

52

Jaringan saraf vs mesin vektor dukungan: apakah yang kedua pasti lebih unggul?

Banyak penulis makalah yang saya baca menegaskan bahwa SVM adalah teknik yang unggul untuk menghadapi masalah regresi / klasifikasi mereka, menyadari bahwa mereka tidak bisa mendapatkan hasil yang sama melalui NNs. Seringkali perbandingan menyatakan itu SVM, bukannya NN, Memiliki teori pendirian...

machine-learning svm neural-networks

52

Apakah prediksi model Random Forest memiliki interval prediksi?

Jika saya menjalankan randomForestmodel, saya kemudian dapat membuat prediksi berdasarkan model. Apakah ada cara untuk mendapatkan interval prediksi dari masing-masing prediksi sehingga saya tahu seberapa "yakin" model dari jawabannya. Jika ini mungkin, apakah hanya didasarkan pada variabilitas...

r confidence-interval random-forest

52

Lakukan normalisasi fitur sebelum atau di dalam validasi model?

Praktek umum yang baik dalam Pembelajaran Mesin adalah melakukan normalisasi fitur atau standardisasi data dari variabel prediktor, hanya itu, pusatkan data dengan mengurangkan rata-rata dan menormalkannya dengan varian (atau standar deviasi juga). Untuk pengendalian diri dan pemahaman saya, kami...

machine-learning normalization standardization multidimensional-scaling

52

Apakah perlu untuk menskalakan nilai target selain fitur penskalaan untuk analisis regresi?

Saya sedang membangun model regresi. Sebagai langkah preprocessing, saya skala nilai fitur saya untuk memiliki rata-rata 0 dan standar deviasi 1. Apakah perlu untuk menormalkan nilai target

regression machine-learning

52

Mengapa kita begitu peduli tentang istilah kesalahan yang terdistribusi normal (dan homoskedastisitas) dalam regresi linier ketika kita tidak perlu?

Saya kira saya menjadi frustrasi setiap kali saya mendengar seseorang mengatakan bahwa residual dan / atau heteroskedastisitas yang tidak normal melanggar asumsi OLS. Untuk memperkirakan parameter dalam model OLS, asumsi ini tidak diperlukan oleh teorema Gauss-Markov. Saya melihat bagaimana hal ini...

regression assumptions normality-assumption robust teaching

52

Klasifikasi biner dengan kelas yang sangat tidak seimbang

Saya memiliki kumpulan data dalam bentuk (fitur, keluaran biner 0 atau 1), tetapi 1 jarang terjadi, jadi hanya dengan selalu memprediksi 0, saya mendapatkan akurasi antara 70% dan 90% (tergantung pada data tertentu yang saya lihat ). Metode ML memberi saya akurasi yang sama, dan saya merasa, harus...

machine-learning classification binary-data unbalanced-classes

52

Cumming (2008) mengklaim bahwa distribusi nilai-p yang diperoleh dalam replikasi hanya bergantung pada nilai-p yang asli. Bagaimana itu bisa benar?

Saya telah membaca paper Replikasi dan Interval pppppp Geoff Cumming 2008 : nilai p memprediksi masa depan hanya samar-samar, tetapi interval kepercayaan jauh lebih baik [~ 200 kutipan dalam Google Cendekia] - dan saya bingung dengan salah satu klaim utamanya. Ini adalah salah satu dari serangkaian...

hypothesis-testing p-value power replicability

51

Apa perbedaan antara filter partikel (sekuensial Monte Carlo) dan filter Kalman?

Sebuah filter partikel dan filter Kalman keduanya estimator Bayesian rekursif . Saya sering menemukan filter Kalman di bidang saya, tetapi sangat jarang melihat penggunaan filter partikel. Kapan satu akan digunakan di atas yang

bayesian particle-filter kalman-filter

51

Statistik dan inferensi kausal?

Dalam makalahnya tahun 1984 "Statistik dan Inferensial Kausal" , Paul Holland mengajukan salah satu pertanyaan paling mendasar dalam statistik: Apa yang bisa dikatakan model statistik tentang sebab akibat? Ini menyebabkan moto-nya: TIDAK ADA PENYEBAB TANPA MANIPULASI yang menekankan...

causality

51

Apa sumber daya yang baik untuk desain meja?

Saya telah melihat berbagai perawatan teoritis dari grafik, seperti Grammar of Graphics . Tapi saya belum melihat yang setara dengan tabel. Sementara saya telah mengembangkan model informal praktik yang baik dalam desain tabel. Namun, saya ingin dapat memberikan referensi yang baik kepada siswa....

tables

51

Apakah kita memiliki masalah "kasihan sayang"?

Aku tahu, ini mungkin terdengar seperti di luar topik, tapi dengarkan aku. Di Stack Overflow dan di sini kita mendapatkan suara pada posting, ini semua disimpan dalam bentuk tabel. Misalnya: memposting id voter id jenis suara datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01...

time-series hypothesis-testing data-mining markov-process censoring