Statistik dan Big Data

21

Saya berjuang untuk memahami konsep bias dalam konteks analisis regresi linier. Apa definisi matematika dari bias? Apa yang sebenarnya bias dan mengapa / bagaimana? Contoh

21

Bagaimana saya bisa memprediksi nilai dari input baru model linier di R?

Terkunci . Pertanyaan ini dan jawabannya dikunci karena pertanyaannya di luar topik tetapi memiliki signifikansi historis. Saat ini tidak menerima jawaban atau interaksi baru. Saya telah membuat model linear dalam R: mod = lm(train_y ~ train_x). Saya ingin memberikan

r forecasting linear-model

21

Sejauh mana perbedaan antara korelasi dan sebab-akibat relevan bagi Google?

Konteks Pertanyaan populer di situs ini adalah " Apa dosa statistik umum? ". Salah satu dosa yang disebutkan adalah dengan asumsi bahwa tautan "korelasi menyiratkan hubungan sebab akibat ..." Kemudian, dalam komentar dengan 5 upvotes disarankan bahwa: "Google menghasilkan $ 65 miliar setahun...

machine-learning causality

21

Auto.arima dengan data harian: bagaimana cara menangkap musiman / periodisitas?

Saya memasang model ARIMA pada seri waktu harian. Data dikumpulkan setiap hari dari 02-01-2010 hingga 30-07-2011 dan tentang penjualan surat kabar. Karena pola penjualan mingguan dapat ditemukan (jumlah rata-rata harian salinan yang terjual biasanya sama dari Senin hingga Jumat, kemudian meningkat...

r time-series arima seasonality

21

Perhitungan invers matriks yang efisien dalam R

Saya perlu menghitung invers matriks dan telah menggunakan solvefungsi. Meskipun bekerja dengan baik pada matriks kecil, solvecenderung sangat lambat pada matriks besar. Saya bertanya-tanya apakah ada fungsi lain atau kombinasi fungsi (melalui SVD, QR, LU, atau fungsi dekomposisi lainnya) yang...

r matrix-decomposition matrix-inverse

21

Bagaimana cara memulai dengan menerapkan teori respons barang dan perangkat lunak apa yang digunakan?

Konteks Saya telah membaca tentang teori respons barang, dan menurut saya itu menarik. Saya percaya saya memahami dasar-dasarnya, tetapi saya bertanya-tanya bagaimana cara menerapkan teknik statistik yang terkait dengan daerah tersebut. Di bawah ini adalah dua artikel yang mirip dengan bidang saya...

psychometrics latent-variable irt

21

Apa kutukan dimensi?

Secara khusus, saya sedang mencari referensi (makalah, buku) yang akan menunjukkan dan menjelaskan kutukan dimensi. Pertanyaan ini muncul setelah saya mulai membaca buku putih ini oleh Lafferty dan Wasserman. Dalam paragraf ketiga mereka menyebutkan persamaan "terkenal" yang menyiratkan bahwa...

theory

21

Apa artinya "ketidakberpihakan"?

Apa artinya mengatakan bahwa "varians adalah penduga yang bias". Apa artinya mengubah estimasi bias menjadi estimasi tidak bias melalui formula sederhana. Apa tepatnya yang dilakukan konversi ini? Juga, Apa manfaat praktis dari konversi ini? Apakah Anda mengonversi skor ini saat menggunakan...

theory unbiased-estimator descriptive-statistics

21

Contoh koefisien korelasi kuat dengan nilai p tinggi

Saya bertanya-tanya, mungkinkah memiliki koefisien korelasi yang sangat kuat (katakanlah 0,9 atau lebih tinggi), dengan nilai p tinggi (katakanlah, 25 atau lebih tinggi)? Berikut ini contoh koefisien korelasi yang rendah, dengan nilai p tinggi: set.seed(10) y <- rnorm(100) x <-...

r hypothesis-testing correlation

21

Bagaimana saya bisa menghitung margin kesalahan dalam hasil NPS (Net Promoter Score)?

Saya akan membiarkan Wikipedia menjelaskan bagaimana NPS dihitung: Skor Net Promoter diperoleh dengan mengajukan satu pertanyaan kepada pelanggan pada skala peringkat 0 hingga 10, di mana 10 adalah "sangat mungkin" dan 0 adalah "sama sekali tidak mungkin": "Seberapa mungkin Anda merekomendasikan...

hypothesis-testing statistical-significance standard-error multinomial nps

21

Perbedaan Regresi vs ANOVA (aov vs lm dalam R)

Saya selalu mendapat kesan bahwa regresi hanyalah bentuk yang lebih umum dari ANOVA dan hasilnya akan sama. Namun baru-baru ini, saya telah menjalankan regresi dan ANOVA pada data yang sama dan hasilnya berbeda secara signifikan. Artinya, dalam model regresi kedua efek utama dan interaksi adalah...

r regression anova

21

Contoh masalah model Markov tersembunyi?

Saya membaca sedikit model Markov yang tersembunyi dan dapat mengkodekan versi yang cukup mendasar sendiri. Tetapi ada dua cara utama yang tampaknya saya pelajari. Salah satunya adalah membaca dan mengimplementasikannya ke dalam kode (yang dilakukan) dan yang kedua adalah memahami bagaimana itu...

algorithms markov-process

21

Mengapa kita harus peduli tentang pencampuran cepat dalam rantai MCMC?

Ketika bekerja dengan rantai Markov, Monte Carlo untuk menarik kesimpulan, kita membutuhkan rantai yang bercampur dengan cepat, yaitu bergerak melalui dukungan distribusi posterior dengan cepat. Tetapi saya tidak mengerti mengapa kita membutuhkan properti ini, karena dari apa yang saya pahami,...

mcmc

21

Jaringan saraf modern yang membangun topologi mereka sendiri

Keterbatasan dari algoritma neural net standar (seperti backprop) adalah Anda harus membuat keputusan desain tentang berapa banyak layer tersembunyi dan neuron per layer yang Anda inginkan. Biasanya, tingkat pembelajaran dan generalisasi sangat sensitif terhadap pilihan-pilihan ini. Ini telah...

neural-networks

21

Apa cara yang benar untuk menguji signifikansi hasil klasifikasi

Ada banyak situasi di mana Anda dapat melatih beberapa pengklasifikasi yang berbeda, atau menggunakan beberapa metode ekstraksi fitur yang berbeda. Dalam literatur penulis sering memberikan kesalahan klasifikasi rata-rata pada set split acak data (yaitu setelah validasi silang bersarang ganda), dan...

classification statistical-significance

21

Analisis komponen utama fungsional (FPCA): tentang apa semua ini?

Analisis komponen utama fungsional (FPCA) adalah sesuatu yang saya temui dan tidak pernah mengerti. Tentang apa semua ini? Lihat "Sebuah survei analisis komponen utama fungsional" oleh Shang, 2011 , dan saya mengutip: PCA mengalami kesulitan serius dalam menganalisis data fungsional karena...

time-series pca dimensionality-reduction

21

Kapan kovarians jarak kurang tepat daripada kovarians linier?

Saya baru saja diperkenalkan (samar-samar) ke brown / kovarians jarak / korelasi . Tampaknya sangat berguna dalam banyak situasi non-linear, ketika menguji ketergantungan. Tetapi sepertinya tidak sering digunakan, meskipun kovarians / korelasi sering digunakan untuk data non-linear / kacau. Itu...

correlation covariance distance-covariance

21

Mengapa Levene menguji persamaan varian daripada rasio F?

SPSS menggunakan uji Levene untuk mengevaluasi homogenitas varians dalam prosedur uji-t kelompok independen. Mengapa tes Levene lebih baik daripada rasio F sederhana dari rasio varian kedua

hypothesis-testing anova variance t-test heteroscedasticity

21

Bisakah dua variabel acak memiliki distribusi yang sama, namun hampir pasti berbeda?

Mungkinkah dua variabel acak memiliki distribusi yang sama namun hampir pasti

distributions probability

21

Membandingkan pengelompokan: Indeks Rand vs Variasi Informasi

Saya bertanya-tanya apakah ada yang punya wawasan atau intuisi di balik perbedaan antara Variasi Informasi dan Indeks Rand untuk membandingkan pengelompokan. Saya telah membaca makalah " Membandingkan Clusterings - Sebuah Jarak Berbasis Informasi " oleh Marina Melia (Journal of Multivariate...

machine-learning clustering metric