Statistik dan Big Data

34

Pengelompokan hierarkis dengan data tipe campuran - berapa jarak / kesamaan untuk digunakan?

Dalam dataset saya, kami memiliki variabel diskrit kontinu dan alami. Saya ingin tahu apakah kita bisa melakukan pengelompokan hierarkis menggunakan kedua jenis variabel. Dan jika ya, ukuran jarak apa yang

34

Mengapa mengajarkan siswa bahwa nilai-p adalah probabilitas bahwa temuan adalah karena kebetulan?

Dapatkah seseorang tolong berikan penjelasan singkat yang bagus mengapa itu bukan ide yang baik untuk mengajar siswa bahwa nilai-p adalah masalahnya (temuan mereka adalah karena kesempatan [acak]). Pemahaman saya adalah bahwa nilai-p adalah masalahnya (mendapatkan data yang lebih ekstrim |...

p-value randomness teaching

34

Bisakah Anda menyesuaikan diri dengan pelatihan algoritma pembelajaran mesin menggunakan CV / Bootstrap?

Pertanyaan ini mungkin terlalu terbuka untuk mendapatkan jawaban yang pasti, tetapi mudah-mudahan tidak. Algoritma pembelajaran mesin, seperti SVM, GBM, Random Forest dll, umumnya memiliki beberapa parameter gratis yang, di luar beberapa pedoman praktis, perlu disetel ke setiap kumpulan data. Ini...

machine-learning cross-validation bootstrap optimization resampling

34

Perbedaan antara model linier umum & model campuran linier umum

Saya bertanya-tanya apa perbedaan antara GLM campuran dan tidak dicampur. Misalnya, di SPSS menu tarik turun memungkinkan pengguna untuk masuk: analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear Apakah mereka menangani...

mixed-model generalized-linear-model glmm gee

34

Data memiliki dua tren; bagaimana cara mengekstrak trendline independen?

Saya memiliki satu set data yang tidak dipesan dengan cara tertentu tetapi ketika diplot jelas memiliki dua tren yang berbeda. Regresi linier sederhana tidak akan cukup memadai di sini karena perbedaan yang jelas antara kedua seri. Apakah ada cara sederhana untuk mendapatkan dua trendline linear...

time-series python curve-fitting

34

X dan Y tidak berkorelasi, tetapi X adalah prediktor signifikan Y dalam regresi berganda. Apa artinya?

X dan Y tidak berkorelasi (-.01); Namun, ketika saya menempatkan X dalam regresi berganda yang memprediksi Y, di samping tiga (A, B, C) variabel (terkait) lainnya, X dan dua variabel lainnya (A, B) adalah prediktor signifikan dari Y. Perhatikan bahwa dua lainnya ( Variabel A, B) secara signifikan...

regression correlation interpretation causality

34

Pencocokan skor kecenderungan setelah beberapa kali imputasi

Saya merujuk pada makalah ini : Hayes JR, Groner JI. "Menggunakan skor imputasi dan kecenderungan ganda untuk menguji efek kursi mobil dan penggunaan sabuk pengaman pada tingkat keparahan cedera dari data registrasi trauma." J Pediatr Surg. 2008 Mei; 43 (5): 924-7. Dalam penelitian ini, beberapa...

missing-data propensity-scores

34

Mengapa tes rasio kemungkinan didistribusikan chi-kuadrat?

Mengapa statistik uji uji rasio kemungkinan didistribusikan chi-kuadrat? 2(ln Lalt model−ln Lnull model)∼χ2dfalt−dfnull2(ln⁡ Lalt model−ln⁡ Lnull model)∼χdfalt−dfnull22(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm null\ model} ) \sim \chi^{2}_{df_{\rm alt}-df_{\rm...

distributions chi-squared likelihood-ratio

34

Backpropagation vs Genetic Algorithm untuk pelatihan Neural Network

Saya telah membaca beberapa makalah yang membahas pro dan kontra dari masing-masing metode, beberapa berpendapat bahwa GA tidak memberikan perbaikan dalam menemukan solusi optimal sementara yang lain menunjukkan bahwa itu lebih efektif. Tampaknya GA umumnya lebih disukai dalam literatur (walaupun...

neural-networks genetic-algorithms backpropagation

34

Bagaimana saya bisa menguji apakah efek acak itu signifikan?

Saya mencoba memahami kapan harus menggunakan efek acak dan kapan itu tidak perlu. Ive diberitahu aturan praktis adalah jika Anda memiliki 4 grup atau lebih yang saya lakukan (15 moose individu). Beberapa dari mereka rusa percobaan pada 2 atau 3 kali untuk total 29 percobaan. Saya ingin tahu apakah...

mixed-model lme4-nlme random-effects-model glmm

34

Normalitas variabel dependen = normalitas residual?

Masalah ini kelihatannya mendukung kepalanya yang buruk sepanjang waktu, dan saya mencoba memenggalnya untuk pemahaman saya sendiri tentang statistik (dan kewarasan!). Asumsi model linier umum (uji-t, ANOVA, regresi, dll.) Meliputi "asumsi normalitas", tetapi saya menemukan ini jarang dijelaskan...

normal-distribution residuals normality-assumption

34

Apa perbedaan praktis antara Benjamini & Hochberg (1995) dan prosedur tingkat penemuan palsu Benjamini & Yekutieli (2001)?

Program statistik saya mengimplementasikan prosedur Benjamini & Hochberg (1995) dan Benjamini & Yekutieli (2001) salah. Saya telah melakukan yang terbaik untuk membaca makalah selanjutnya, tetapi secara matematis cukup padat dan saya tidak cukup yakin saya memahami perbedaan antara...

post-hoc false-discovery-rate

34

Pemilihan model dan validasi silang: Cara yang benar

Ada banyak utas di CrossValidated pada topik pemilihan model dan validasi silang. Berikut ini beberapa di antaranya: Validasi silang internal vs eksternal dan pemilihan model @ DikranMarsupial ini jawaban atas untuk seleksi Fitur dan cross-validasi Namun, jawaban atas utas tersebut cukup umum...

cross-validation model-selection

34

Apakah distribusi beta memiliki konjugat sebelumnya?

Saya tahu bahwa distribusi beta adalah konjugat ke binomial. Tapi apa konjugat sebelum beta? Terima

beta-distribution conjugate-prior

34

Apakah down-sampling mengubah koefisien regresi logistik?

Jika saya memiliki dataset dengan kelas positif yang sangat langka, dan saya mengambil sampel kelas negatif, kemudian melakukan regresi logistik, apakah saya perlu menyesuaikan koefisien regresi untuk mencerminkan fakta bahwa saya mengubah prevalensi kelas positif? Sebagai contoh, katakanlah saya...

logistic unbalanced-classes case-control-study

34

Mengapa matriks korelasi harus semi-pasti positif dan apa artinya menjadi semi-pasti positif atau tidak?

Saya telah meneliti makna properti semi-pasti positif dari korelasi atau matriks kovarians. Saya mencari informasi tentang Definisi semi-definiteness positif; Sifatnya yang penting, implikasi praktis; Konsekuensi dari memiliki determinan negatif, berdampak pada analisis multivariat atau hasil...

covariance-matrix eigenvalues determinant correlation-matrix

34

Menafsirkan residu vs plot nilai pas untuk memverifikasi asumsi model linier

Pertimbangkan gambar berikut dari Model Linear Faraway dengan R (2005, hlm. 59). Plot pertama tampaknya menunjukkan bahwa residu dan nilai-nilai yang dipasang tidak berkorelasi, karena mereka harus dalam model linier homoseksual dengan kesalahan yang terdistribusi normal. Oleh karena itu, plot...

regression residuals assumptions graphical-model

34

Model Efek Campuran dengan Nesting

Saya memiliki data yang dikumpulkan dari percobaan yang diselenggarakan sebagai berikut: Dua situs, masing-masing dengan 30 pohon. 15 dirawat, 15 kontrol di setiap situs. Dari setiap pohon, kami mengambil sampel tiga potong batang, dan tiga potong akar, sehingga 6 tingkat 1 sampel per pohon yang...

r mixed-model model nested-data lme4-nlme

34

Apa yang dimaksud dengan 'pelajar yang lemah'?

Adakah yang bisa memberi tahu saya apa yang dimaksud dengan ungkapan 'pelajar yang lemah'? Apakah ini seharusnya menjadi hipotesis yang lemah? Saya bingung tentang hubungan antara pelajar yang lemah dan pengklasifikasi yang lemah. Apakah keduanya sama atau ada perbedaan? Dalam algoritma adaboost...

classification svm terminology adaboost pac-learning

34

R - Bingung dengan Terminologi Sisa

Root berarti kuadrat kesalahan jumlah sisa kuadrat kesalahan standar residual berarti kesalahan kuadrat kesalahan tes Saya pikir saya dulu mengerti istilah-istilah ini, tetapi semakin saya melakukan masalah statistik semakin saya bingung di mana saya menebak diri saya. Saya ingin jaminan ulang...

r regression residuals