Pertanyaan yang diberi tag sample

13

Menggunakan panjang rata-rata dan berat rata-rata untuk menghitung rata-rata BMI?

Apakah valid untuk menggunakan panjang rata-rata ( hhh ) dan berat rata-rata ( www )) dari populasi tertentu untuk menghitung rata-rata Indeks Massa Tubuh ( B M.saya= wh2BM.saya=wh2BMI = \frac{w}{h^2} ) untuk populasi

mean sample population

12

ANOVA: menguji asumsi normalitas untuk banyak kelompok dengan beberapa sampel per kelompok

Asumsikan situasi berikut: kami memiliki sejumlah besar (misalnya 20) dengan ukuran kelompok kecil (misalnya n = 3). Saya perhatikan bahwa jika saya menghasilkan nilai dari distribusi seragam, residu akan terlihat normal meskipun distribusi kesalahan seragam. Kode R berikut menunjukkan perilaku...

anova normal-distribution small-sample

12

Cara mengambil banyak sampel 10 dari daftar besar, tanpa penggantian keseluruhan

Saya punya satu set besar data (20.000 titik data), dari mana saya ingin mengambil sampel berulang 10 titik data. Namun, setelah saya mengambil 10 poin data itu, saya ingin mereka tidak dipilih lagi. Saya sudah mencoba menggunakan samplefungsi ini, tetapi sepertinya tidak memiliki opsi untuk...

r sample

12

-tests vs -tests?

Saya mencoba mencari tahu apa perbedaan antara uji- dan uji- .ztttzzz Sejauh yang saya tahu, untuk kedua kelas tes, seseorang menggunakan statistik tes yang sama, sesuatu dalam bentuk b^- Cseˆ( b^)b^−Cse^(b^)\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})} di mana adalah beberapa...

hypothesis-testing t-test small-sample

12

Perbedaan antara perkiraan "dalam-sampel" dan "pseudo-out-sampel"

Apakah ada perbedaan eksplisit antara perkiraan dalam-sampel dan perkiraan out-of-sampel pseudo . Keduanya dimaksudkan dalam konteks mengevaluasi dan membandingkan model

forecasting model-comparison out-of-sample in-sample

12

Mengapa metode ketidaksepakatan (memisahkan data menjadi pelatihan dan pengujian) digunakan dalam statistik klasik?

Dalam paparan kelas saya untuk data mining, metode ketidaksepakatan diperkenalkan sebagai cara menilai kinerja model. Namun, ketika saya mengambil kelas pertama saya pada model linear, ini tidak diperkenalkan sebagai sarana validasi atau penilaian model. Penelitian online saya juga tidak...

regression validation model-evaluation out-of-sample

12

Apakah kompetisi Kaggle baru saja dimenangkan secara kebetulan?

Kompetisi Kaggle menentukan peringkat akhir berdasarkan set tes yang diadakan. Satu set tes yang diadakan adalah sampel; mungkin tidak mewakili populasi yang dimodelkan. Karena setiap pengiriman seperti hipotesis, algoritme yang memenangkan kompetisi mungkin saja, secara kebetulan, akhirnya cocok...

machine-learning probability hypothesis-testing sample kaggle

11

Jika bukan Poisson, lalu distribusi apa ini?

Saya memiliki kumpulan data yang berisi jumlah tindakan yang dilakukan oleh individu selama 7 hari. Tindakan spesifik seharusnya tidak relevan untuk pertanyaan ini. Berikut adalah beberapa statistik deskriptif untuk kumpulan data: JarakBerartiPerbedaanJumlah pengamatan0 -

r distributions poisson-distribution mean sample

11

Menyesuaikan model multilevel ke data survei kompleks di R

Saya mencari saran tentang bagaimana menganalisis data survei yang kompleks dengan model bertingkat di R. Saya telah menggunakan surveypaket ini untuk menentukan probabilitas pemilihan yang tidak setara dalam model satu tingkat, tetapi paket ini tidak memiliki fungsi untuk pemodelan bertingkat. The...

r mixed-model weighted-sampling cluster-sample

11

Perkirakan varians populasi jika rata-rata populasi diketahui

Saya tahu bahwa kami menggunakan untuk memperkirakan variasi populasi. Saya ingat sebuah video dari Khan Academy di mana intuisi yang diberikan adalah bahwa estimasi rata-rata kami mungkin sedikit berbeda dengan yang sebenarnya sehingga jarak akan benar-benar lebih besar, jadi kami membaginya...

variance sample

11

Apakah pengacakan dapat diandalkan dengan sampel kecil?

Jerome Cornfield telah menulis: Salah satu buah terbaik dari revolusi Nelayan adalah gagasan pengacakan, dan ahli statistik yang menyetujui beberapa hal lain setidaknya telah menyetujui hal ini. Namun terlepas dari kesepakatan ini dan meskipun penggunaan prosedur alokasi acak yang meluas secara...

small-sample random-allocation

11

Apakah SurveyMonkey mengabaikan fakta bahwa Anda mendapatkan sampel non-acak?

SurveyMonkey memiliki langkah-langkah dan bagan untuk Anda mengetahui ukuran sampel apa yang Anda butuhkan untuk margin kesalahan atau interval kepercayaan tertentu, berdasarkan pada ukuran populasi Anda. Ukuran sampel SurveyMonkey Apakah bagan ini mengabaikan fakta bahwa Anda tidak akan...

confidence-interval sample-size survey sample

11

Apa cara yang lebih tepat untuk membuat set penahan: untuk menghapus beberapa mata pelajaran atau untuk menghapus beberapa pengamatan dari setiap mata pelajaran?

Saya memiliki dataset dengan 26 fitur dan 31000 baris. Ini adalah dataset dari 38 subjek. Ini untuk sistem biometrik. Jadi saya ingin dapat mengidentifikasi mata pelajaran. Untuk memiliki set pengujian, saya tahu saya harus menghapus beberapa nilai. Jadi apa yang lebih baik untuk dilakukan dan...

machine-learning cross-validation out-of-sample

10

A '' variabel signifikan '' yang tidak meningkatkan prediksi out-of-sample - bagaimana menafsirkan?

Saya punya pertanyaan yang menurut saya akan sangat mendasar bagi banyak pengguna. Saya menggunakan model regresi linier untuk (i) menyelidiki hubungan beberapa variabel penjelas dan variabel respons saya dan (ii) memprediksi variabel respons saya menggunakan variabel penjelas. Satu variabel...

statistical-significance predictive-models p-value prediction out-of-sample

10

Mengapa proporsi sampel juga tidak memiliki distribusi binomial

Dalam pengaturan binomial, variabel acak, X, yang memberikan jumlah keberhasilan didistribusikan secara biner. Proporsi sampel kemudian dapat dihitung sebagai mana adalah ukuran sampel Anda. Buku teks saya menyatakan ituXnXn\frac{X}{n}nnn Proporsi ini tidak memiliki distribusi binomial namun...

distributions binomial proportion sample

10

Bagaimana cara menghitung sampel R yang dikuadratkan?

Saya tahu ini mungkin telah dibahas di tempat lain, tetapi saya belum dapat menemukan jawaban yang jelas. Saya mencoba menggunakan rumus untuk menghitung out-of-sample dari model regresi linier, di mana adalah jumlah residu kuadrat dan adalah jumlah total kuadrat. Untuk set pelatihan, jelas ituR 2...

regression machine-learning r-squared out-of-sample

10

Apakah pemodelan dengan Hutan Acak membutuhkan validasi silang?

Sejauh yang saya lihat, pendapat cenderung berbeda tentang ini. Praktik terbaik tentu akan menentukan menggunakan validasi silang (terutama jika membandingkan RF dengan algoritma lain pada dataset yang sama). Di sisi lain, sumber asli menyatakan bahwa fakta kesalahan OOB dihitung selama pelatihan...

cross-validation random-forest overfitting out-of-sample

10

Nilai variabel tersembunyi regresi linear R "bernilai"

Ini hanya contoh yang saya temui beberapa kali, jadi saya tidak punya data sampel. Menjalankan model regresi linier di R: a.lm = lm(Y ~ x1 + x2) x1adalah variabel kontinu. x2bersifat kategorikal dan memiliki tiga nilai, mis. "Rendah", "Sedang" dan "Tinggi". Namun output yang diberikan oleh R akan...

r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

10

Batasan pada metode ensemble berbasis pohon dalam masalah kecil, p besar?

Metode ansambel berbasis pohon seperti Hutan Acak, dan turunan berikutnya (misalnya, hutan kondisional), semua dimaksudkan untuk berguna dalam apa yang disebut masalah "kecil n , p besar ", untuk mengidentifikasi kepentingan variabel relatif. Memang, ini tampaknya menjadi masalah, tetapi pertanyaan...

random-forest small-sample ensemble

10

Memperkirakan ukuran persimpangan beberapa set dengan menggunakan sampel satu set

Saya sedang mengerjakan suatu algoritma yang perlu menghitung ukuran satu set yang dihasilkan oleh persimpangan setidaknya 2 set. Lebih spesifik: z=|A0∩…∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | Set yang berpotongan dihasilkan oleh query SQL, dan dalam upaya untuk menjaga...

error sample