Apakah valid untuk menggunakan panjang rata-rata ( hhh ) dan berat rata-rata ( www )) dari populasi tertentu untuk menghitung rata-rata Indeks Massa Tubuh ( B M.saya= wh2BM.saya=wh2BMI = \frac{w}{h^2} ) untuk populasi
Apakah valid untuk menggunakan panjang rata-rata ( hhh ) dan berat rata-rata ( www )) dari populasi tertentu untuk menghitung rata-rata Indeks Massa Tubuh ( B M.saya= wh2BM.saya=wh2BMI = \frac{w}{h^2} ) untuk populasi
Asumsikan situasi berikut: kami memiliki sejumlah besar (misalnya 20) dengan ukuran kelompok kecil (misalnya n = 3). Saya perhatikan bahwa jika saya menghasilkan nilai dari distribusi seragam, residu akan terlihat normal meskipun distribusi kesalahan seragam. Kode R berikut menunjukkan perilaku...
Saya punya satu set besar data (20.000 titik data), dari mana saya ingin mengambil sampel berulang 10 titik data. Namun, setelah saya mengambil 10 poin data itu, saya ingin mereka tidak dipilih lagi. Saya sudah mencoba menggunakan samplefungsi ini, tetapi sepertinya tidak memiliki opsi untuk...
Saya mencoba mencari tahu apa perbedaan antara uji- dan uji- .ztttzzz Sejauh yang saya tahu, untuk kedua kelas tes, seseorang menggunakan statistik tes yang sama, sesuatu dalam bentuk b^- Cseˆ( b^)b^−Cse^(b^)\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})} di mana adalah beberapa...
Apakah ada perbedaan eksplisit antara perkiraan dalam-sampel dan perkiraan out-of-sampel pseudo . Keduanya dimaksudkan dalam konteks mengevaluasi dan membandingkan model
Dalam paparan kelas saya untuk data mining, metode ketidaksepakatan diperkenalkan sebagai cara menilai kinerja model. Namun, ketika saya mengambil kelas pertama saya pada model linear, ini tidak diperkenalkan sebagai sarana validasi atau penilaian model. Penelitian online saya juga tidak...
Kompetisi Kaggle menentukan peringkat akhir berdasarkan set tes yang diadakan. Satu set tes yang diadakan adalah sampel; mungkin tidak mewakili populasi yang dimodelkan. Karena setiap pengiriman seperti hipotesis, algoritme yang memenangkan kompetisi mungkin saja, secara kebetulan, akhirnya cocok...
Saya memiliki kumpulan data yang berisi jumlah tindakan yang dilakukan oleh individu selama 7 hari. Tindakan spesifik seharusnya tidak relevan untuk pertanyaan ini. Berikut adalah beberapa statistik deskriptif untuk kumpulan data: JarakBerartiPerbedaanJumlah pengamatan0 -
Saya mencari saran tentang bagaimana menganalisis data survei yang kompleks dengan model bertingkat di R. Saya telah menggunakan surveypaket ini untuk menentukan probabilitas pemilihan yang tidak setara dalam model satu tingkat, tetapi paket ini tidak memiliki fungsi untuk pemodelan bertingkat. The...
Saya tahu bahwa kami menggunakan untuk memperkirakan variasi populasi. Saya ingat sebuah video dari Khan Academy di mana intuisi yang diberikan adalah bahwa estimasi rata-rata kami mungkin sedikit berbeda dengan yang sebenarnya sehingga jarak akan benar-benar lebih besar, jadi kami membaginya...
Jerome Cornfield telah menulis: Salah satu buah terbaik dari revolusi Nelayan adalah gagasan pengacakan, dan ahli statistik yang menyetujui beberapa hal lain setidaknya telah menyetujui hal ini. Namun terlepas dari kesepakatan ini dan meskipun penggunaan prosedur alokasi acak yang meluas secara...
SurveyMonkey memiliki langkah-langkah dan bagan untuk Anda mengetahui ukuran sampel apa yang Anda butuhkan untuk margin kesalahan atau interval kepercayaan tertentu, berdasarkan pada ukuran populasi Anda. Ukuran sampel SurveyMonkey Apakah bagan ini mengabaikan fakta bahwa Anda tidak akan...
Saya memiliki dataset dengan 26 fitur dan 31000 baris. Ini adalah dataset dari 38 subjek. Ini untuk sistem biometrik. Jadi saya ingin dapat mengidentifikasi mata pelajaran. Untuk memiliki set pengujian, saya tahu saya harus menghapus beberapa nilai. Jadi apa yang lebih baik untuk dilakukan dan...
Saya punya pertanyaan yang menurut saya akan sangat mendasar bagi banyak pengguna. Saya menggunakan model regresi linier untuk (i) menyelidiki hubungan beberapa variabel penjelas dan variabel respons saya dan (ii) memprediksi variabel respons saya menggunakan variabel penjelas. Satu variabel...
Dalam pengaturan binomial, variabel acak, X, yang memberikan jumlah keberhasilan didistribusikan secara biner. Proporsi sampel kemudian dapat dihitung sebagai mana adalah ukuran sampel Anda. Buku teks saya menyatakan ituXnXn\frac{X}{n}nnn Proporsi ini tidak memiliki distribusi binomial namun...
Saya tahu ini mungkin telah dibahas di tempat lain, tetapi saya belum dapat menemukan jawaban yang jelas. Saya mencoba menggunakan rumus untuk menghitung out-of-sample dari model regresi linier, di mana adalah jumlah residu kuadrat dan adalah jumlah total kuadrat. Untuk set pelatihan, jelas ituR 2...
Sejauh yang saya lihat, pendapat cenderung berbeda tentang ini. Praktik terbaik tentu akan menentukan menggunakan validasi silang (terutama jika membandingkan RF dengan algoritma lain pada dataset yang sama). Di sisi lain, sumber asli menyatakan bahwa fakta kesalahan OOB dihitung selama pelatihan...
Ini hanya contoh yang saya temui beberapa kali, jadi saya tidak punya data sampel. Menjalankan model regresi linier di R: a.lm = lm(Y ~ x1 + x2) x1adalah variabel kontinu. x2bersifat kategorikal dan memiliki tiga nilai, mis. "Rendah", "Sedang" dan "Tinggi". Namun output yang diberikan oleh R akan...
Metode ansambel berbasis pohon seperti Hutan Acak, dan turunan berikutnya (misalnya, hutan kondisional), semua dimaksudkan untuk berguna dalam apa yang disebut masalah "kecil n , p besar ", untuk mengidentifikasi kepentingan variabel relatif. Memang, ini tampaknya menjadi masalah, tetapi pertanyaan...
Saya sedang mengerjakan suatu algoritma yang perlu menghitung ukuran satu set yang dihasilkan oleh persimpangan setidaknya 2 set. Lebih spesifik: z=|A0∩…∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | Set yang berpotongan dihasilkan oleh query SQL, dan dalam upaya untuk menjaga...