Saya mencoba mempelajari statistik karena saya menemukan itu sangat lazim sehingga melarang saya belajar beberapa hal jika saya tidak memahaminya dengan benar. Saya mengalami kesulitan memahami gagasan tentang distribusi sampling dari rata-rata sampel. Saya tidak dapat memahami cara beberapa buku dan situs menjelaskannya. Saya pikir saya memiliki pemahaman tetapi tidak yakin apakah itu benar. Di bawah ini adalah upaya saya untuk memahaminya.
Ketika kita berbicara tentang beberapa fenomena yang berdistribusi normal, umumnya (tidak selalu) menyangkut populasi.
Kami ingin menggunakan statistik inferensial untuk memprediksi beberapa hal tentang beberapa populasi, tetapi tidak memiliki semua data. Kami menggunakan pengambilan sampel acak dan setiap sampel dengan ukuran n sama kemungkinannya untuk dipilih.
Jadi kami mengambil banyak sampel, katakanlah 100 dan kemudian distribusi rata-rata sampel tersebut akan mendekati normal sesuai dengan teorema batas pusat. Rata-rata dari sampel berarti akan mendekati rata-rata populasi.
Sekarang yang saya tidak mengerti adalah banyak kali Anda melihat "Sampel 100 orang ..." Bukankah kita membutuhkan sampel 10 atau 100 sampel yang terdiri dari 100 orang untuk memperkirakan populasi rata-rata? Atau apakah ini kasus bahwa kita dapat mengambil sampel tunggal yang cukup besar, katakanlah 1000 dan kemudian katakan bahwa rata-rata akan mendekati rata-rata populasi? ATAU apakah kita mengambil sampel 1000 orang dan kemudian mengambil 100 sampel acak 100 orang di setiap sampel dari 1.000 orang asli yang kami ambil dan kemudian menggunakannya sebagai perkiraan kami?
Apakah mengambil sampel yang cukup besar untuk mendekati rata-rata (hampir) selalu berhasil? Apakah populasi bahkan perlu normal agar ini berfungsi?
sample std deviation / square root(n)
- akar kuadrat dari n bagian memberitahu kita bahwa kita mendapatkan hasil yang semakin berkurang pada akurasi estimasi untuk kenaikan tetap sebagai ukuran sampel menjadi lebih besar (mis. pindah dari 10 menjadi 20 orang dalam sampel meningkatkan akurasi estimasi lebih dari 210 hingga 220 orang.)sumber
Distribusi sampling dari rata-rata adalah distribusi SEMUA sampel dengan ukuran tertentu. Rata-rata dari dist sampel sama dengan rata-rata populasi. Ketika kita berbicara tentang pengambilan sampel dari mean untuk sampel dengan ukuran tertentu, kita tidak berbicara tentang satu sampel atau bahkan seribu sampel, tetapi semua sampel.
sumber
Dist sampling mean tidak ada hubungannya dengan interval kepercayaan. Itu konsep lain. Untuk sampel dist, populasi bisa normal atau tidak normal a) Jika pop normal maka sampel rata-rata akan normal untuk ukuran sampel apa pun. b) Jika pop tidak normal maka 1) dist sampling rata-rata TIDAK DAPAT dianggap normal, Kecuali jika ukuran sampel adalah 30 atau lebih. Kemudian The Central Limit Theorem memberi tahu kita bahwa pengambilan sampel dist dapat dianggap normal.
Anda berbicara tentang memprediksi. Memprediksi juga tidak ada hubungannya dengan ini. Anda terlalu banyak memasukkan samp samp. Samp dist hanyalah Semua sampel dan kemudian mean diambil. Dan rata-rata dari semua sampel ini, mu sub x bar, sama dengan rata-rata populasi, mu dan dist sampel pengambilan sampel, sigma sub x bar = sigma dibagi dengan akar kuadrat dari n. (Kami tidak akan berbicara tentang faktor koreksi pop hingga. Ambil stat Anda untuk nilai nominal. Jangan terlalu banyak membaca konsep. Fist memahami konsep dasar.
PS Samp dist dari mean tidak ada untuk melakukan abput pr
sumber
Saya telah memikirkan masalah data besar, dan melihat beberapa posting ini pagi ini. Saya tidak berpikir ini adalah masalah sepele sama sekali, kembali perbedaan antara menganalisis data 1000 sebagai satu set dibandingkan dengan menganalisis 10 set 100. Secara teori , jika hipotesis nol benar bahwa data tersebut iid, itu membuat tidak ada perbedaan. Namun, pengelompokan dan pola dalam data tidak ditangani sama sekali jika seseorang hanya mengambil rata-rata dari 1000 data dan mengutip perkiraan rata-rata dan kesalahan standar yang terkait.
Kesimpulan saya sampai pada, melihat beberapa halaman di stackexchange dan wikipedia, adalah bahwa data besar memungkinkan yang jelas untuk dilihat. Jika ada fitur menarik dalam populasi secara keseluruhan, satu set data besar akan menunjukkannya sejelas hari. Jadi jika saya memiliki dataset yang sangat besar, yang dapat saya lihat secara visual, saya tidak akan melompat dan mengambil langkah-langkah ringkasan singkat tanpa terlebih dahulu mencari fitur yang sangat jelas. Dari pelajaran awal saya dalam inferensi statistik saya telah diajarkan untuk melihat grafik dan visualisasi data sebagai langkah pertama. Saya tidak bisa cukup menekankan itu. Jika dataset terlalu besar untuk dilihat manusia pada layar, maka itu harus disampel dari resolusi yang dapat dibaca oleh manusia.
sumber