Bagaimana distribusi sampel dari sampel berarti perkiraan populasi?

16

Saya mencoba mempelajari statistik karena saya menemukan itu sangat lazim sehingga melarang saya belajar beberapa hal jika saya tidak memahaminya dengan benar. Saya mengalami kesulitan memahami gagasan tentang distribusi sampling dari rata-rata sampel. Saya tidak dapat memahami cara beberapa buku dan situs menjelaskannya. Saya pikir saya memiliki pemahaman tetapi tidak yakin apakah itu benar. Di bawah ini adalah upaya saya untuk memahaminya.

Ketika kita berbicara tentang beberapa fenomena yang berdistribusi normal, umumnya (tidak selalu) menyangkut populasi.

Kami ingin menggunakan statistik inferensial untuk memprediksi beberapa hal tentang beberapa populasi, tetapi tidak memiliki semua data. Kami menggunakan pengambilan sampel acak dan setiap sampel dengan ukuran n sama kemungkinannya untuk dipilih.

Jadi kami mengambil banyak sampel, katakanlah 100 dan kemudian distribusi rata-rata sampel tersebut akan mendekati normal sesuai dengan teorema batas pusat. Rata-rata dari sampel berarti akan mendekati rata-rata populasi.

Sekarang yang saya tidak mengerti adalah banyak kali Anda melihat "Sampel 100 orang ..." Bukankah kita membutuhkan sampel 10 atau 100 sampel yang terdiri dari 100 orang untuk memperkirakan populasi rata-rata? Atau apakah ini kasus bahwa kita dapat mengambil sampel tunggal yang cukup besar, katakanlah 1000 dan kemudian katakan bahwa rata-rata akan mendekati rata-rata populasi? ATAU apakah kita mengambil sampel 1000 orang dan kemudian mengambil 100 sampel acak 100 orang di setiap sampel dari 1.000 orang asli yang kami ambil dan kemudian menggunakannya sebagai perkiraan kami?

Apakah mengambil sampel yang cukup besar untuk mendekati rata-rata (hampir) selalu berhasil? Apakah populasi bahkan perlu normal agar ini berfungsi?

mergesort
sumber

Jawaban:

9

Saya pikir Anda mungkin membingungkan distribusi sampling yang diharapkan dari rata-rata (yang akan kami hitung berdasarkan sampel tunggal) dengan proses (biasanya hipotetis) mensimulasikan apa yang akan terjadi jika kami melakukan sampel berulang kali dari populasi yang sama beberapa kali.

Untuk setiap ukuran sampel tertentu (bahkan n = 2) kami akan mengatakan bahwa mean sampel (dari dua orang) memperkirakan rata-rata populasi. Tetapi akurasi estimasi - yaitu, seberapa baik pekerjaan yang telah kami lakukan untuk mengestimasi rata-rata populasi berdasarkan data sampel kami, sebagaimana tercermin dalam kesalahan standar rata-rata - akan lebih buruk daripada jika kami memiliki 20 atau 200 orang dalam sampel kami. Ini relatif intuitif (sampel yang lebih besar memberikan akurasi estimasi yang lebih baik).

Kami kemudian akan menggunakan kesalahan standar untuk menghitung interval kepercayaan, yang (dalam hal ini) didasarkan di sekitar distribusi Normal (kami mungkin akan menggunakan distribusi-t dalam sampel kecil karena standar deviasi populasi sering diremehkan dalam sampel kecil, mengarah ke kesalahan standar yang terlalu optimis.)

Dalam menjawab pertanyaan terakhir Anda, tidak, kami tidak selalu memerlukan populasi berdistribusi normal untuk menerapkan metode estimasi ini - teorema batas pusat menunjukkan bahwa distribusi sampling rata-rata (diperkirakan, sekali lagi, dari sampel tunggal) akan cenderung ikuti distribusi normal bahkan ketika populasi yang mendasari memiliki distribusi non-Normal. Ini biasanya sesuai untuk ukuran sampel "lebih besar".

Karena itu, ketika Anda memiliki populasi non-normal yang menjadi sampel Anda, rerata mungkin bukan statistik ringkasan yang tepat, bahkan jika distribusi sampel untuk rerata itu dapat dianggap andal.

James Stanley
sumber
jadi apakah pada dasarnya saya terlalu terpaku pada pemahaman teoretis yang mendasari bagaimana beberapa hal ini bekerja? Apakah hal yang benar-benar menarik di sini adalah interval kepercayaan? Dengan kata lain jika saya ingin mempublikasikan penelitian katakanlah jumlah jam rata-rata orang dewasa di AS tidur, dan saya mengambil sampel 5.000 dan interval kepercayaan saya 99,9% rata-rata antara 6,46 dan 6,54 maka saya bisa pergi depan dan publikasikan penelitian saya yang mengatakan "dengan percaya diri" bahwa rata-rata orang dewasa di AS tidur 6,5 jam?
mergesort
2
Di mana Anda berkata: " katakan" dengan percaya diri "bahwa rata-rata orang dewasa di AS tidur 6,5 jam ". Yah, tidak, Anda bisa cukup percaya diri itu sebenarnya tidak rata-rata 6,5 ​​jam. Anda hanya dapat yakin bahwa itu hampir 6,5 jam, atau Anda bisa yakin bahwa '6,5 jam hingga 5 menit terdekat', atau semacamnya. Hanya rentang yang akan memiliki tingkat kepercayaan yang terkait dengannya.
Glen_b -Reinstate Monica
1
@Glen_b sampai pada inti permasalahan - kami tidak pernah dapat mengatakan bahwa kami yakin bahwa kami telah memperkirakan nilai populasi dengan tepat, tetapi kami memiliki beberapa gagasan tentang keakuratan proses estimasi kami.
James Stanley
@angrymonkey Saya pikir ini masih berguna untuk mendapatkan konsep yang mendasari pendekatan sampling berulang (disimulasikan). Juga, untuk memperkirakan berarti kita tidak perlu ukuran sampel "besar" - rumus untuk kesalahan standar rata-rata adalah sample std deviation / square root(n)- akar kuadrat dari n bagian memberitahu kita bahwa kita mendapatkan hasil yang semakin berkurang pada akurasi estimasi untuk kenaikan tetap sebagai ukuran sampel menjadi lebih besar (mis. pindah dari 10 menjadi 20 orang dalam sampel meningkatkan akurasi estimasi lebih dari 210 hingga 220 orang.)
James Stanley
bagus ... terima kasih banyak atas bantuannya. jadi CI hanya memungkinkan kita untuk mengatakan saya 95% yakin rata-rata orang tidur antara 6,45 dan 6,56 jam semalam? lalu mengapa beberapa artikel membuat klaim definitif ini seperti rata-rata orang menonton televisi 4,5 jam sehari? tentunya interval kepercayaan diri adalah sekitar 95% 4,43 dan 4,56
mergesort
10
  • σ2/nnn semakin besar, varians dari distribusi rata-rata semakin kecil, sehingga dalam batas, mean sampel cenderung ke nilai rata-rata populasi.
  • Jika Anda mengambil beberapa sampel independen, setiap mean sampel akan normal, dan rata-rata mean akan normal, dan cenderung ke mean yang sebenarnya.
  • Jika sampel Anda benar-benar dari distribusi yang sama (misalnya 100 sampel masing-masing 10), Anda akan membuat kesimpulan yang sama seperti jika Anda mengambil satu sampel besar 1000. (Tetapi di dunia nyata, sampel yang berbeda mungkin berbeda dalam cara yang satu tidak dapat diabaikan; lihat "desain blok acak".)
  • n
  • Jika Anda mengambil 100 sampel masing-masing 10, berarti sampel akan memiliki distribusi yang lebih terlihat normal daripada data asli, tetapi kurang normal daripada distribusi rata-rata keseluruhan.
  • Mengambil sampel besar juga akan membuat Anda mendekati normal.
  • Jika Anda ingin memperkirakan rata-rata populasi, tidak ada bedanya (secara teori) jika Anda mengambil sampel besar 1000 atau 100 sampel 10.
  • Namun dalam praktiknya, teori sampling orang dapat membagi sampel untuk alasan pengelompokan, stratifikasi, dan masalah lainnya. Mereka kemudian mempertimbangkan skema pengambilan sampel saat melakukan estimasi mereka. Tapi itu sangat penting untuk pertanyaan lain.
Placidia
sumber
di sebagian besar buku teks, mereka membawa Anda melalui gagasan tentang distribusi sampling dari cara sampel. Ini pada dasarnya memberitahu Anda, "hei lihat, jika Anda mengambil banyak sampel, itu cenderung normal, dan akan mendekati rata-rata populasi". Kemudian mereka memberi tahu Anda bahwa jika Anda mengambil sampel yang cukup besar, Anda bisa hanya mengambil satu. Apakah distribusi sampling dari sampel berarti seharusnya membuat Anda percaya bahwa Anda dapat mengambil satu sampel besar? Dengan kata lain, apa tujuan memahaminya? Apakah itu hanya untuk membantu Anda memahami intuisi di balik pengambilan sampel besar? mengabaikan gagasan pengambilan sampel theo
mergesort
Saya pikir @ "James Stanley" menjawab dengan sangat baik. Dalam setiap kasus kehidupan nyata, Anda mengambil sampel, menghitung rata-rata sampel, dan itulah perkiraan Anda.
Placidia
1

Distribusi sampling dari rata-rata adalah distribusi SEMUA sampel dengan ukuran tertentu. Rata-rata dari dist sampel sama dengan rata-rata populasi. Ketika kita berbicara tentang pengambilan sampel dari mean untuk sampel dengan ukuran tertentu, kita tidak berbicara tentang satu sampel atau bahkan seribu sampel, tetapi semua sampel.

Allen Moser
sumber
0

Dist sampling mean tidak ada hubungannya dengan interval kepercayaan. Itu konsep lain. Untuk sampel dist, populasi bisa normal atau tidak normal a) Jika pop normal maka sampel rata-rata akan normal untuk ukuran sampel apa pun. b) Jika pop tidak normal maka 1) dist sampling rata-rata TIDAK DAPAT dianggap normal, Kecuali jika ukuran sampel adalah 30 atau lebih. Kemudian The Central Limit Theorem memberi tahu kita bahwa pengambilan sampel dist dapat dianggap normal.

Anda berbicara tentang memprediksi. Memprediksi juga tidak ada hubungannya dengan ini. Anda terlalu banyak memasukkan samp samp. Samp dist hanyalah Semua sampel dan kemudian mean diambil. Dan rata-rata dari semua sampel ini, mu sub x bar, sama dengan rata-rata populasi, mu dan dist sampel pengambilan sampel, sigma sub x bar = sigma dibagi dengan akar kuadrat dari n. (Kami tidak akan berbicara tentang faktor koreksi pop hingga. Ambil stat Anda untuk nilai nominal. Jangan terlalu banyak membaca konsep. Fist memahami konsep dasar.

PS Samp dist dari mean tidak ada untuk melakukan abput pr

Allen Moser
sumber
Saya ingin tahu apakah jawaban ini dapat digabungkan dengan jawaban pertama Anda, alih-alih dimasukkan sebagai jawaban lain. Kami biasanya lebih suka Anda memiliki 1 jawaban per utas. (Namun ada pengecualian.) Anda dapat menambahkan materi ke jawaban yang ada, atau membuat perubahan, dengan mengklik "edit" abu-abu di bagian kiri bawahnya.
gung - Reinstate Monica
0

Saya telah memikirkan masalah data besar, dan melihat beberapa posting ini pagi ini. Saya tidak berpikir ini adalah masalah sepele sama sekali, kembali perbedaan antara menganalisis data 1000 sebagai satu set dibandingkan dengan menganalisis 10 set 100. Secara teori , jika hipotesis nol benar bahwa data tersebut iid, itu membuat tidak ada perbedaan. Namun, pengelompokan dan pola dalam data tidak ditangani sama sekali jika seseorang hanya mengambil rata-rata dari 1000 data dan mengutip perkiraan rata-rata dan kesalahan standar yang terkait.

Kesimpulan saya sampai pada, melihat beberapa halaman di stackexchange dan wikipedia, adalah bahwa data besar memungkinkan yang jelas untuk dilihat. Jika ada fitur menarik dalam populasi secara keseluruhan, satu set data besar akan menunjukkannya sejelas hari. Jadi jika saya memiliki dataset yang sangat besar, yang dapat saya lihat secara visual, saya tidak akan melompat dan mengambil langkah-langkah ringkasan singkat tanpa terlebih dahulu mencari fitur yang sangat jelas. Dari pelajaran awal saya dalam inferensi statistik saya telah diajarkan untuk melihat grafik dan visualisasi data sebagai langkah pertama. Saya tidak bisa cukup menekankan itu. Jika dataset terlalu besar untuk dilihat manusia pada layar, maka itu harus disampel dari resolusi yang dapat dibaca oleh manusia.

Olivia Grigg
sumber
Tolong jangan masuk posting Anda - untuk itulah nama pengguna di kanan bawah posting Anda.
Glen_b -Reinstate Monica