Mengapa menambah ukuran sampel menurunkan varians (pengambilan sampel)?

35

Gambar besar:

Saya mencoba memahami bagaimana meningkatkan ukuran sampel meningkatkan kekuatan percobaan. Slide dosen saya menjelaskan ini dengan gambar 2 distribusi normal, satu untuk hipotesis-nol dan satu untuk hipotesis-alternatif dan ambang keputusan c di antara mereka. Mereka berpendapat bahwa peningkatan ukuran sampel akan menurunkan varians dan dengan demikian menyebabkan kurtosis yang lebih tinggi, mengurangi area bersama di bawah kurva dan kemungkinan kesalahan tipe II.

Gambar kecil:

Saya tidak mengerti bagaimana ukuran sampel yang lebih besar akan menurunkan varians.
Saya berasumsi Anda hanya menghitung varians sampel dan menggunakannya sebagai parameter dalam distribusi normal.

Saya mencoba:

  • Google , tetapi sebagian besar jawaban yang diterima memiliki 0 upvotes atau hanya contoh
  • berpikir : Dengan hukum bilangan besar, setiap nilai akhirnya harus stabil di sekitar nilai yang mungkin sesuai dengan distribusi normal yang kita asumsikan. Dan varians karena itu harus menyatu dengan varian dari distribusi normal yang kami asumsikan. Tetapi apa varian dari distribusi normal itu dan apakah itu nilai minimum yaitu dapatkah kita memastikan varians sampel kita berkurang ke nilai itu?
pengguna2740
sumber
Eksperimen pikiran Anda berkaitan dengan data yang terdistribusi normal tetapi juga berlaku untuk data yang diambil dari banyak distribusi lainnya (seperti dicatat oleh @Aksakal, tidak semua! Cauchy adalah contoh perilaku buruk yang sering dikutip). Untuk data binomial ada diskusi yang baik tentang bagaimana kekuasaan dan standard error bervariasi dengan ukuran sampel di stats.stackexchange.com/q/87730/22228
Silverfish
1
Karena Anda baru mengenal CrossValidated, izinkan saya menunjukkan bahwa jika Anda menerima apa yang Anda anggap sebagai jawaban yang memuaskan, Anda harus mempertimbangkan menandainya sebagai "diterima" dengan mengklik tanda centang hijau di sebelah kiri itu. Ini memberikan reputasi tambahan untuk penjawab dan juga menandai pertanyaan telah diselesaikan.
Amoeba berkata Reinstate Monica
Saya memikirkannya seperti ini: setiap titik baru memiliki informasi unik. Poin tak terbatas memiliki cukup untuk membuat perkiraan yang sempurna. Ketika kami menambahkan semakin banyak titik sampel baru, perbedaan antara informasi yang kami butuhkan untuk memiliki perkiraan yang sempurna dan informasi yang kami miliki semakin kecil.
EngrStudent
Ini adalah sumber kebingungan: bukan varians sampel yang berkurang, tetapi varians sampel varians. Varians sampel adalah penaksir (karenanya merupakan variabel acak). Jika data Anda berasal dari N normal (0, 5), varians sampel akan mendekati 5. Seberapa dekat? Tergantung pada varians estimator Anda untuk varians sampel. Dengan 100 poin data, Anda dapat menemukan sekitar 4,92. Dengan 1000, Anda akan menemukan sekitar 4,98. Dengan 10.000, Anda akan menemukan 5.0001. Begitu juga keakuratan pengukuran Anda yang meningkat, bukan pengukuran Anda sendiri.
Semut

Jawaban:

32

Standar deviasi rata-rata lebih kecil dari standar deviasi pengamatan individu. [Di sini saya akan mengasumsikan pengamatan independen yang terdistribusi secara identik dengan varians populasi terbatas; sesuatu yang mirip dapat dikatakan jika Anda mengendurkan dua kondisi pertama.]

Ini adalah konsekuensi dari fakta sederhana bahwa standar deviasi dari jumlah dua variabel acak lebih kecil dari jumlah standar deviasi (itu hanya bisa sama ketika dua variabel berkorelasi sempurna).

Bahkan, ketika Anda berurusan dengan variabel acak yang tidak berkorelasi, kita dapat mengatakan sesuatu yang lebih spesifik: varians dari jumlah varian adalah jumlah varians mereka.

Ini berarti bahwa dengan bebas (atau bahkan tidak berkorelasi) dengan distribusi yang sama, varians rata-rata adalah varians individu yang dibagi dengan ukuran sampel .n

Sejalan dengan variasi independen (atau bahkan tidak berkorelasi) dengan distribusi yang sama, simpangan baku rata-rata mereka adalah simpangan baku seorang individu yang dibagi dengan akar kuadrat dari ukuran sampel:n

σX¯=σ/n .

Jadi, saat Anda menambahkan lebih banyak data, Anda mendapatkan perkiraan yang semakin tepat dari rata-rata grup. Efek serupa berlaku dalam masalah regresi.

Karena kita bisa mendapatkan perkiraan rata-rata yang lebih tepat dengan meningkatkan ukuran sampel, kita lebih mudah membedakan alat yang berdekatan - walaupun distribusi tumpang tindih sedikit, dengan mengambil ukuran sampel yang besar kita masih bisa memperkirakan Populasi berarti cukup akurat untuk mengatakan bahwa mereka tidak sama.

Glen_b -Reinstate Monica
sumber
8

Variabilitas yang menyusut ketika N meningkat adalah variabilitas mean sampel, sering dinyatakan sebagai kesalahan standar. Atau, dalam istilah lain, kepastian kebenaran rata-rata sampel meningkat.

Bayangkan Anda menjalankan eksperimen di mana Anda mengumpulkan 3 pria dan 3 wanita dan mengukur ketinggian mereka. Seberapa yakin Anda bahwa ketinggian rata-rata dari setiap kelompok adalah rata-rata sebenarnya dari populasi pria dan wanita yang terpisah? Saya harus berpikir bahwa Anda tidak akan terlalu yakin sama sekali. Anda dapat dengan mudah mengumpulkan sampel baru 3 dan menemukan cara baru beberapa inci dari yang pertama. Cukup banyak percobaan berulang seperti ini bahkan bisa mengakibatkan wanita dinyatakan lebih tinggi daripada pria karena caranya akan sangat bervariasi. Dengan N rendah Anda tidak memiliki banyak kepastian dalam mean dari sampel dan itu sangat bervariasi di seluruh sampel.

Sekarang bayangkan 10.000 pengamatan di setiap kelompok. Akan sangat sulit untuk menemukan 10.000 sampel baru yang memiliki cara yang sangat berbeda satu sama lain. Mereka akan jauh lebih sedikit variabel dan Anda akan lebih yakin akan keakuratannya.

Jika Anda dapat menerima pemikiran ini maka kami dapat memasukkannya ke dalam perhitungan statistik Anda sebagai kesalahan standar. Seperti yang Anda lihat dari persamaannya, ini merupakan estimasi parameter, (yang seharusnya menjadi lebih akurat ketika n bertambah) dibagi dengan nilai yang selalu meningkat dengan n, . Kesalahan standar itu mewakili variabilitas cara atau efek dalam perhitungan Anda. Semakin kecil, semakin kuat uji statistik Anda.σn

Berikut adalah sedikit simulasi dalam R untuk menunjukkan hubungan antara kesalahan standar dan standar deviasi dari banyak banyak ulangan percobaan awal. Dalam hal ini kita akan mulai dengan rata-rata populasi 100 dan standar deviasi 15.

mu <- 100
s <- 50
n <- 5
nsim <- 10000 # number of simulations
# theoretical standard error
s / sqrt(n)
# simulation of experiment and the standard deviations of their means
y <- replicate( nsim, mean( rnorm(n, mu, s) ) )
sd(y)

Perhatikan bagaimana standar deviasi akhir dekat dengan kesalahan standar teoritis. Dengan bermain dengan variabel n di sini Anda dapat melihat ukuran variabilitas akan semakin kecil dengan meningkatnya n.

[Sebagai tambahan, kurtosis dalam grafik tidak benar-benar berubah (dengan asumsi mereka adalah distribusi normal). Menurunkan varians tidak mengubah kurtosis tetapi distribusinya akan terlihat lebih sempit. Satu-satunya cara untuk memeriksa perubahan kurtosis secara visual adalah menempatkan distribusi pada skala yang sama.]

John
sumber
Anda benar, lebih banyak pemikiran harus dilibatkan di pihak saya di masa depan: P
j
Dua hal yang tidak sepenuhnya jelas: (1) Apakah kurva lonceng yang dibicarakan OP tentang distribusi sampel berarti? (2) Apakah ukuran sampel dipertimbangkan untuk distribusi rata-rata sampel kelompok kontrol dan distribusi rata-rata sampel kelompok eksperimen?
Lenar Hoyt
4

Jika Anda ingin tahu berapa berat rata-rata warga negara Amerika, maka dalam kasus yang ideal Anda akan segera meminta setiap warga negara untuk melangkah pada skala, dan mengumpulkan data. Anda akan mendapatkan jawaban yang tepat . Ini sangat sulit, jadi mungkin Anda bisa mendapatkan beberapa warga untuk meningkatkan skala, menghitung rata-rata dan mendapatkan gambaran tentang berapa rata-rata populasi. Apakah Anda berharap bahwa rata-rata sampel persis sama dengan rata-rata populasi? Saya harap tidak.

Sekarang, apakah Anda setuju bahwa jika Anda memiliki semakin banyak orang, pada titik tertentu kita akan semakin dekat dengan populasi rata-rata? Kita harus melakukannya, bukan? Pada akhirnya, kebanyakan orang yang bisa kita dapatkan adalah seluruh populasi, dan artinya adalah apa yang kita cari. Inilah intuisi.

Ini adalah eksperimen pemikiran yang ideal. Pada kenyataannya, ada komplikasi. Saya akan memberi Anda dua.

  • Bayangkan bahwa data tersebut berasal dari distribusi Cauchy . Anda dapat menambah sampel Anda tanpa batas, namun variansnya tidak akan berkurang. Distribusi ini tidak memiliki varian populasi. Bahkan, sebenarnya, tidak ada sampel berarti juga. Ini menyedihkan. Hebatnya, distribusi ini cukup nyata, muncul di sana-sini dalam fisika.
  • Bayangkan Anda memutuskan untuk melanjutkan tugas menentukan bobot rata-rata warga negara Amerika. Jadi, ambil skala Anda dan pergi dari rumah ke rumah. Ini akan membawa Anda bertahun-tahun. Pada saat Anda mengumpulkan jutaan pengamatan, beberapa warga dalam kumpulan data Anda akan banyak mengubah berat badan mereka, beberapa telah meninggal, dll. Intinya adalah bahwa peningkatan ukuran sampel dalam kasus ini tidak membantu Anda.
Aksakal
sumber
1
Saya menduga Anda berarti "berat rata-rata" dalam kalimat pertama Anda. Saya suka menggunakan eksperimen pikiran. Komplikasi lain dapat datang dari alat ukur Anda - yaitu skala yang akan aus, mungkin memiliki kesalahan paralaks atau kesalahan pengguna yang memperkenalkan variabilitas lain.
MarkR
1

Saya percaya bahwa Hukum Angka Besar menjelaskan mengapa varians (kesalahan standar) turun ketika ukuran sampel meningkat. Artikel Wikipedia tentang ini mengatakan:

Menurut hukum, rata-rata hasil yang diperoleh dari sejumlah besar uji coba harus dekat dengan nilai yang diharapkan, dan akan cenderung menjadi lebih dekat karena lebih banyak uji coba dilakukan.

Dalam hal Teorema Limit Pusat:

Ketika menggambar sampel acak tunggal, semakin besar sampel semakin dekat rata-rata sampel dengan rata-rata populasi (dalam kutipan di atas, pikirkan "jumlah uji coba" sebagai "ukuran sampel", sehingga setiap "uji coba" adalah pengamatan ). Oleh karena itu, ketika menggambar jumlah sampel acak yang tidak terbatas, varians dari distribusi sampling akan semakin rendah semakin besar ukuran masing-masing sampel.

Dengan kata lain, bentuk lonceng akan lebih sempit ketika masing-masing sampel besar, bukan kecil, karena dengan cara itu setiap sampel rata-rata akan lebih dekat ke pusat lonceng.

Jose Vila
sumber
0

Ketika ukuran sampel meningkat, varians sampel (variasi antara pengamatan) meningkat tetapi varians mean sampel (kesalahan standar) menurun dan karenanya presisi meningkat.

Dr Vikas Doshi
sumber