Gambar besar:
Saya mencoba memahami bagaimana meningkatkan ukuran sampel meningkatkan kekuatan percobaan. Slide dosen saya menjelaskan ini dengan gambar 2 distribusi normal, satu untuk hipotesis-nol dan satu untuk hipotesis-alternatif dan ambang keputusan c di antara mereka. Mereka berpendapat bahwa peningkatan ukuran sampel akan menurunkan varians dan dengan demikian menyebabkan kurtosis yang lebih tinggi, mengurangi area bersama di bawah kurva dan kemungkinan kesalahan tipe II.
Gambar kecil:
Saya tidak mengerti bagaimana ukuran sampel yang lebih besar akan menurunkan varians.
Saya berasumsi Anda hanya menghitung varians sampel dan menggunakannya sebagai parameter dalam distribusi normal.
Saya mencoba:
- Google , tetapi sebagian besar jawaban yang diterima memiliki 0 upvotes atau hanya contoh
- berpikir : Dengan hukum bilangan besar, setiap nilai akhirnya harus stabil di sekitar nilai yang mungkin sesuai dengan distribusi normal yang kita asumsikan. Dan varians karena itu harus menyatu dengan varian dari distribusi normal yang kami asumsikan. Tetapi apa varian dari distribusi normal itu dan apakah itu nilai minimum yaitu dapatkah kita memastikan varians sampel kita berkurang ke nilai itu?
Jawaban:
Standar deviasi rata-rata lebih kecil dari standar deviasi pengamatan individu. [Di sini saya akan mengasumsikan pengamatan independen yang terdistribusi secara identik dengan varians populasi terbatas; sesuatu yang mirip dapat dikatakan jika Anda mengendurkan dua kondisi pertama.]
Ini adalah konsekuensi dari fakta sederhana bahwa standar deviasi dari jumlah dua variabel acak lebih kecil dari jumlah standar deviasi (itu hanya bisa sama ketika dua variabel berkorelasi sempurna).
Bahkan, ketika Anda berurusan dengan variabel acak yang tidak berkorelasi, kita dapat mengatakan sesuatu yang lebih spesifik: varians dari jumlah varian adalah jumlah varians mereka.
Ini berarti bahwa dengan bebas (atau bahkan tidak berkorelasi) dengan distribusi yang sama, varians rata-rata adalah varians individu yang dibagi dengan ukuran sampel .n
Sejalan dengan variasi independen (atau bahkan tidak berkorelasi) dengan distribusi yang sama, simpangan baku rata-rata mereka adalah simpangan baku seorang individu yang dibagi dengan akar kuadrat dari ukuran sampel:n
Jadi, saat Anda menambahkan lebih banyak data, Anda mendapatkan perkiraan yang semakin tepat dari rata-rata grup. Efek serupa berlaku dalam masalah regresi.
Karena kita bisa mendapatkan perkiraan rata-rata yang lebih tepat dengan meningkatkan ukuran sampel, kita lebih mudah membedakan alat yang berdekatan - walaupun distribusi tumpang tindih sedikit, dengan mengambil ukuran sampel yang besar kita masih bisa memperkirakan Populasi berarti cukup akurat untuk mengatakan bahwa mereka tidak sama.
sumber
Variabilitas yang menyusut ketika N meningkat adalah variabilitas mean sampel, sering dinyatakan sebagai kesalahan standar. Atau, dalam istilah lain, kepastian kebenaran rata-rata sampel meningkat.
Bayangkan Anda menjalankan eksperimen di mana Anda mengumpulkan 3 pria dan 3 wanita dan mengukur ketinggian mereka. Seberapa yakin Anda bahwa ketinggian rata-rata dari setiap kelompok adalah rata-rata sebenarnya dari populasi pria dan wanita yang terpisah? Saya harus berpikir bahwa Anda tidak akan terlalu yakin sama sekali. Anda dapat dengan mudah mengumpulkan sampel baru 3 dan menemukan cara baru beberapa inci dari yang pertama. Cukup banyak percobaan berulang seperti ini bahkan bisa mengakibatkan wanita dinyatakan lebih tinggi daripada pria karena caranya akan sangat bervariasi. Dengan N rendah Anda tidak memiliki banyak kepastian dalam mean dari sampel dan itu sangat bervariasi di seluruh sampel.
Sekarang bayangkan 10.000 pengamatan di setiap kelompok. Akan sangat sulit untuk menemukan 10.000 sampel baru yang memiliki cara yang sangat berbeda satu sama lain. Mereka akan jauh lebih sedikit variabel dan Anda akan lebih yakin akan keakuratannya.
Jika Anda dapat menerima pemikiran ini maka kami dapat memasukkannya ke dalam perhitungan statistik Anda sebagai kesalahan standar. Seperti yang Anda lihat dari persamaannya, ini merupakan estimasi parameter, (yang seharusnya menjadi lebih akurat ketika n bertambah) dibagi dengan nilai yang selalu meningkat dengan n, . Kesalahan standar itu mewakili variabilitas cara atau efek dalam perhitungan Anda. Semakin kecil, semakin kuat uji statistik Anda.√σ n−−√
Berikut adalah sedikit simulasi dalam R untuk menunjukkan hubungan antara kesalahan standar dan standar deviasi dari banyak banyak ulangan percobaan awal. Dalam hal ini kita akan mulai dengan rata-rata populasi 100 dan standar deviasi 15.
Perhatikan bagaimana standar deviasi akhir dekat dengan kesalahan standar teoritis. Dengan bermain dengan variabel n di sini Anda dapat melihat ukuran variabilitas akan semakin kecil dengan meningkatnya n.
[Sebagai tambahan, kurtosis dalam grafik tidak benar-benar berubah (dengan asumsi mereka adalah distribusi normal). Menurunkan varians tidak mengubah kurtosis tetapi distribusinya akan terlihat lebih sempit. Satu-satunya cara untuk memeriksa perubahan kurtosis secara visual adalah menempatkan distribusi pada skala yang sama.]
sumber
Jika Anda ingin tahu berapa berat rata-rata warga negara Amerika, maka dalam kasus yang ideal Anda akan segera meminta setiap warga negara untuk melangkah pada skala, dan mengumpulkan data. Anda akan mendapatkan jawaban yang tepat . Ini sangat sulit, jadi mungkin Anda bisa mendapatkan beberapa warga untuk meningkatkan skala, menghitung rata-rata dan mendapatkan gambaran tentang berapa rata-rata populasi. Apakah Anda berharap bahwa rata-rata sampel persis sama dengan rata-rata populasi? Saya harap tidak.
Sekarang, apakah Anda setuju bahwa jika Anda memiliki semakin banyak orang, pada titik tertentu kita akan semakin dekat dengan populasi rata-rata? Kita harus melakukannya, bukan? Pada akhirnya, kebanyakan orang yang bisa kita dapatkan adalah seluruh populasi, dan artinya adalah apa yang kita cari. Inilah intuisi.
Ini adalah eksperimen pemikiran yang ideal. Pada kenyataannya, ada komplikasi. Saya akan memberi Anda dua.
sumber
Saya percaya bahwa Hukum Angka Besar menjelaskan mengapa varians (kesalahan standar) turun ketika ukuran sampel meningkat. Artikel Wikipedia tentang ini mengatakan:
Dalam hal Teorema Limit Pusat:
Ketika menggambar sampel acak tunggal, semakin besar sampel semakin dekat rata-rata sampel dengan rata-rata populasi (dalam kutipan di atas, pikirkan "jumlah uji coba" sebagai "ukuran sampel", sehingga setiap "uji coba" adalah pengamatan ). Oleh karena itu, ketika menggambar jumlah sampel acak yang tidak terbatas, varians dari distribusi sampling akan semakin rendah semakin besar ukuran masing-masing sampel.
Dengan kata lain, bentuk lonceng akan lebih sempit ketika masing-masing sampel besar, bukan kecil, karena dengan cara itu setiap sampel rata-rata akan lebih dekat ke pusat lonceng.
sumber
Ketika ukuran sampel meningkat, varians sampel (variasi antara pengamatan) meningkat tetapi varians mean sampel (kesalahan standar) menurun dan karenanya presisi meningkat.
sumber