Latar Belakang
Saya memiliki variabel dengan distribusi yang tidak diketahui.
Saya memiliki 500 sampel, tetapi saya ingin menunjukkan ketepatan yang dapat saya gunakan untuk menghitung varians, misalnya untuk menyatakan bahwa ukuran sampel 500 sudah cukup. Saya juga tertarik untuk mengetahui ukuran sampel minimum yang akan diperlukan untuk memperkirakan varians dengan ketepatan .
Pertanyaan
Bagaimana saya bisa menghitung
- ketepatan estimasi varians saya yang diberikan ukuran sampel ? dari ?
- Bagaimana saya bisa menghitung jumlah sampel minimum yang diperlukan untuk memperkirakan varians dengan ketepatan ?
Contoh
Gambar 1 estimasi kepadatan parameter berdasarkan 500 sampel.
Gambar 2 Berikut adalah sebidang ukuran sampel pada sumbu x vs estimasi varians pada sumbu y yang telah saya hitung menggunakan sub-sampel dari sampel 500. Idenya adalah bahwa perkiraan akan konvergen ke varians yang benar dengan meningkatnya n .
Namun, estimasi tersebut tidak valid independen karena sampel yang digunakan untuk memperkirakan varians untuk tidak independen satu sama lain atau sampel yang digunakan untuk menghitung varians pada
Jawaban:
Untuk variabel acak iidX1,…,Xn , penaksir tidak bias untuk varians (yang dengan penyebut n - 1 ) memiliki varian:s2 n−1
di manaκ adalah kelebihan kurtosis dari distribusi (referensi: Wikipedia ). Jadi sekarang Anda perlu memperkirakan kurtosis distribusi Anda juga. Anda dapat menggunakan jumlah yang kadang-kadang digambarkan sebagai (juga dari Wikipedia ):γ2
Saya akan berasumsi bahwa jika Anda menggunakans sebagai perkiraan untuk σ dan γ2 sebagai perkiraan untuk κ , bahwa Anda mendapatkan perkiraan yang wajar untuk , walaupun saya tidak melihat jaminan bahwa itu tidak bias. Lihat apakah cocok dengan varians di antara himpunan bagian dari 500 poin data Anda secara wajar, dan jika tidak khawatir tentang hal itu lagi :)Var(s2)
sumber
moments
library(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Belajar varians itu sulit.
Dibutuhkan (mungkin secara mengejutkan) sejumlah besar sampel untuk memperkirakan varians dengan baik dalam banyak kasus. Di bawah ini, saya akan menunjukkan pengembangan untuk kasus "kanonik" dari sampel normal iid.
Misalkan , i = 1 , … , n adalah variabel bebas N ( μ , σ 2 ) . Kami mencari 100 ( 1 - α ) % interval kepercayaan untuk varians sehingga lebar interval adalah ρ s 2 , yaitu, lebar adalah 100 ρ % dari estimasi titik. Sebagai contoh, jika ρ = 1 / 2Yi i=1,…,n N(μ,σ2) 100(1−α)% ρs2 100ρ% ρ=1/2 , maka lebar dari CI adalah setengah nilai estimasi titik, misalnya, jika , maka CI akan menjadi seperti ( 8 ,s2=10 , memiliki lebar 5. Perhatikan asimetri di sekitar estimasi titik, juga. ( s 2(8,13) s2 adalah penaksir tidak bias untuk varians.)
Interval kepercayaan "(lebih tepatnya," a ") untuk adalah ( n - 1 ) s 2s2
dimana χ
Kami ingin meminimalkan lebar sehingga jadi kita dibiarkan menyelesaikan untuk n sehingga ( n - 1 ) ( 1
Untuk kasus interval kepercayaan 99%, kita mendapatkan untuk ρ = 1 dan n = 5321 untuk ρ = 0,1 . Kasus terakhir ini menghasilkan interval yang ( masih! ) 10% lebih besar dari estimasi titik varians.n=65 ρ=1 n=5321 ρ=0.1
Jika tingkat kepercayaan yang Anda pilih kurang dari 99%, maka interval lebar yang sama akan diperoleh untuk nilai lebih rendah . Tapi, n mungkin masih lebih besar dari yang Anda duga.n n
Plot ukuran sampel versus lebar proporsional ρ menunjukkan sesuatu yang terlihat linier asimtotik pada skala log-log; dengan kata lain, hubungan seperti hukum kekuasaan. Kita dapat memperkirakan kekuatan hubungan kuasa-hukum ini (secara kasar) sebagain ρ
yang sayangnya sangat lambat!
Ini adalah semacam "kanonik" kasus untuk memberi Anda merasakan bagaimana cara menghitung. Berdasarkan plot Anda, data Anda tidak terlihat sangat normal; khususnya, ada apa yang tampak sebagai kemiringan yang nyata.
Tapi, ini harus memberi Anda gambaran kasar tentang apa yang diharapkan. Perhatikan bahwa untuk menjawab pertanyaan kedua di atas, Anda perlu memperbaiki beberapa tingkat kepercayaan terlebih dahulu, yang telah saya tetapkan untuk 99% dalam pengembangan di atas untuk tujuan demonstrasi.
sumber
Saya akan fokus pada SD daripada varians, karena pada skala yang lebih mudah ditafsirkan.
Orang-orang kadang-kadang melihat interval kepercayaan untuk SD atau varian, tetapi fokusnya umumnya pada sarana.
sumber
Solusi berikut ini diberikan oleh Greenwood dan Sandomire dalam makalah JASA 1950.
and the necessary sample size is found solving the former equation inn for given γ and u .
R
code.Output foru=10% and γ=95% .
sumber