Menghitung ukuran sampel yang dibutuhkan, ketepatan estimasi varians?

17

Latar Belakang

Saya memiliki variabel dengan distribusi yang tidak diketahui.

Saya memiliki 500 sampel, tetapi saya ingin menunjukkan ketepatan yang dapat saya gunakan untuk menghitung varians, misalnya untuk menyatakan bahwa ukuran sampel 500 sudah cukup. Saya juga tertarik untuk mengetahui ukuran sampel minimum yang akan diperlukan untuk memperkirakan varians dengan ketepatan .X%

Pertanyaan

Bagaimana saya bisa menghitung

  1. ketepatan estimasi varians saya yang diberikan ukuran sampel n=500 ? dari ?n=N
  2. Bagaimana saya bisa menghitung jumlah sampel minimum yang diperlukan untuk memperkirakan varians dengan ketepatan ?X

Contoh

Gambar 1 estimasi kepadatan parameter berdasarkan 500 sampel.

masukkan deskripsi gambar di sini

Gambar 2 Berikut adalah sebidang ukuran sampel pada sumbu x vs estimasi varians pada sumbu y yang telah saya hitung menggunakan sub-sampel dari sampel 500. Idenya adalah bahwa perkiraan akan konvergen ke varians yang benar dengan meningkatnya n .

Namun, estimasi tersebut tidak valid independen karena sampel yang digunakan untuk memperkirakan varians untuk n[10,125,250,500] tidak independen satu sama lain atau sampel yang digunakan untuk menghitung varians padan[20,40,80]

masukkan deskripsi gambar di sini

Abe
sumber
Perlu diketahui bahwa jika komponen dari distribusi Anda yang tidak dikenal adalah distribusi Cauchy, varians tidak terdefinisi.
Mike Anderson
@ Mike Atau memang jumlah tak terbatas dari distribusi lainnya.
Glen_b -Reinstate Monica

Jawaban:

10

Untuk variabel acak iid X1,,Xn , penaksir tidak bias untuk varians (yang dengan penyebut n - 1 ) memiliki varian:s2n1

Var(s2)=σ4(2n1+κn)

di mana κ adalah kelebihan kurtosis dari distribusi (referensi: Wikipedia ). Jadi sekarang Anda perlu memperkirakan kurtosis distribusi Anda juga. Anda dapat menggunakan jumlah yang kadang-kadang digambarkan sebagai (juga dari Wikipedia ):γ2

γ2=μ4σ43

Saya akan berasumsi bahwa jika Anda menggunakan s sebagai perkiraan untuk σ dan γ2 sebagai perkiraan untuk κ , bahwa Anda mendapatkan perkiraan yang wajar untuk , walaupun saya tidak melihat jaminan bahwa itu tidak bias. Lihat apakah cocok dengan varians di antara himpunan bagian dari 500 poin data Anda secara wajar, dan jika tidak khawatir tentang hal itu lagi :)Var(s2)

Erik P.
sumber
apakah Anda memiliki referensi buku teks untuk penaksir varians yang tidak bias? Saya tidak tahu harus ke mana dari Wikipedia untuk lebih banyak konteks.
Abe
Saya tidak memiliki teks standar Beras dengan saya di sini, jadi saya tidak dapat memeriksa nomor halaman untuk Anda, tetapi saya yakin itu ada di sana. Wikipedia menyarankan itu juga harus disebutkan dalam: Montgomery, DC dan Runger, GC: Statistik terapan dan probabilitas untuk insinyur , halaman 201. John Wiley & Sons New York, 1994.
Erik P.
terima kasih atas bantuan Anda dengan ini. Jawaban ini sangat berguna dan informatif untuk mengukur ketidakpastian varians - Saya telah menerapkan persamaan sekitar 10 kali pada hari terakhir. menghitung mudah dengan perpustakaan: kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Abe
ada kemungkinan Anda menemukan nomor halaman dari teks Rice? Saya tidak dapat menemukannya di Casella dan Berger. Referensi utama akan lebih baik jika Anda mengetahuinya. Halaman wikipedia sangat tidak direferensikan.
Abe
Hmmm ... sepertinya Rice juga tidak punya formula. Saya akan mengawasi untuk itu, tetapi pada titik ini saya tidak punya referensi sama sekali.
Erik P.
15

Belajar varians itu sulit.

Dibutuhkan (mungkin secara mengejutkan) sejumlah besar sampel untuk memperkirakan varians dengan baik dalam banyak kasus. Di bawah ini, saya akan menunjukkan pengembangan untuk kasus "kanonik" dari sampel normal iid.

Misalkan , i = 1 , , n adalah variabel bebas N ( μ , σ 2 ) . Kami mencari 100 ( 1 - α ) % interval kepercayaan untuk varians sehingga lebar interval adalah ρ s 2 , yaitu, lebar adalah 100 ρ % dari estimasi titik. Sebagai contoh, jika ρ = 1 / 2Yii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2 , maka lebar dari CI adalah setengah nilai estimasi titik, misalnya, jika , maka CI akan menjadi seperti ( 8 ,s2=10 , memiliki lebar 5. Perhatikan asimetri di sekitar estimasi titik, juga. ( s 2(8,13)s2 adalah penaksir tidak bias untuk varians.)

Interval kepercayaan "(lebih tepatnya," a ") untuk adalah ( n - 1 ) s 2s2 dimana χ

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
adalahβquantile dari distribusi chi-square dengann-1derajat kebebasan. (Ini muncul dari fakta bahwa(n-1)s2/σ2χ(n1)2ββn1(n1)s2/σ2 adalah kuantitas yang sangat penting dalam pengaturan Gaussian.)

Kami ingin meminimalkan lebar sehingga jadi kita dibiarkan menyelesaikan untuk n sehingga ( n - 1 ) ( 1

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

Untuk kasus interval kepercayaan 99%, kita mendapatkan untuk ρ = 1 dan n = 5321 untuk ρ = 0,1 . Kasus terakhir ini menghasilkan interval yang ( masih! ) 10% lebih besar dari estimasi titik varians.n=65ρ=1n=5321ρ=0.1

Jika tingkat kepercayaan yang Anda pilih kurang dari 99%, maka interval lebar yang sama akan diperoleh untuk nilai lebih rendah . Tapi, n mungkin masih lebih besar dari yang Anda duga.nn

Plot ukuran sampel versus lebar proporsional ρ menunjukkan sesuatu yang terlihat linier asimtotik pada skala log-log; dengan kata lain, hubungan seperti hukum kekuasaan. Kita dapat memperkirakan kekuatan hubungan kuasa-hukum ini (secara kasar) sebagainρ

α^log0.1log1log5321log65=log10log5231650.525,

yang sayangnya sangat lambat!


Ini adalah semacam "kanonik" kasus untuk memberi Anda merasakan bagaimana cara menghitung. Berdasarkan plot Anda, data Anda tidak terlihat sangat normal; khususnya, ada apa yang tampak sebagai kemiringan yang nyata.

Tapi, ini harus memberi Anda gambaran kasar tentang apa yang diharapkan. Perhatikan bahwa untuk menjawab pertanyaan kedua di atas, Anda perlu memperbaiki beberapa tingkat kepercayaan terlebih dahulu, yang telah saya tetapkan untuk 99% dalam pengembangan di atas untuk tujuan demonstrasi.

kardinal
sumber
ini jawaban yang sangat bagus untuk pertanyaan saya. Namun, meskipun saya mengikuti perhitungan yang Anda buat untuk , tidak terlalu jelas bagi saya jika satuan untuk r h o adalah persen dalam larutan n = 65 untuk ρ < 1 ; apakah ini berarti " ρ kurang dari 1 × s 2 " atau " ρ kurang dari 1 % dari s 2 ?n|ρrhon=65ρ<1ρ1×s2ρ1%s2
Abe
@Abe, diperbarui dan mudah-mudahan diperjelas dalam prosesnya. Ada satu kesalahan ketik yang sangat buruk di versi sebelumnya. Maaf soal itu.
kardinal
jawaban yang sangat bagus, tetapi saya memilih yang dari @Erik karena lebih berlaku untuk masalah saya (karena parameter saya tidak terdistribusi secara normal).
Abe
@Abe: Tidak masalah. Untuk itulah tanda centang ada. Jawaban saya dimaksudkan sebagai ilustrasi, lebih dari segalanya. Dari apa yang saya tahu, itu tidak tetap muncul untuk menjadi satu-satunya yang alamat kedua dari pertanyaan Anda, dan akan (asimtotik) memperbaiki bahkan dalam skenario yang Erik garis. (+1 kepadanya lebih dari setahun yang lalu.) :)
kardinal
Anda benar dan saya senang bahwa sekarang saya telah meninjau kembali jawaban Anda. Saya akhirnya menggunakan perhitungan umum oleh @Erik, tetapi sekarang saya melihat nilai dalam solusi umum. Plus, menyajikan CI daripada SD akan memecahkan masalah dengan pemirsa saya sedang bingung ketika melihat statistik dalam bentuk , tidak memahami apa varians varians adalah. Jadi s [ l c l , u c l ] harus membuatnya lebih jelas, dan konsisten dengan ringkasan statistik lainnya. Dan akan membantu untuk menunjukkan asimetri. s(ss)s[lcl,ucl]
Abe
1

Saya akan fokus pada SD daripada varians, karena pada skala yang lebih mudah ditafsirkan.

Orang-orang kadang-kadang melihat interval kepercayaan untuk SD atau varian, tetapi fokusnya umumnya pada sarana.

s2/σ2σ2σσ2

Karl
sumber
(Balasan ini datang ke sini setelah pertanyaan rangkap, dibingkai agak berbeda, digabung.)
whuber
1

Solusi berikut ini diberikan oleh Greenwood dan Sandomire dalam makalah JASA 1950.

X1,,XnN(μ,σ2)σ

S=i=1n(XiX¯)2n1,
Sσ0<u<1
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
γ=1ab

Pr{(n1)S2σ2<(n1)(1u)2}=a
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
Since the pivotal quantity (n1)S2/σ2 has χn12 distribution, adding the two probabilities, we find

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

and the necessary sample size is found solving the former equation in n for given γ and u.

R code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Output for u=10% and γ=95%.

Sample size n = 193
Zen
sumber