Dapatkah bootstrap resampling digunakan untuk menghitung interval kepercayaan untuk varian suatu dataset?

9

Saya tahu bahwa jika Anda sampel ulang dari kumpulan data berkali-kali dan menghitung rata-rata setiap kali, berarti ini akan mengikuti distribusi normal (oleh CLT). Dengan demikian, Anda dapat menghitung interval kepercayaan pada rata-rata kumpulan data tanpa membuat asumsi pada distribusi probabilitas kumpulan data.

Saya bertanya-tanya apakah Anda bisa melakukan sesuatu yang serupa untuk varians. Yaitu, jika saya mengambil sampel ulang dari kumpulan data berkali-kali dan menghitung varians setiap kali, akankah varians ini mengikuti distribusi tertentu (terlepas dari apa distribusi probabilitas asli dari kumpulan data itu)?

Saya tahu bahwa jika kumpulan data asli itu normal, maka varians akan mengikuti distribusi chi-squared. Tetapi bagaimana jika tidak normal?

Casandra
sumber

Jawaban:

10

Dapatkah Bootstrap Resampling digunakan untuk Menghitung Interval Keyakinan untuk Varians dari Set Data?

Ya, sama seperti banyak statistik lainnya.

Saya tahu bahwa jika Anda sampel ulang dari kumpulan data berkali-kali dan menghitung rata-rata setiap kali, berarti ini akan mengikuti distribusi normal (oleh CLT).

Tidak selalu demikian halnya jika Anda bootstrap rata-rata, berarti bootstrap akan mengikuti distribusi normal, bahkan untuk distribusi yang menerapkan CLT.

n=100

masukkan deskripsi gambar di sini

Ini tidak normal.

Sampel asli terdiri dari sembilan puluh tujuh nilai '0', dan '1', a '2' dan '100'.

Inilah kode (R) yang saya jalankan untuk menghasilkan plot di atas:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

Masalahnya adalah bahwa dalam hal ini ukuran sampel (100) terlalu kecil untuk diterapkan oleh CLT dengan bentuk distribusi semacam ini; tidak masalah berapa kali kita melakukan resample.

Namun, jika ukuran sampel asli jauh lebih besar, distribusi sampel sampel berarti untuk sesuatu seperti ini akan lebih terlihat normal (meskipun selalu terpisah).

Berikut ini adalah ecdf saat meng-resampling data di atas (hitam) dan untuk nilai dalam proporsi yang sama tetapi dengan nilai sepuluh kali lebih banyak (merah; yaitu, n = 1000):

masukkan deskripsi gambar di sini

Seperti yang kita lihat, fungsi distribusi ketika melakukan resampling sampel besar memang terlihat jauh lebih normal.

jika saya mengambil sampel ulang dari kumpulan data berkali-kali dan menghitung varians setiap kali, apakah varians ini mengikuti distribusi tertentu

Tidak, untuk alasan yang sama itu belum tentu benar untuk mean.

Namun, CLT juga berlaku untuk varian *; hanya saja Anda tidak dapat berdebat bahwa CLT berlaku untuk bootstrap resampling hanya dengan mengambil banyak sampel. Jika ukuran sampel asli cukup besar, itu mungkin (dalam kondisi yang tepat) cenderung membuat distribusi sampel rata-rata (dan momen yang lebih tinggi, jika ada) relatif dekat dengan distribusi normal (relatif terhadap distribusinya dalam sampel yang lebih kecil, pada paling sedikit).

sn2=1nsaya=1n(xsaya-x¯)2ysaya=(xsaya-x¯)2sn2=y¯ysn2sn-12sn2sn2sn-12

Glen_b -Reinstate Monica
sumber