Mengapa distribusi sampel varian merupakan distribusi chi-kuadrat?

22

Pernyataan

Distribusi sampling dari varian sampel adalah distribusi chi-kuadrat dengan derajat kebebasan sama dengan , di mana adalah ukuran sampel (mengingat bahwa variabel bunga yang menarik secara normal didistribusikan).nn1n

Sumber

Intuisi saya

Ini agak masuk akal bagi saya 1) karena tes chi-square terlihat seperti jumlah kuadrat dan 2) karena distribusi Chi-kuadrat hanyalah jumlah dari distribusi normal kuadrat. Tapi tetap saja, saya tidak memiliki pemahaman yang baik tentang itu.

Pertanyaan

Apakah pernyataan itu benar? Mengapa?

Remi.b
sumber
1
Pernyataan awal itu salah secara umum (itu salah karena dua alasan terpisah). Apa sumber Anda (tautan Anda tidak ada), dan apa yang sebenarnya dikatakannya?
Glen_b -Reinstate Monica
Pertanyaan saya juga muncul sebagai reaksi terhadap pertanyaan-jawaban di kelas statistik pengantar yang aksesnya dilindungi. Pertanyaannya adalah "Distribusi apa yang merupakan distribusi sampling varian dalam panjang sayap pada lalat?" dan jawabannya adalah "Distribusi Chi-squared"
Remi.b
1
Pernyataan yang dikutip dalam komentar pertama Anda masih salah secara umum. Komentar di akhir sumber adalah benar (dengan asumsi yang diperlukan): " ketika sampel berukuran n diambil dari distribusi normal dengan varians , distribusi sampling dari memiliki distribusi chi-square dengan n-1 derajat kebebasan. ( n - 1 ) s 2 / σ 2σ2(n1)s2/σ2 "... Jawaban untuk pertanyaan dalam komentar kedua Anda juga akan salah - kecuali, saya kira, seseorang telah menunjukkan bahwa panjang sayap biasanya didistribusikan. (Apa dasar yang bisa digunakan untuk menyatakan ini benar?)
Glen_b -Reinstate Monica
Jadi mari kita asumsikan sayap terdistribusi normal, maka distribusi sampling akan didistribusikan secara chi-squared. Kenapa gitu? (n1)s2/σ2
Remi.b
Apakah Anda sadar bahwa jumlah kuadrat dari iid N (0,1) variabel acak adalah chi-kuadrat dengan df? Atau apakah itu bagian yang Anda cari buktinya? kkk
Glen_b -Reinstate Monica

Jawaban:

27

[Saya akan berasumsi dari diskusi dalam pertanyaan Anda bahwa Anda senang menerima kenyataan bahwa jika independen variabel terdistribusi secara identik, maka .]N ( 0 , 1 ) k i = 1 Z 2 iχ 2 kZi,i=1,2,,kN(0,1)i=1kZi2χk2

Secara formal, hasil yang Anda butuhkan mengikuti dari teorema Cochran . (Meskipun dapat ditunjukkan dengan cara lain)

Kurang formal, pertimbangkan bahwa jika kita tahu mean populasi, dan memperkirakan varians tentang itu (daripada tentang mean sampel): , lalu , ( ) yang akan menjadi kali a variabel acak.s 2 0 /σ2=1s02=1ni=1n(Xiμ)2 Zi=(Xi-μ)/σ1s02/σ2=1ni=1n(Xiμσ)2=1ni=1nZi2Zi=(Xiμ)/σ χ 2 n1nχn2

Fakta bahwa rata-rata sampel digunakan, alih-alih rata-rata populasi ( ) membuat jumlah kuadrat penyimpangan lebih kecil, tetapi hanya sedemikian rupa sehingga (tentang hal itu, lihat teorema Cochran). Karenanya, daripada sekarang kita memiliki .n i = 1 ( Z i ) 2Zi=(XiX¯)/σ n s 2 0 / σ 2χ 2 n ( n - 1 ) s 2 / σ 2χ 2 n - 1i=1n(Zi)2χn12ns02/σ2χn2(n1)s2/σ2χn12

Glen_b -Reinstate Monica
sumber
@ Glen_b Bisakah Anda memberikan referensi untuk bukti lain tentang fakta ini? Saya benar-benar ingin mengetahuinya.
Henry.L
Dari beberapa fakta manakah Anda setelah bukti?
Glen_b -Reinstate Monica
@Glen_b Satu-satunya dua metode selain teorema Cochran-Madow untuk membuktikan fakta ini bahwa varians sampel dan mean sampel secara statistik independen dengan distribusi chi-square adalah: (1) Basis kanonik Scheffe (Scheffe, 1959) (2) Metode kumulant (Atau mgfs, yang setara dengan itu). Jika Anda tahu lebih banyak metode, saya benar-benar ingin mengetahuinya.
Henry.L
Satu lagi komentar yang ingin saya tambahkan adalah bahwa meskipun rata-rata sampel digunakan, tetapi kadang-kadang kita menginginkan daya tetap yang tidak tergantung pada varian tetap, metode ini digantikan oleh metode dua tahap Stein (1949).
Henry.L
Apa yang tidak saya dapatkan tentang jawaban ini, adalah bahwa tidak terlepas dari semua , jadi bagaimana kita dapat menerapkan teorema Cochran? dikatakan bahwa mereka semua harus mandiri. Xi sX¯Xis
user56834