Mengapa uji independensi menggunakan distribusi chi-squared?

12

Uji goodness-of-fit menggunakan statistik berikut : χ 2 0 = n i = 1 ( O i - E i ) 2χ2 Dalam tes, pemberian bahwa kondisi terpenuhi, salah satu kegunaan yangχ2-distribusiuntuk menghitung p-value yang diberikanH0benar salah satu akan mengamati nilai tersebut dalam sampel yang representatif dengan ukuran yang sama.

χ02=i=1n(OiEi)2Ei
χ2H0

Namun, dalam rangka untuk statistik untuk mengikuti χ 2 -Distribusi (dengan n - 1 derajat kebebasan), itu harus benar bahwa: n Σ i = 1 ( O i - E i ) 2χ02χ2n1 untuk independen,Zinormal standar(Wikipedia). Ketentuan untuk tes ini adalah sebagai berikut (sekali lagi, dariWikipedia):

i=1n(OiEi)2Ei=i=1n1Zi2
Zi
  1. Sampel mewakili populasi
  2. Ukuran sampel besar
  3. Jumlah sel yang diharapkan cukup besar
  4. Kemandirian di antara setiap kategori

Dari kondisi (1,2) jelas bahwa kami memenuhi persyaratan untuk inferensi dari sampel ke populasi. (3) tampaknya merupakan asumsi yang diperlukan karena penghitungan diskrit , yang ada dalam penyebutnya, tidak menghasilkan distribusi yang hampir kontinu untuk setiap Z i dan jika tidak cukup besar ada kesalahan yang dapat diperbaiki dengan koreksi Yates - ini tampaknya dari fakta bahwa distribusi diskrit pada dasarnya adalah 'berlantai' satu terus menerus, sehingga pergeseran oleh 1 / 2 untuk masing-masing mengoreksi ini.EiZi1/2

Perlunya (4) tampaknya berguna nanti, tetapi saya tidak bisa melihat caranya.

Pada awalnya, saya berpikir bahwa diperlukan untuk statistik agar sesuai dengan distribusi. Ini membawa saya pada asumsi yang dipertanyakan bahwaOi-EiN(0,Zi=OiEiEi, yang memang salah. Bahkan, jelas dari reduksi dimensi untuk dua sisi kesetaraan darinken-1bahwa hal ini tidak dapat terjadi.OiEiN(0,Ei)nn1

ZiOiEiEiχ02=i=1n1Zi2Zi

χ02χ2(OiEi)2EiZi2Zi

VF1
sumber
1
OiEiN(0,Ei)χ2χ2χ2χ2
1
Dari persamaan dua jumlah kuadrat Anda tidak dapat menyimpulkan akar kuadrat adalah istilah yang sama dengan istilah! Karena itu adalah kasus untuk bilangan belaka, itu juga merupakan kasus untuk variabel acak.
whuber
1
(Wi),i=1,,nχν1,ν2,,νnν1+ν2++νn=n1νi1iWii=1nWi2χ2(n1)
1
n1n
1
n

Jawaban:

6

XλXλ

(Xλ)2λ
z2

z2

izi2=ZIZ

ZQZ
Q

i(ziz¯)2
Placidia
sumber
Maaf, tapi Anda pasti kehilangan saya di "Jika sebaliknya, Anda lakukan ..."
VF1
@ VF1, saya membuat perubahan, jadi saya harap ini lebih jelas. Teorema Cochrane adalah jawaban untuk pertanyaan Anda ketika sejumlah kuadrat dengan normals di dalamnya memiliki distribusi chi-kuadrat.
Placidia
1
OK, saya akan lihat ini. Saya akan membiarkan pertanyaan terbuka, kalau-kalau ada orang lain yang menambahkan sesuatu.
VF1
1
Biasanya ukuran sampel ditetapkan. Itu berarti mustahil bahwa entri mana pun dapat mengikuti distribusi Poisson. Oleh karena itu daya tarik untuk distribusi Poisson sepertinya hanya perkiraan - dan tampaknya meninggalkan kita tepat di tempat kita mulai.
whuber
1

χ2

Zi=OiEiEi

OiEi(StandardErrorOfTheObserved)

(StandardErrorOfTheObserved)EiZi=OiEiEi

Bagaimanapun, Anda bisa membuat statistik uji formulir

Z=|Z1|+|Z2|+|Z3|+...

χ2=Z12+Z22+Z32+...

χ2χ2

χ2

CamilB
sumber