Mengapa pengujian chi-square menggunakan jumlah yang diharapkan sebagai varians?

18

Dalam pengujian , apa dasar untuk menggunakan akar kuadrat dari jumlah yang diharapkan sebagai standar deviasi (yaitu jumlah yang diharapkan sebagai variasi) dari masing-masing distribusi normal? Satu-satunya hal yang bisa saya temukan membahas ini sama sekali adalah http://www.physics.csbsju.edu/stats/chi-square.html , dan itu hanya menyebutkan distribusi Poisson.χ2

Sebagai ilustrasi sederhana dari kebingungan saya, bagaimana jika kami menguji apakah dua proses berbeda secara signifikan, satu yang menghasilkan 500 As dan 500 Bs dengan varian yang sangat kecil, dan yang lain yang menghasilkan 550 As dan 450 Bs dengan varian yang sangat kecil (jarang menghasilkan 551 As dan 449 Bs)? Bukankah varians di sini jelas bukan hanya nilai yang diharapkan?

(Saya bukan ahli statistik, jadi benar-benar mencari jawaban yang dapat diakses oleh non-spesialis.)

Yang
sumber
Ini mungkin ada hubungannya dengan fakta bahwa varians dari variabel acak adalah dan juga dengan fakta bahwa statistik harus dikalikan dengan 2 untuk memiliki distribusi yang benar (seperti pada uji rasio kemungkinan). Mungkin seseorang mengetahui hal ini secara lebih formal. χk22k
Makro

Jawaban:

16

Bentuk umum untuk banyak statistik uji adalah

observedexpectedstandarderror

Dalam kasus variabel normal, kesalahan standar didasarkan pada varians populasi yang diketahui (z-stats) atau estimasi dari sampel (t-stats). Dengan binomial kesalahan standar didasarkan pada proporsi (proporsi yang dihipotesiskan untuk tes).

Dalam tabel kontingensi, hitungan dalam setiap sel dapat dianggap berasal dari distribusi Poisson dengan rata-rata sama dengan nilai yang diharapkan (di bawah nol). Varian untuk distribusi Poisson sama dengan rata-rata, jadi kami juga menggunakan nilai yang diharapkan untuk perhitungan kesalahan standar. Saya telah melihat statistik yang menggunakan yang diamati, tetapi memiliki lebih sedikit pembenaran teoretis dan tidak menyatu juga dengan distribusi χ2 .

Greg Snow
sumber
1
Saya terjebak pada koneksi dengan Poisson / memahami mengapa setiap sel dapat dianggap berasal dari Poisson. Saya tahu rata-rata / varians dari Poissons, dan saya tahu mereka mewakili jumlah peristiwa yang diberi nilai. Saya juga tahu distribusi chi-square mewakili jumlah kuadrat dari standar (varian 1) normal. Saya hanya mencoba untuk membungkus kepala saya di sekitar pembenaran menggunakan kembali nilai yang diharapkan sebagai asumsi "penyebaran" dari masing-masing normal. Apakah ini hanya untuk membuat semuanya sesuai dengan distribusi chi-square / "standar" pada normals?
Yang
3
Ada beberapa masalah, distribusi Poisson umum untuk dihitung ketika semuanya cukup independen. Alih-alih berpikir tentang tabel sebagai memiliki total tetap dan Anda mendistribusikan nilai-nilai di antara sel-sel tabel, pikirkan hanya satu sel tabel dan Anda sedang menunggu jumlah waktu tetap untuk melihat berapa banyak respons jatuh ke dalam sel itu , ini cocok dengan ide umum Poisson. Untuk cara besar Anda dapat memperkirakan Poisson dengan distribusi normal, sehingga statistik uji masuk akal sebagai perkiraan normal ke Poisson, lalu konversikan ke χ2 .
Greg Snow
1
(+1) Misalkan jumlah sel Xi,,Xk adalah variabel acak Poisson independen dengan rata-rata nπi . Maka, tentu saja, i=1k(Xinπi)2nπiχk2 dalam distribusi. Tapi, masalah dengan ini adalah bahwanadalahparameterdan bukan jumlah sebenarnya yang diamati. Jumlah total yang diamati adalahN=i=1kXiPoi(n) . Meskipun N/n1 hampir pasti oleh SLLN, masih banyak pekerjaan yang harus dilakukan untuk mengubah heuristik menjadi sesuatu yang bisa diterapkan.
kardinal
Sebagai ilustrasi sederhana dari kebingungan saya, bagaimana jika kami menguji apakah dua proses berbeda secara signifikan, satu yang menghasilkan 500 As dan 500 Bs dengan varian yang sangat kecil, dan yang lain yang menghasilkan 550 As dan 450 Bs dengan varian yang sangat kecil (jarang menghasilkan 551 As dan 449 Bs)? Bukankah varians di sini jelas bukan hanya nilai yang diharapkan?
Yang
1
@Yang: Kedengarannya seperti data Anda --- yang belum Anda uraikan --- tidak sesuai dengan model yang mendasari penggunaan statistik chi-squared. Model standar adalah salah satu dari pengambilan sampel multinomial . Sebenarnya, pengambilan sampel Poisson (tanpa syarat) pun tercakup, dan itulah yang diandaikan jawaban Greg. Saya membuat (mungkin tumpul) referensi ini di komentar saya sebelumnya.
kardinal
17

Mari kita menangani kasus paling sederhana untuk mencoba memberikan intuisi yang paling. Misalkan menjadi sampel iid dari distribusi diskrit dengan hasil k . Biarkan π 1 , ... , π k menjadi probabilitas dari setiap hasil tertentu. Kami tertarik pada (asymptotic) distribusi statistik chi-squared X 2 = k ΣX1,X2,,Xnkπ1,,πk Di sini n π i adalah jumlah hitungan yang diharapkan darihasil ke- i .

X2=i=1k(Sinπi)2nπi.
nπii

Heuristik sugestif

Tentukan , sehinggaX2=iU 2 i =U 2 2 di manaU=(U1,,Uk).Ui=(Sinπi)/nπiX2=iUi2=U22U=(U1,,Uk)

Karena adalah B i n ( n , πSi , maka olehCentral Limit Theorem, T i = U iBin(n,πi) Maka, kami juga memiliki itu, U i d

Ti=Ui1πi=Sinπinπi(1πi)dN(0,1),
.UidN(0,1πi)

Sekarang, jika para adalah (asimtotik) independen (yang mereka tidak), maka kita bisa berpendapat bahwa Σ i T 2 i adalah asimtotik χ 2 k didistribusikan. Tapi, perhatikan bahwa T k adalah fungsi deterministik ( T 1 , ... , T k - 1 ) dan sehingga T i variabel tidak mungkin independen.TiiTi2χk2Tk(T1,,Tk1)Ti

Karena itu, kita harus memperhitungkan kovarians di antara mereka. Ternyata bahwa "benar" cara untuk melakukan ini adalah dengan menggunakan sebaliknya, dan kovarians antara komponen U juga mengubah distribusi asymptotic dari apa yang kita sangka adalah χ 2 k untuk apa, pada kenyataannya, a χ 2 k - 1 .UiUχk2χk12

Beberapa detail tentang ini mengikuti.

Perawatan yang lebih ketat

Hal ini tidak sulit untuk memeriksa bahwa, pada kenyataannya, untukij.Cov(Ui,Uj)=πiπjij

Jadi, kovarian adalah A = I - U dimana

A=IππT,
. Perhatikan bahwa Aadalah simetrik dan idempoten, yaitu,A=A2=AT. Jadi, khususnya, jikaZ=(Z1,...,Zk)memiliki komponen standar normal iid, makaAZ~N(0,A). (NBDistribusi normal multivariat dalam kasus inimerosot.)π=(π1,,πk)AA=A2=ATZ=(Z1,,Zk)AZN(0,A)

Sekarang, oleh Teorema Batas Pusat Multivariat , vektor U0A

UAZX2=UTUZTATAZ=ZTAZ

Arank(A)AA=QDQTQDrank(A)

ZTAZ must be χk12 distributed since A has rank k1 in our case.

Other connections

The chi-square statistic is also closely related to likelihood ratio statistics. Indeed, it is a Rao score statistic and can be viewed as a Taylor-series approximation of the likelihood ratio statistic.

References

This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are

  1. G. A. F. Seber and A. J. Lee (2003), Linear Regression Analysis, 2nd ed., Wiley.
  2. E. Lehmann and J. Romano (2005), Testing Statistical Hypotheses, 3rd ed., Springer. Section 14.3 in particular.
  3. D. R. Cox and D. V. Hinkley (1979), Theoretical Statistics, Chapman and Hall.
cardinal
sumber
(+1) I think it is hard to find this proof in standard categorical data analysis texts like Agresti, A. (2002). Categorical Data Analysis. John-Wiley.
suncoolsu
Thanks for the comment. I know there is some treatment of the chi-squared statistic in Agresti, but don't recall how far he takes it. He may just appeal to the asymptotic equivalence with the likelihood ratio statistic.
cardinal
I don't know if you'll find the proof above in any text. I haven't seen the use of the full (degenerate) covariance matrix and its properties elsewhere. The usual treatment looks at the (nondegenerate) distribution of the first k1 coordinates and then uses the inverse covariance matrix (which has a nice form, but one which is not immediately obvious) and some (somewhat) tedious algebra to establish the result.
cardinal
Your answer begins by defining a set of X's but then defines the statistic in terms of S's. Can you include something in the answer that indicates how the variables you define at the start and the variables in the statistic are related?
Glen_b -Reinstate Monica