Dalam pengujian , apa dasar untuk menggunakan akar kuadrat dari jumlah yang diharapkan sebagai standar deviasi (yaitu jumlah yang diharapkan sebagai variasi) dari masing-masing distribusi normal? Satu-satunya hal yang bisa saya temukan membahas ini sama sekali adalah http://www.physics.csbsju.edu/stats/chi-square.html , dan itu hanya menyebutkan distribusi Poisson.
Sebagai ilustrasi sederhana dari kebingungan saya, bagaimana jika kami menguji apakah dua proses berbeda secara signifikan, satu yang menghasilkan 500 As dan 500 Bs dengan varian yang sangat kecil, dan yang lain yang menghasilkan 550 As dan 450 Bs dengan varian yang sangat kecil (jarang menghasilkan 551 As dan 449 Bs)? Bukankah varians di sini jelas bukan hanya nilai yang diharapkan?
(Saya bukan ahli statistik, jadi benar-benar mencari jawaban yang dapat diakses oleh non-spesialis.)
Jawaban:
Bentuk umum untuk banyak statistik uji adalah
Dalam kasus variabel normal, kesalahan standar didasarkan pada varians populasi yang diketahui (z-stats) atau estimasi dari sampel (t-stats). Dengan binomial kesalahan standar didasarkan pada proporsi (proporsi yang dihipotesiskan untuk tes).
Dalam tabel kontingensi, hitungan dalam setiap sel dapat dianggap berasal dari distribusi Poisson dengan rata-rata sama dengan nilai yang diharapkan (di bawah nol). Varian untuk distribusi Poisson sama dengan rata-rata, jadi kami juga menggunakan nilai yang diharapkan untuk perhitungan kesalahan standar. Saya telah melihat statistik yang menggunakan yang diamati, tetapi memiliki lebih sedikit pembenaran teoretis dan tidak menyatu juga dengan distribusiχ2 .
sumber
Mari kita menangani kasus paling sederhana untuk mencoba memberikan intuisi yang paling. Misalkan menjadi sampel iid dari distribusi diskrit dengan hasil k . Biarkan π 1 , ... , π k menjadi probabilitas dari setiap hasil tertentu. Kami tertarik pada (asymptotic) distribusi statistik chi-squared X 2 = k ΣX1,X2,…,Xn k π1,…,πk
Di sini n π i adalah jumlah hitungan yang diharapkan darihasil ke- i .
Heuristik sugestif
Tentukan , sehinggaX2=∑iU 2 i =‖U‖ 2 2 di manaU=(U1,…,Uk).Ui=(Si−nπi)/nπi−−−√ X2=∑iU2i=∥U∥22 U=(U1,…,Uk)
Karena adalah B i n ( n , πSi , maka olehCentral Limit Theorem,
T i = U iBin(n,πi)
Maka, kami juga memiliki itu, U i d →
Sekarang, jika para adalah (asimtotik) independen (yang mereka tidak), maka kita bisa berpendapat bahwa Σ i T 2 i adalah asimtotik χ 2 k didistribusikan. Tapi, perhatikan bahwa T k adalah fungsi deterministik ( T 1 , ... , T k - 1 ) dan sehingga T i variabel tidak mungkin independen.Ti ∑iT2i χ2k Tk (T1,…,Tk−1) Ti
Karena itu, kita harus memperhitungkan kovarians di antara mereka. Ternyata bahwa "benar" cara untuk melakukan ini adalah dengan menggunakan sebaliknya, dan kovarians antara komponen U juga mengubah distribusi asymptotic dari apa yang kita sangka adalah χ 2 k untuk apa, pada kenyataannya, a χ 2 k - 1 .Ui U χ2k χ2k−1
Beberapa detail tentang ini mengikuti.
Perawatan yang lebih ketat
Hal ini tidak sulit untuk memeriksa bahwa, pada kenyataannya, untuki≠j.Cov(Ui,Uj)=−πiπj−−−−√ i≠j
Jadi, kovarian adalah A = I - √U
dimana √
Sekarang, oleh Teorema Batas Pusat Multivariat , vektorU 0 A
Other connections
The chi-square statistic is also closely related to likelihood ratio statistics. Indeed, it is a Rao score statistic and can be viewed as a Taylor-series approximation of the likelihood ratio statistic.
References
This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are
sumber