Mengapa tes rasio kemungkinan didistribusikan chi-kuadrat?

34

Mengapa statistik uji uji rasio kemungkinan didistribusikan chi-kuadrat?

2(ln Lalt modelln Lnull model)χdfaltdfnull2

Beeblebrox
sumber
3
Apakah ini membantu ?
Nick Sabbe
14
Terima kasih untuk referensi. Ini satu dari saya: stats.stackexchange.com/faq#etiquette
Dr. Beeblebrox
5
Perhatikan "Bawalah selera humor Anda" di sana. Saya tidak bermaksud kasar, tetapi jawaban untuk pertanyaan ini akan relatif membosankan dan pada dasarnya terdiri dari isi artikel itu (atau beberapa buku teks statistik yang lebih baik). Jika Anda menyatakan masalah Anda dengan penjelasan di salah satu dari ini, saya akan dengan senang hati membantu Anda.
Nick Sabbe
2
Tautan langsung ke kertas asli Wilks tanpa paywall.
ayorgo

Jawaban:

23

Seperti yang disebutkan oleh @Nick, ini adalah konsekuensi dari teorema Wilks . Tetapi perhatikan bahwa statistik uji secara asimptotik -distribusi, bukan χ 2χ2χ2 .

Saya sangat terkesan dengan teorema ini karena ia memegang konteks yang sangat luas. Mempertimbangkan model statistik dengan kemungkinan di mana y adalah pengamatan vektor n pengamatan direplikasi independen dari distribusi dengan parameter θ milik submanifold B 1 dari R d dengan dimensi dim ( B 1 ) = s . Biarkan B 0B 1 menjadi submanifold dengan dimensi redup ( B 0l(θy)ynθB1Rddim(B1)=sB0B1 . Bayangkan Anda tertarik menguji H 0dim(B0)=m .H0:{θB0}

The rasio kemungkinan adalah Tentukanpenyimpangand(y)=2log(lr(y)). Kemudianteorema Wilksmengatakan bahwa, di bawah asumsi keteraturan yang biasa,d(y)secara asimptotikχ2terdistribusi denganderajat kebebasans-mketikaH0berlaku.

lr(y)=supθB1l(θy)supθB0l(θy).
d(y)=2log(lr(y))d(y)χ2smH0

Itu terbukti dalam makalah asli Wilk yang disebutkan oleh @Nick. Saya pikir makalah ini tidak mudah dibaca. Wilks menerbitkan sebuah buku kemudian, mungkin dengan presentasi teorinya yang paling mudah. Bukti heuristik singkat diberikan dalam buku Williams yang sangat bagus .

Stéphane Laurent
sumber
3
Sedih bahwa teorema ini tidak disebutkan dalam halaman wikipedia yang ditujukan untuk Samuel S. Wilks
Stéphane Laurent
5
Oh, ayolah Stephane. Ini Wikipedia, Anda bisa mengeditnya dan memperbaikinya!
Tugas
1
@StasK Saya tahu itu, tetapi saya belum pernah mencoba. Dan saya sudah menghabiskan terlalu banyak waktu dalam hidup saya dengan statistik & matematika;)
Stéphane Laurent
Apakah ada intuisi mengapa 2 berada di depan log dalam definisi penyimpangan?
user56834
@ Programmer2134 Ini berasal dari ekspansi taylor orde kedua.
Frank Vel
25

Saya komentar kedua Nick Sabbe yang keras, dan jawaban singkat saya adalah, Tidak . Maksudku, itu hanya dalam model linier normal. Untuk keadaan apa pun lainnya, distribusi yang tepat bukanlah . Dalam banyak situasi, Anda dapat berharap bahwa kondisi teorema Wilks terpenuhi, dan kemudian asymptotically statistik uji rasio log-likelihood menyatu dalam distribusi ke χ 2 . Keterbatasan dan pelanggaran kondisi teorema Wilks terlalu banyak untuk diabaikan.χ2χ2

  1. Teorema ini mengasumsikan Data iid berharap masalah dengan data tergantung, seperti seri waktu atau sampel survei probabilitas yang tidak sama (untuk yang likelihood yang buruk didefinisikan, sih, yang "biasa" χ 2 tes, seperti tes kemerdekaan pada tabel kontingensi, mulai berperilaku sebagai penjumlahan k a k v k , v kiid χ 2 1 ( Rao & Scott ). Untuk data iid, a k = 1 , dan jumlahnya menjadi χ 2. Tetapi untuk data non-independen, ini bukan lagi kasusnya.χ2kakvk,vki.i.d.χ12ak=1χ2
  2. Teorema ini mengasumsikan parameter sebenarnya berada di bagian dalam ruang parameter. Jika Anda memiliki ruang Euclidean untuk dikerjakan, itu bukan masalah. Namun, dalam beberapa masalah, batasan alami mungkin muncul, seperti varians 0 atau korelasi antara -1 dan 1. Jika parameter sebenarnya adalah salah satu batas, maka distribusi asimptotik adalah campuran χ 2 dengan derajat kebebasan yang berbeda, dalam arti bahwa cdf dari ujian adalah jumlah dari cdf tersebut ( Andrews 2001 , ditambah dua atau tiga makalahnya dari periode yang sama, dengan sejarah akan kembali ke Chernoff 1954 ).χ2
  3. Teorema ini mengasumsikan bahwa semua turunan yang relevan adalah nol. Ini dapat ditentang dengan beberapa masalah dan / atau parameterisasi nonlinier, dan / atau situasi ketika parameter tidak diidentifikasi di bawah nol. Misalkan Anda memiliki model campuran Gaussian, dan nol Anda adalah satu komponen vs. alternatif dua komponen berbeda f N ( μ 1 , σ 2 1 ) + ( 1 - f ) N ( μ 2 , σ 2 2 )N(μ0,σ02)fN(μ1,σ12)+(1f)N(μ2,σ22)dengan fraksi pencampuran . Nol tampaknya bersarang dalam alternatif, tetapi ini dapat dinyatakan dalam berbagai cara: karena f = 0 (dalam hal ini parameter μ 1 , σ 2 1 tidak diidentifikasi), f = 1 (dalam hal ini μ 2 , σ 2 2 tidak teridentifikasi), atau μ 1 = μ 2 , σ 1 = σ 2 (dalam hal ini fff=0μ1,σ12f=1μ2,σ22μ1=μ2,σ1=σ2f is not identified). Here, you can't even say how many degrees of freedom your test should have, as you have different number of restrictions depending on how you parameterize the nesting. See the work of Jiahua Chen on this, e.g. CJS 2001.
  4. χ2kakvk,vki.i.d.χ12, the same story as with non-independent data in my point 1, but they've also demonstrated how the aks depend on the structure of the model and the fourth moments of the distribution.
  5. For finite samples, in a large class of situations likelihood ratio is Bartlett-correctible: while Prob[d(y)x]=F(x;χd2)[1+O(n1)] for a sample of size n, and F(x;χd2) being the distribution function of the χd2 distribution, for the regular likelihood problems you can find a constant b such that Prob[d(y)/(1+b/n)x]=F(x;χd2)[1+O(n2)], i.e., to a higher order of accuracy. So the χ2 approximation for finite samples can be improved (and arguably should be improved if you know how). The constant b depends on the structure of the model, and sometimes on the auxiliary parameters, but if it can be consistently estimated, that works, too, in improving the order of coverage.

For a review of these and similar esoteric issues in likelihood inference, see Smith 1989.

StasK
sumber
1
Thanks! Very instructive. What do you mean by "it only is in the normal linear model" ? For a Fisher test when B0 and B1 are linear subspaces, then the deviance is a monotone function of the Fisher statistic, and it is only asymptotically χ2.
Stéphane Laurent
With known variance, I should add.
StasK