Dampak batas bin berbasis data pada uji kelayakan chi-square?

18

Mengesampingkan masalah yang jelas dari rendahnya daya chi-square dalam keadaan seperti ini, bayangkan melakukan uji kebaikan chi-square untuk beberapa kepadatan dengan parameter yang tidak ditentukan, dengan mengelompokkan data.

Untuk konkret, katakanlah distribusi eksponensial dengan rata-rata tidak diketahui dan ukuran sampel katakanlah 100.

Untuk mendapatkan jumlah yang wajar dari pengamatan yang diharapkan per bin, beberapa akun perlu diambil dari data (misalnya jika kita memilih untuk meletakkan 6 sampah di bawah rata-rata dan 4 di atasnya, itu masih akan menggunakan batas-batas bin berbasis data) .

Tetapi penggunaan tempat sampah ini berdasarkan pada melihat data mungkin akan mempengaruhi distribusi statistik uji di bawah nol.

Saya telah melihat banyak diskusi tentang fakta bahwa - jika parameter diperkirakan dengan kemungkinan maksimum dari data binned - Anda kehilangan 1 df per parameter yang diperkirakan (masalah yang berasal dari Fisher vs Karl Pearson) - tapi saya tidak ingat membaca apa pun tentang menemukan batas-batas bin sendiri berdasarkan data. (Jika Anda memperkirakannya dari data yang tidak dimasukkan, maka dengan bin distribusi statistik uji terletak di antara a dan .)χ 2 k χ 2 k - pkχk2χk-hal2

Apakah pilihan tempat sampah berbasis data ini secara substantif berdampak pada tingkat signifikansi atau kekuatan? Apakah ada beberapa pendekatan yang lebih penting daripada yang lain? Jika ada banyak efek, apakah itu sesuatu yang hilang dalam sampel besar?

Jika memang memiliki dampak substantif, ini akan membuat penggunaan uji chi-kuadrat ketika parameter tidak diketahui hampir tidak berguna dalam banyak kasus (meskipun masih diadvokasi dalam beberapa teks), kecuali Anda memiliki Estimasi -priori dari parameter.

Diskusi masalah atau petunjuk untuk referensi (sebaiknya dengan menyebutkan kesimpulan mereka) akan bermanfaat.


Edit, selain pertanyaan utama:

Terjadi pada saya bahwa ada solusi potensial untuk kasus spesifik eksponensial * (dan seragam datang untuk memikirkannya), tetapi saya masih tertarik pada masalah yang lebih umum tentang dampak memilih batas bin.

* Sebagai contoh, untuk eksponensial, seseorang mungkin menggunakan pengamatan terkecil (katakanlah sama dengan ) untuk mendapatkan ide yang sangat kasar tentang di mana harus menempatkan sampah (karena pengamatan terkecil adalah eksponensial dengan rata-rata ), dan kemudian uji perbedaan tersisa ( ) untuk eksponensial. Tentu saja itu mungkin menghasilkan estimasi sangat buruk , dan karenanya pilihan bin yang buruk, meskipun saya kira orang mungkin menggunakan argumen secara rekursif untuk mengambil dua atau tiga pengamatan terendah dari mana untuk memilih nampan yang masuk akal dan kemudian menguji perbedaan dari pengamatan yang tersisa di atas yang terbesar dari statistik pesanan terkecil untuk eksponensialitas)μ / n n - 1 x i - m μmμ/nn-1xsaya-mμ

Glen_b -Reinstate Monica
sumber
1
Pertanyaan menarik. Saya tidak tahu jawabannya, tetapi gagasan bahwa beberapa derajat kebebasan harus hilang masuk akal. Jika Anda belum melihatnya, jawaban oleh @whuber ini harusnya membangkitkan semangat: bagaimana cara memahami derajat kebebasan . Bagi saya, beberapa studi simulasi memungkinkan Anda untuk mendapatkan pijakan di sini, setidaknya untuk beberapa kasus tertentu.
gung - Reinstate Monica
1
Tidak yakin seberapa membantu ini, tetapi ada masalah serupa di bidang estimasi yang kuat. Secara khusus, metode estimasi kuat (misalnya rata-rata terpangkas) sering memerlukan input parameter (misalnya parameter yang menentukan berapa banyak yang harus dipotong). Parameter ini dapat dipilih dengan metode berbasis data (mis. Lihat seberapa gemuk ekornya sebelum memilih parameter pemangkasan). Tetapi pra-pemilihan parameter pemangkasan tidak mempengaruhi distribusi mean dipangkas, versus, katakanlah, aturan parameter tetap. Cara yang biasa digunakan dalam literatur adalah melalui bootstrap.
Colin T Bowers
@ColinTBowers - berpotensi agak membantu, terima kasih. Tidak memikirkan kemungkinan bootstrap.
Glen_b -Reinstate Monica
1
Mungkin menarik untuk memecah masalah menjadi kasus yang paling sederhana. Bayangkan sesuatu seperti hanya 5 pengamatan dari distribusi favorit Anda, dan letakkan satu pembagi dalam data untuk membentuk hanya dua tempat sampah.
zkurtz

Jawaban:

15

Hasil dasar pengujian good-of-fit chi-square dapat dipahami secara hierarkis .

Level 0 . Chi-square uji statistik klasik Pearson untuk menguji sampel multinomial terhadap vektor probabilitas tetap adalah X 2 ( p ) = k Σ i = 1 ( X ( n ) i - n p i ) 2hal mana X ( n ) i menunjukkan jumlah hasil dalamsel ke- i dari sampel ukuran n . Ini dapat bermanfaat dilihat sebagai norma kuadrat dari vektor Y n = ( Y ( n ) 1 , ... , Y ( n ) k ) di mana Y ( n ) i = ( X ( n ) i - n p i ) /

X2(hal)=saya=1k(Xsaya(n)-nhalsaya)2nhalsayadχk-12,
Xsaya(n)sayanYn=(Y1(n),...,Yk(n)) yang, dengan teorema limit pusat multivariat menyatu dalam distribusi sebagai Y n d N(0,I-Ysaya(n)=(Xsaya(n)-nhalsaya)/nhalsaya Dari sini kita melihat bahwa X 2 = Y n 2χ 2 k - 1 sejak I -
YndN(0,saya-halhalT).
X2=Yn2χk-12adalah idempoten peringkatk-1.saya-halhalTk-1

halp i X 2 1 = k Σ i = 1 ( X ( n ) i - n p i ) 2mhalsaya

X12=saya=1k(Xsaya(n)-nhal^saya)2nhal^sayadχk-m-12,

λk

mm=1

X22=saya=1k(Xsaya(n)-nhal^saya)2nhal^sayadχk-m-12,
hal^saya

Z1,...,ZnFλλχk-m-12χk-12

YnN(0,saya-halλhalλT-SEBUAH(λ))

λSEBUAH(λ)

YnB(λ^)

YnTBTBYndχk-12,
k

Contohnya adalah statistik Rao-Robson-Nikulin dan statistik Dzhaparidze-Nikulin .

k1/ksaya^j=μ^+σ^saya0,jsaya0,j=[F-1((j-1)/k),F-1(j/k))

Referensi

  1. A W. van der Vaart (1998), Asymptotic Statistics , Cambridge University Press. Bab 17 : Tes Chi-Square .

  2. χ2

  3. FC Drost (1989), General-of-fit tes chi-square umum untuk model skala lokasi ketika jumlah kelas cenderung tak terbatas , Ann. Stat , vol. 17, tidak. 3, 1285–1300.

  4. MS Nikulin, MS (1973), uji Chi-square untuk distribusi kontinu dengan parameter pergeseran dan skala , Teori Probabilitas dan Penerapannya , vol. 19, tidak. 3, 559–568.

  5. KO Dzaparidze dan MS Nikulin (1973), Tentang modifikasi statistik standar Pearson , Teori Probabilitas dan Penerapannya , vol. 19, tidak. 4, 851–853.

  6. KC Rao dan DS Robson (1974), statistik chi-square untuk uji kelaikan pada keluarga eksponensial , Comm. Statist. , vol 3., no. 12, 1139–1153.

  7. N. Balakrishnan, V. Voinov dan MS Nikulin (2013), Chi-Squared Goodness of Fit Tes Dengan Aplikasi , Academic Press.

kardinal
sumber
5

Saya telah menemukan setidaknya sebagian jawaban untuk pertanyaan saya, di bawah ini. (Saya masih ingin memberi seseorang bonus itu, jadi informasi lebih lanjut dihargai.)

χk-hal-12hal χ12khalχk-hal2χk2hal

Referensi

Moore DS (1971), Statistik Chi-Square dengan Batas Sel Acak , Ann. Matematika Stat. , Vol 42, No 1, 147–156.

χ2

χ2

χ2

χ2

Glen_b -Reinstate Monica
sumber