Uji independensi vs uji homogenitas

10

Saya mengajar kursus statistik dasar dan hari ini saya akan membahas uji independensi chi-kuadrat untuk dua kategori dan tes untuk homogenitas. Dua skenario ini secara konseptual berbeda, tetapi dapat menggunakan statistik uji dan distribusi yang sama. Dalam uji homogenitas, total marginal untuk salah satu kategori diasumsikan menjadi bagian dari desain itu sendiri - mereka mewakili jumlah mata pelajaran yang dipilih untuk setiap kelompok eksperimen. Tetapi karena uji chi-kuadrat berputar di sekitar pengondisian pada semua total marjinal, tidak ada konsekuensi matematis untuk membedakan antara tes homogenitas dan tes independensi dengan data kategoris - setidaknya tidak ada ketika tes ini digunakan.

Pertanyaan saya adalah sebagai berikut: apakah ada sekolah pemikiran statistik atau pendekatan statistik yang akan menghasilkan analisis yang berbeda, tergantung pada apakah kita menguji independensi (di mana semua marginal adalah variabel acak) atau tes homogenitas (di mana satu set marginal berada diatur oleh desain)?

Dalam kasus berkelanjutan, katakan di mana kita mengamati pada subjek yang sama, dan menguji independensi, atau mengamati pada populasi yang berbeda dan menguji jika mereka berasal dari distribusi yang sama, metodenya berbeda (korelasi analisis vs t-test). Bagaimana jika data kategorikal berasal dari variabel kontinu yang didiskritisasi? Haruskah tes independensi dan homogenitas tidak dapat dibedakan?(X,Y)(X1,X2)

Placidia
sumber
2
Bisakah Anda memberikan sumber yang membedakan "uji homogenitas" dan "uji independensi"? Saya terbiasa berpikir bahwa itu sama (dan Wikipedia juga). Hal ini juga disebut uji chi-square asosiasi untuk tabel kontijensi 2-arah atau uji perbandingan chi-square sampel K-independent . Ini harus tidak bingung dengan satu-sampel uji chi-square juga dikenal sebagai chi-square uji kesepakatan . Di dalamnya, kami menguji frekuensi yang diamati terhadap yang diharapkan secara teoritis yang kami suplai.
ttnphns
2
@ttnphns Sepertinya endemik. Saya menggunakan "Expect the Unexpected" oleh Raluca Balan dan Gilles Lamothe. Tahun lalu saya mengajar dari Statistik Bisnis oleh Sharpe, De Veaux, et al. Kedua teks ini cukup menggambarkan perbedaannya. Dalam kedua kasus, kami memiliki tabel kontingensi 2 arah. Tak perlu dikatakan, tidak ada buku teks berpikir itu bermanfaat mengajarkan ukuran efek untuk tabel kontingensi: kasus lain di mana kehalusan menang atas kegunaan dalam kursus statistik dasar.
Placidia
2
Perbedaannya akan muncul jika Anda mencoba untuk mendapatkan interval kepercayaan untuk ukuran efek.
Ray Koopman
2
Kedengarannya menarik. Apakah Anda keberatan menambahkan beberapa spesifik dan membuatnya menjadi jawaban?
Placidia
4
Itu tergantung jika Anda ingin menyiksa para siswa dengan perbedaan margin bersyarat / tidak bersyarat. Jika tidak, Anda mungkin hanya fokus pada menjelaskan bahwa "independensi dua variabel kategori" setara dengan "homogenitas distribusi kondisional" dan kemudian sajikan tunggal . (Saya biasanya menyajikannya bersama dengan batas kepercayaan yang lebih rendah untuk Cramer's sejati yang mengukur kekuatan asosiasi.)χ2V
Michael M

Jawaban:

4

Anda hanya perlu bertanya pada diri sendiri, "Bagaimana saya menulis hipotesis nol?" Pertimbangkan tabel kontingensi frekuensi dari beberapa perilaku (y / n) di antara sejumlah kelompok . Memperlakukan grup pertama sebagai referensi, Anda memiliki rasio odds ( ) yang menggambarkan hubungan antara frekuensi dan grup.k k - 1 θ i , i = 1 , 2 , ... , k - 12×kkk1θi,i=1,2,,k1

Di bawah independensi seperti halnya dengan homogenitas, Anda menganggap bahwa semua odds-ratios adalah 1. Artinya, kemungkinan merespons "ya" terhadap kondisi tersebut sama-sama kemungkinan terlepas dari penugasan kelompok. Jika asumsi itu gagal, setidaknya satu kelompok berbeda.

H0(homogeneity):i=1k1|θi|=0

H0(independence):i=1k1|θi|=0

Dan tes ini dapat dilakukan dengan uji Pearson Chi-square menggunakan frekuensi yang diamati / diharapkan, yang merupakan tes skor untuk model regresi logistik yang disesuaikan untuk variabel indikator untuk keanggotaan grup. Jadi secara struktural kita dapat mengatakan bahwa tes ini sama.k1

Namun, perbedaan muncul ketika kita mempertimbangkan sifat dari faktor pengelompokan. Dalam hal ini, penerapan tes kontekstual, atau lebih tepatnya namanya, adalah penting. Suatu kelompok dapat secara langsung menyebabkan hasil, seperti ada atau tidak adanya gen atau pola alel sifat dalam hal ini, ketika kami menolak nol, kami menyimpulkan bahwa hasilnya tergantung pada faktor pengelompokan yang dimaksud.

Di sisi lain, ketika kita menguji homogenitas, kita membebaskan diri dari membuat asumsi sebab akibat. Jadi, ketika "kelompok" adalah konstruksi canggih seperti ras (yang menyebabkan dan disebabkan oleh faktor penentu genetik, perilaku, dan sosial ekonomi) kita dapat membuat kesimpulan seperti "ras-etnis minoritas mengalami kesenjangan perumahan yang dibuktikan dengan heterogenitas dalam indeks perampasan lingkungan" . Jika seseorang membantah argumen seperti itu dengan mengatakan, "baik itu karena minoritas mendapatkan pendidikan rendah, mendapat penghasilan lebih rendah, dan mendapat lebih sedikit pekerjaan" Anda bisa mengatakan, "Saya tidak mengklaim bahwa ras mereka menyebabkan hal-hal ini, hanya saja jika Anda melihat di ras seseorang, Anda dapat membuat prediksi tentang kondisi hidup mereka. "

Dengan cara itu, tes ketergantungan adalah kasus khusus dari tes homogenitas di mana efek yang mungkin dari faktor-faktor pengintai adalah menarik dan harus ditangani dalam analisis bertingkat. Menggunakan penyesuaian multivariat dalam model regresi logistik analog mencapai hal seperti itu, dan kita mungkin masih mengatakan kita sedang melakukan uji ketergantungan, tetapi tidak harus homogenitas.

AdamO
sumber
3

Ada perbedaan yang jelas antara kedua masalah jika Anda memodelkannya dengan cara Bayesian. Dalam beberapa makalah kasus pertama (homogenitas) disebut pengambilan sampel dengan "satu margin diperbaiki" dan kasus kedua (independensi) sebagai "total tabel tetap". Lihat, misalnya, di Casella et al. (JASA 2009) .
Saya sedang mengerjakan topik ini tetapi makalah saya - yang juga menggambarkan perbedaan ini - belum keluar :)

Emanuele
sumber
2
Ada perbedaan yang jelas dari perspektif frequentist juga - hanya saja asimptotis itu tidak masalah, & argumen sering dibuat untuk pengkondisian pada satu atau kedua margin dalam hal apapun.
Scortchi