Saya mengajar kursus statistik dasar dan hari ini saya akan membahas uji independensi chi-kuadrat untuk dua kategori dan tes untuk homogenitas. Dua skenario ini secara konseptual berbeda, tetapi dapat menggunakan statistik uji dan distribusi yang sama. Dalam uji homogenitas, total marginal untuk salah satu kategori diasumsikan menjadi bagian dari desain itu sendiri - mereka mewakili jumlah mata pelajaran yang dipilih untuk setiap kelompok eksperimen. Tetapi karena uji chi-kuadrat berputar di sekitar pengondisian pada semua total marjinal, tidak ada konsekuensi matematis untuk membedakan antara tes homogenitas dan tes independensi dengan data kategoris - setidaknya tidak ada ketika tes ini digunakan.
Pertanyaan saya adalah sebagai berikut: apakah ada sekolah pemikiran statistik atau pendekatan statistik yang akan menghasilkan analisis yang berbeda, tergantung pada apakah kita menguji independensi (di mana semua marginal adalah variabel acak) atau tes homogenitas (di mana satu set marginal berada diatur oleh desain)?
Dalam kasus berkelanjutan, katakan di mana kita mengamati pada subjek yang sama, dan menguji independensi, atau mengamati pada populasi yang berbeda dan menguji jika mereka berasal dari distribusi yang sama, metodenya berbeda (korelasi analisis vs t-test). Bagaimana jika data kategorikal berasal dari variabel kontinu yang didiskritisasi? Haruskah tes independensi dan homogenitas tidak dapat dibedakan?
Jawaban:
Anda hanya perlu bertanya pada diri sendiri, "Bagaimana saya menulis hipotesis nol?" Pertimbangkan tabel kontingensi frekuensi dari beberapa perilaku (y / n) di antara sejumlah kelompok . Memperlakukan grup pertama sebagai referensi, Anda memiliki rasio odds ( ) yang menggambarkan hubungan antara frekuensi dan grup.k k - 1 θ i , i = 1 , 2 , ... , k - 12×k k k−1 θi,i=1,2,…,k−1
Di bawah independensi seperti halnya dengan homogenitas, Anda menganggap bahwa semua odds-ratios adalah 1. Artinya, kemungkinan merespons "ya" terhadap kondisi tersebut sama-sama kemungkinan terlepas dari penugasan kelompok. Jika asumsi itu gagal, setidaknya satu kelompok berbeda.
Dan tes ini dapat dilakukan dengan uji Pearson Chi-square menggunakan frekuensi yang diamati / diharapkan, yang merupakan tes skor untuk model regresi logistik yang disesuaikan untuk variabel indikator untuk keanggotaan grup. Jadi secara struktural kita dapat mengatakan bahwa tes ini sama.k−1
Namun, perbedaan muncul ketika kita mempertimbangkan sifat dari faktor pengelompokan. Dalam hal ini, penerapan tes kontekstual, atau lebih tepatnya namanya, adalah penting. Suatu kelompok dapat secara langsung menyebabkan hasil, seperti ada atau tidak adanya gen atau pola alel sifat dalam hal ini, ketika kami menolak nol, kami menyimpulkan bahwa hasilnya tergantung pada faktor pengelompokan yang dimaksud.
Di sisi lain, ketika kita menguji homogenitas, kita membebaskan diri dari membuat asumsi sebab akibat. Jadi, ketika "kelompok" adalah konstruksi canggih seperti ras (yang menyebabkan dan disebabkan oleh faktor penentu genetik, perilaku, dan sosial ekonomi) kita dapat membuat kesimpulan seperti "ras-etnis minoritas mengalami kesenjangan perumahan yang dibuktikan dengan heterogenitas dalam indeks perampasan lingkungan" . Jika seseorang membantah argumen seperti itu dengan mengatakan, "baik itu karena minoritas mendapatkan pendidikan rendah, mendapat penghasilan lebih rendah, dan mendapat lebih sedikit pekerjaan" Anda bisa mengatakan, "Saya tidak mengklaim bahwa ras mereka menyebabkan hal-hal ini, hanya saja jika Anda melihat di ras seseorang, Anda dapat membuat prediksi tentang kondisi hidup mereka. "
Dengan cara itu, tes ketergantungan adalah kasus khusus dari tes homogenitas di mana efek yang mungkin dari faktor-faktor pengintai adalah menarik dan harus ditangani dalam analisis bertingkat. Menggunakan penyesuaian multivariat dalam model regresi logistik analog mencapai hal seperti itu, dan kita mungkin masih mengatakan kita sedang melakukan uji ketergantungan, tetapi tidak harus homogenitas.
sumber
Ada perbedaan yang jelas antara kedua masalah jika Anda memodelkannya dengan cara Bayesian. Dalam beberapa makalah kasus pertama (homogenitas) disebut pengambilan sampel dengan "satu margin diperbaiki" dan kasus kedua (independensi) sebagai "total tabel tetap". Lihat, misalnya, di Casella et al. (JASA 2009) .
Saya sedang mengerjakan topik ini tetapi makalah saya - yang juga menggambarkan perbedaan ini - belum keluar :)
sumber