pengantar
Saya memiliki tabel kontingensi kategoris dengan banyak baris dan hasil biner, yang saya hitung:
name outcome1 outcome2
---- -------- --------
A 14 5
B 17 2
C 6 5
D 11 8
E 18 14
Ini semua baik-baik saja, karena namun kedua kategori (nama dan hasil) independen satu sama lain, yaitu orang A tidak dapat menjadi orang B pada saat yang sama, dan hasil1 tidak terjadi pada saat yang sama dengan hasil2.
Menambah Masalah
Namun, saya sekarang ingin memperkaya kumpulan data saya dengan memberikan kelas kepada agen. Kelas tidak eksklusif, dan beberapa bahkan mungkin saling bergantung. Untuk contoh di atas, dengan empat kelas C x :
name C1 C2 C3 C4
---- --- --- --- ---
A 0 0 1 1
B 1 0 1 0
C 1 1 0 1
D 1 1 0 0
E 1 1 1 0
Saya sekarang ingin mengetahui apakah ada ketergantungan satu kelas pada hasil percobaan.
Kemungkinan (naif) Solusi
Ide saya awalnya adalah agregat berdasarkan kelas dan kemudian melakukan tes independensi, sehingga tabel akan terlihat seperti ini:
class outcome1 outcome2
------ -------- --------
C3 49 21
not_C3 17 13
Namun, kemudian terpikir oleh saya bahwa saya menutupi pengaruh kelas lain dengan metode ini, karena saya mengisolasi berdasarkan kelas, yang dapat memberi saya hasil yang buruk jika beberapa kelas sangat bergantung satu sama lain.
Juga, kumpulan data saya yang sebenarnya berisi sekitar 200 agen dan 30 kategori, jadi metode saya akan memberikan banyak hasil yang sekarang saya tahu bagaimana menafsirkannya.
Pertanyaan
Dengan mengingat hal ini, saya beralih kepada Anda: Metode statistik apa yang berlaku untuk menguji (dalam) ketergantungan pada kumpulan data dengan satu variabel non-eksklusif kategori dan satu variabel kategori biner?
Saya ingin mendapatkan beberapa hasil di sepanjang baris "Kategori 1 adalah prediktor terkuat untuk hasilnya ( p <0,01). Ini juga berkorelasi dengan Kategori 2."
Solusi menggunakan Python atau R lebih dari diterima, tetapi saya tidak perlu kode. Saya perlu tahu metode mana yang berlaku.
sumber
Jawaban:
Saya menyarankan untuk melakukan regresi poisson secara terpisah pada outcome1 dan outcome2 (variabel respon) dengan class1, class2, class3 atau class4 sebagai variabel penjelas.
Anda mengatakan bahwa kelas tidak eksklusif, tetapi ini tidak masalah jika Anda mempertimbangkan interaksi antar kelas. Anda dapat membaca lebih lanjut tentang interaksi di pos berikut: Spesifikasi dan interpretasi istilah interaksi menggunakan glm ()
Bagaimana menangani ketergantungan antar kelas (dalam hal melakukan regresi poisson), saya tidak melihat jalan keluar. Anda dapat mengukur pentingnya asosiasi dengan-uji chi-kuadrat, dan kekuatan asosiasi dengan Cramer V . Jika ini menjawab pertanyaan Anda, saya tidak tahu.
sumber