Bagaimana cara saya menguji independensi dengan variabel kategori non-eksklusif?

8

pengantar

Saya memiliki tabel kontingensi kategoris dengan banyak baris dan hasil biner, yang saya hitung:

name  outcome1  outcome2
----  --------  --------
A     14        5       
B     17        2       
C     6         5       
D     11        8       
E     18        14

Ini semua baik-baik saja, karena namun kedua kategori (nama dan hasil) independen satu sama lain, yaitu orang A tidak dapat menjadi orang B pada saat yang sama, dan hasil1 tidak terjadi pada saat yang sama dengan hasil2.

Menambah Masalah

Namun, saya sekarang ingin memperkaya kumpulan data saya dengan memberikan kelas kepada agen. Kelas tidak eksklusif, dan beberapa bahkan mungkin saling bergantung. Untuk contoh di atas, dengan empat kelas C x :

name  C1   C2   C3   C4 
----  ---  ---  ---  ---
A     0    0    1    1  
B     1    0    1    0  
C     1    1    0    1  
D     1    1    0    0  
E     1    1    1    0

Saya sekarang ingin mengetahui apakah ada ketergantungan satu kelas pada hasil percobaan.

Kemungkinan (naif) Solusi

Ide saya awalnya adalah agregat berdasarkan kelas dan kemudian melakukan tes independensi, sehingga tabel akan terlihat seperti ini:

class   outcome1  outcome2
------  --------  --------
C3      49        21
not_C3  17        13

Namun, kemudian terpikir oleh saya bahwa saya menutupi pengaruh kelas lain dengan metode ini, karena saya mengisolasi berdasarkan kelas, yang dapat memberi saya hasil yang buruk jika beberapa kelas sangat bergantung satu sama lain.

Juga, kumpulan data saya yang sebenarnya berisi sekitar 200 agen dan 30 kategori, jadi metode saya akan memberikan banyak hasil yang sekarang saya tahu bagaimana menafsirkannya.

Pertanyaan

Dengan mengingat hal ini, saya beralih kepada Anda: Metode statistik apa yang berlaku untuk menguji (dalam) ketergantungan pada kumpulan data dengan satu variabel non-eksklusif kategori dan satu variabel kategori biner?

Saya ingin mendapatkan beberapa hasil di sepanjang baris "Kategori 1 adalah prediktor terkuat untuk hasilnya ( p <0,01). Ini juga berkorelasi dengan Kategori 2."

Solusi menggunakan Python atau R lebih dari diterima, tetapi saya tidak perlu kode. Saya perlu tahu metode mana yang berlaku.

tschoppi
sumber
hasil1 dan hasil2 juga independen? Anda hanya mengatakan itu tidak terjadi secara bersamaan. Saya membayangkan Anda bisa melakukan regresi poisson di sini, jika Anda ingin mengukur ketergantungan beberapa variabel pada hasilnya. Tapi ini bisa menjadi masalah jika variabel penjelas Anda sangat tergantung.
Erosennin
Ya, hasil1 dan hasil2 independen.
tschoppi
Jika "hasil1 tidak terjadi pada saat yang sama dengan hasil2", mereka tentu tidak independen. Akan membantu menjelaskan konteksnya - tepatnya pengamatan apa yang Anda lakukan untuk setiap orang?
Scortchi
@Scortchi Bisakah Anda menguraikan pernyataan independensi itu? Mungkinkah mereka tidak mandiri karena terjadi pada saat yang sama?
Erosennin
@tschoppi Anda menulis: "Sekarang, saya ingin menetapkan (dengan tangan) kelas untuk orang-orang ini, dan kemudian menguji apakah output tergantung pada salah satu kelas. Masalah saya adalah bahwa kelas, sementara tidak harus saling bergantung satu sama lain, adalah namun tidak eksklusif. Kelas - kelas tersebut dapat saling bergantung satu sama lain. " Fakta bahwa mereka eksklusif yang dapat Anda pecahkan dengan membuat mereka berinteraksi satu sama lain ketika menentukan regresi poisson. Jika saya tidak sepenuhnya keluar jalur di sini salah memahami data dan pertanyaan Anda
Erosennin

Jawaban:

0

Saya menyarankan untuk melakukan regresi poisson secara terpisah pada outcome1 dan outcome2 (variabel respon) dengan class1, class2, class3 atau class4 sebagai variabel penjelas.

Anda mengatakan bahwa kelas tidak eksklusif, tetapi ini tidak masalah jika Anda mempertimbangkan interaksi antar kelas. Anda dapat membaca lebih lanjut tentang interaksi di pos berikut: Spesifikasi dan interpretasi istilah interaksi menggunakan glm ()

Bagaimana menangani ketergantungan antar kelas (dalam hal melakukan regresi poisson), saya tidak melihat jalan keluar. Anda dapat mengukur pentingnya asosiasi dengan-uji chi-kuadrat, dan kekuatan asosiasi dengan Cramer V . Jika ini menjawab pertanyaan Anda, saya tidak tahu.

Erosennin
sumber
Saya menduga (1) minat mungkin fokus pada jumlah hasil 1 relatif terhadap hasil 2 & (2) mengabaikan tingkat orang / agen mungkin tidak bijaksana.
Scortchi
Tidak akan (1) dijawab dengan perbandingan koefisien (keluaran dari regresi) hasil1 dan hasil2?
Erosennin
(1) Ya; tetapi bagaimana tepatnya membandingkan mereka tampaknya menjadi bagian penting dari pertanyaan itu. (Pendekatan yang mudah adalah memperlakukan 'tipe hasil' sebagai prediktor 'hitung' & untuk memasukkan semua interaksinya dengan variabel 'kelas'. Anda akan memiliki model yang lebih besar yang mencakup dua regresi terpisah Anda - ini adalah model log-linear untuk tabel kontingensi multi-dimensi - tetapi dengan perbedaan di antara mereka dengan mudah
dipisah-pisahkan
(2) Poin kedua lebih penting. Tom & Dick merokok 20 & 35 rokok lebih dari seminggu; Harry & Pete, pada beberapa pengobatan anti-merokok baru, 30 & 280. Apakah kita menilai efektivitas pengobatan dengan membandingkan total no. rokok yang dihisap oleh orang yang tidak menggunakannya, 55, dengan jumlah total no. merokok oleh orang yang menggunakannya, 310?
Scortchi
1
(1) Lihat Tes apa yang dapat saya gunakan untuk membandingkan kemiringan dari dua atau lebih model regresi? untuk ide "satu model besar" umum, & kemudian regresi Log-linear vs regresi logistik & Germán Rodríguez pada model log-linear . (2) Perbandingan berpasangan sebelum setelah akan berguna, saya tidak bermaksud menyarankan bahwa dengan contoh saya (maaf) - lebih merupakan model hierarkis.
Scortchi