Korelasi antar kategori antara variabel nominal kategori

9

Saya memiliki satu set data dengan dua variabel nominal kategorikal (keduanya dengan 5 kategori). Saya ingin tahu apakah (dan bagaimana) saya dapat mengidentifikasi korelasi potensial antara kategori dari dua variabel ini.

Dengan kata lain apakah misalnya hasil kategori pada variabel 1 menunjukkan korelasi kuat dengan kategori spesifik j dalam variabel 2. Karena saya memiliki dua variabel dengan 5 kategori, analisis korelasi total untuk semua kategori akan turun menjadi 25 hasil (setidaknya jika itu bekerja seperti yang saya harapkan / harapkan berfungsi).ij

Saya telah mencoba merumuskan masalah menjadi pertanyaan konkret:

Pertanyaan 1: Katakanlah saya mentransfer variabel kategori ke 5 variabel dummy berbeda per nilai (kategori). Prosedur yang sama ini saya jalankan untuk variabel kedua juga. Lalu saya ingin menentukan korelasi antara dummy 1.i dan 2.i (misalnya). Apakah benar secara statistik bagi saya untuk menjalankan prosedur ini melalui prosedur koefisien korelasi biasa? Apakah koefisien korelasi yang dihasilkan dari prosedur ini memberikan wawasan yang tepat dalam korelasi antara dua variabel dummy?

Pertanyaan 2: Jika prosedur yang dijelaskan dalam pertanyaan satu adalah prosedur yang valid, apakah ada cara untuk melaksanakan analisis ini untuk semua kategori dari 2 (atau mungkin lebih) variabel nominal kategori sekaligus?

Program yang saya gunakan adalah SPSS (20).

pengguna32378
sumber
Poin yang dibuat oleh @Michael Mayer berlaku untuk pertanyaan yang direvisi.
Nick Cox
1
Jika dua variabel tidak berkorelasi, maka Anda akan memiliki 1/25 di setiap sel frekuensi matriks 5x5. Oleh karena itu, statistik Σ x y ( O - E ) 2χ2 , di manaE=xyOxy/25danOxy- frekuensi yang diamati untuk salah satu dari 5 nilai dari dua variabel, harus sesuai. xy(OE)2EE=xyOxy/25Oxy
Aksakal
3
@Aksakal "Tidak berkorelasi" adalah istilah yang salah di sini; variabelnya nominal, jadi korelasi tidak ditentukan. Saya pikir maksud Anda independen, tetapi independensi juga tidak menyiratkan frekuensi yang sama. Frekuensi sel di bawah independensi tergantung pada frekuensi marginal.
Nick Cox

Jawaban:

6

The "fokus" hubungan antara kategori dari satu variabel nominal dan kategori j dari yang lain dinyatakan oleh frekuensi sisa dalam sel i j , seperti yang kita tahu. Jika residual adalah 0 maka itu berarti frekuensi adalah apa yang diharapkan ketika dua variabel nominal tidak terkait. Semakin besar residual yang lebih besar adalah asosiasi karena menduduki kombinasi i j dalam sampel. Sisa negatif besar yang setara menyatakan kombinasi yang kurang terwakili. Jadi, sisa frekuensi adalah yang Anda inginkan.ijijij

Residu mentah tidak cocok, karena mereka bergantung pada total marginal dan keseluruhan keseluruhan dan ukuran tabel: nilainya tidak distandarisasi dengan cara apa pun. Tetapi SPSS dapat menampilkan residu terstandarisasi yang juga disebut residu Pearson. Residual St. adalah residual dibagi dengan estimasi standar deviasi (sama dengan akar kuadrat dari nilai yang diharapkan). St residual dari suatu tabel memiliki mean 0 dan st. dev. 1; oleh karena itu, st. residual melayani nilai-z, seperti nilai-z dalam distribusi variabel kuantitatif (sebenarnya, z dalam distribusi Poisson). St residual dapat dibandingkan antara berbagai tabel dengan ukuran yang sama dan total sama . Statistik Chi-square dari tabel kontingensi adalah jumlah dari kuadrat st. residuNdi dalamnya. Membandingkan st. residu dalam tabel dan melintasi tabel dengan volume yang sama membantu mengidentifikasi sel tertentu yang berkontribusi paling besar pada statistik chi-square.

SPSS juga menampilkan residu yang disesuaikan (= residu terstandarisasi yang disesuaikan). Ajj residual adalah residual dibagi dengan estimasi kesalahan standarnya. Menarik adj itu. residual sama dengan , di manaNadalah grand total danr i j adalah Pearsonkorelasi(alias Phi korelasi) antarabonekavariabel yang sesuai dengan kategoriidanjdari dua variabel nominal. Iniradalah apa yang Anda katakan Anda ingin menghitung. Ajj residual secara langsung berkaitan dengan itu.NrijNrijijr

Tidak seperti st. residual, adj. residual juga standar wrt dengan bentuk distribusi marginal dalam tabel (ini mempertimbangkan frekuensi yang diharapkan tidak hanya dalam sel itu tetapi juga di sel-sel di luar baris dan kolomnya) dan sehingga Anda dapat langsung melihat kekuatan dari mengikat antara kategori dan j - tanpa khawatir tentang apakah total marjinal mereka besar atau kecil relatif dari kategori lain '. Ajj residual juga seperti skor-z, tetapi sekarang itu seperti z dari distribusi normal (bukan Poisson). Jika adj. residual di atas 2 atau di bawah -2 Anda dapat menyimpulkan itu signifikan pada level 1 . Ajj residu masih dipengaruhi oleh N ; rijp<0.051NrBukan, tetapi Anda dapat memperoleh semua dari adj. residual, mengikuti rumus di atas, tanpa menghabiskan waktu untuk menghasilkan variabel dummy. 2r2

Sehubungan dengan pertanyaan kedua Anda, tentang ikatan kategori 3 arah - ini dimungkinkan sebagai bagian dari analisis loglinear umum yang juga menampilkan residu. Namun, penggunaan praktis residu sel 3-cara adalah sederhana: 3 (+) - pengukuran asosiasi tidak mudah distandarisasi dan tidak mudah diinterpretasikan.


st. kurva normal 1,96 2 adalah titik potong dari 2,5% ekor, jadi 5% jika Anda mempertimbangkan kedua ekor dengan hipotesis alternatif 2-sisi.11.962

2ijrijPr(i,1)Pr(i,2)ii

ttnphns
sumber
1

Langsung diambil dari dokumen tentang statistik bivariat dengan SPSS yang tinggal di sini :

Chi-square adalah teknik yang berguna karena Anda dapat menggunakannya untuk melihat apakah ada hubungan antara dua variabel ordinal, dua variabel nominal, atau antara variabel ordinal dan variabel nominal. Anda melihat assymp. Kolom sig dan jika kurang dari 0,05, hubungan antara kedua variabel secara statistik signifikan.

Zhubarb
sumber
4
OK, tapi tiga mengomel, satu besar, dua sangat kecil. Chi-square pada dua variabel ordinal mengabaikan urutan. Ini bukan yang dokumen SPSS, tapi pengenalan dasar oleh orang lain, dan mereka lebih-menyederhanakan, seperti yang baru saja disebutkan. Mereka tidak menyalin "Asymp." dengan benar (contoh di halaman sebelumnya). Masalah yang lebih besar untuk OP adalah bahwa korelasi adalah kata yang salah di sini: "asosiasi" adalah kata kunci, dalam hal mengukur, menguji, dan (terbaik dari semuanya) memodelkan asosiasi.
Nick Cox
1
Terima kasih, saya edit the SPSS documentsedikit, itu bukan maksud saya untuk melampirkan keaslian yang tidak semestinya.
Zhubarb