Saya memiliki satu set data dengan dua variabel nominal kategorikal (keduanya dengan 5 kategori). Saya ingin tahu apakah (dan bagaimana) saya dapat mengidentifikasi korelasi potensial antara kategori dari dua variabel ini.
Dengan kata lain apakah misalnya hasil kategori pada variabel 1 menunjukkan korelasi kuat dengan kategori spesifik j dalam variabel 2. Karena saya memiliki dua variabel dengan 5 kategori, analisis korelasi total untuk semua kategori akan turun menjadi 25 hasil (setidaknya jika itu bekerja seperti yang saya harapkan / harapkan berfungsi).
Saya telah mencoba merumuskan masalah menjadi pertanyaan konkret:
Pertanyaan 1: Katakanlah saya mentransfer variabel kategori ke 5 variabel dummy berbeda per nilai (kategori). Prosedur yang sama ini saya jalankan untuk variabel kedua juga. Lalu saya ingin menentukan korelasi antara dummy 1.i dan 2.i (misalnya). Apakah benar secara statistik bagi saya untuk menjalankan prosedur ini melalui prosedur koefisien korelasi biasa? Apakah koefisien korelasi yang dihasilkan dari prosedur ini memberikan wawasan yang tepat dalam korelasi antara dua variabel dummy?
Pertanyaan 2: Jika prosedur yang dijelaskan dalam pertanyaan satu adalah prosedur yang valid, apakah ada cara untuk melaksanakan analisis ini untuk semua kategori dari 2 (atau mungkin lebih) variabel nominal kategori sekaligus?
Program yang saya gunakan adalah SPSS (20).
sumber
Jawaban:
The "fokus" hubungan antara kategori dari satu variabel nominal dan kategori j dari yang lain dinyatakan oleh frekuensi sisa dalam sel i j , seperti yang kita tahu. Jika residual adalah 0 maka itu berarti frekuensi adalah apa yang diharapkan ketika dua variabel nominal tidak terkait. Semakin besar residual yang lebih besar adalah asosiasi karena menduduki kombinasi i j dalam sampel. Sisa negatif besar yang setara menyatakan kombinasi yang kurang terwakili. Jadi, sisa frekuensi adalah yang Anda inginkan.saya j saya j saya j
Residu mentah tidak cocok, karena mereka bergantung pada total marginal dan keseluruhan keseluruhan dan ukuran tabel: nilainya tidak distandarisasi dengan cara apa pun. Tetapi SPSS dapat menampilkan residu terstandarisasi yang juga disebut residu Pearson. Residual St. adalah residual dibagi dengan estimasi standar deviasi (sama dengan akar kuadrat dari nilai yang diharapkan). St residual dari suatu tabel memiliki mean 0 dan st. dev. 1; oleh karena itu, st. residual melayani nilai-z, seperti nilai-z dalam distribusi variabel kuantitatif (sebenarnya, z dalam distribusi Poisson). St residual dapat dibandingkan antara berbagai tabel dengan ukuran yang sama dan total sama . Statistik Chi-square dari tabel kontingensi adalah jumlah dari kuadrat st. residuN di dalamnya. Membandingkan st. residu dalam tabel dan melintasi tabel dengan volume yang sama membantu mengidentifikasi sel tertentu yang berkontribusi paling besar pada statistik chi-square.
SPSS juga menampilkan residu yang disesuaikan (= residu terstandarisasi yang disesuaikan). Ajj residual adalah residual dibagi dengan estimasi kesalahan standarnya. Menarik adj itu. residual sama dengan , di manaNadalah grand total danr i j adalah Pearsonkorelasi(alias Phi korelasi) antarabonekavariabel yang sesuai dengan kategoriidanjdari dua variabel nominal. Iniradalah apa yang Anda katakan Anda ingin menghitung. Ajj residual secara langsung berkaitan dengan itu.N--√rsaya j N rsaya j saya j r
Tidak seperti st. residual, adj. residual juga standar wrt dengan bentuk distribusi marginal dalam tabel (ini mempertimbangkan frekuensi yang diharapkan tidak hanya dalam sel itu tetapi juga di sel-sel di luar baris dan kolomnya) dan sehingga Anda dapat langsung melihat kekuatan dari mengikat antara kategori dan j - tanpa khawatir tentang apakah total marjinal mereka besar atau kecil relatif dari kategori lain '. Ajj residual juga seperti skor-z, tetapi sekarang itu seperti z dari distribusi normal (bukan Poisson). Jika adj. residual di atas 2 atau di bawah -2 Anda dapat menyimpulkan itu signifikan pada level 1 . Ajj residu masih dipengaruhi oleh N ; rsaya j 1 N r Bukan, tetapi Anda dapat memperoleh semua dari adj. residual, mengikuti rumus di atas, tanpa menghabiskan waktu untuk menghasilkan variabel dummy. 2r 2
p<0.05
Sehubungan dengan pertanyaan kedua Anda, tentang ikatan kategori 3 arah - ini dimungkinkan sebagai bagian dari analisis loglinear umum yang juga menampilkan residu. Namun, penggunaan praktis residu sel 3-cara adalah sederhana: 3 (+) - pengukuran asosiasi tidak mudah distandarisasi dan tidak mudah diinterpretasikan.
st. kurva normal 1,96 ≈ 2 adalah titik potong dari 2,5% ekor, jadi 5% jika Anda mempertimbangkan kedua ekor dengan hipotesis alternatif 2-sisi.1 1,96 ≈ 2
sumber
Langsung diambil dari dokumen tentang statistik bivariat dengan SPSS yang tinggal di sini :
sumber
the SPSS document
sedikit, itu bukan maksud saya untuk melampirkan keaslian yang tidak semestinya.