Saya sedang membangun model regresi dan saya perlu menghitung di bawah ini untuk memeriksa korelasi
- Korelasi antara 2 variabel kategori multi level
- Korelasi antara variabel kategori Multi level dan variabel kontinu
- VIF (variance inflation factor) untuk variabel kategori multi level
Saya percaya salah menggunakan koefisien korelasi Pearson untuk skenario di atas karena Pearson hanya bekerja untuk 2 variabel kontinu.
Harap jawab pertanyaan di bawah ini
- Koefisien korelasi mana yang paling cocok untuk kasus-kasus di atas?
- Perhitungan VIF hanya berfungsi untuk data kontinu jadi apa alternatifnya?
- Apa asumsi yang perlu saya periksa sebelum saya menggunakan koefisien korelasi yang Anda sarankan?
- Bagaimana cara mengimplementasikannya di SAS & R?
r
statistics
correlation
GeorgeOfTheRF
sumber
sumber
Jawaban:
Dua Variabel Kategorikal
Memeriksa apakah dua variabel kategori independen dapat dilakukan dengan uji independensi Chi-Squared.
Ini adalah tes Chi-Square yang khas : jika kita mengasumsikan bahwa dua variabel independen, maka nilai tabel kontingensi untuk variabel-variabel ini harus didistribusikan secara seragam. Dan kemudian kita periksa seberapa jauh dari seragam nilai sebenarnya.
Ada juga Crammer's V yang merupakan ukuran korelasi yang mengikuti dari tes ini
Contoh
Misalkan kita memiliki dua variabel
Kami mengamati data berikut:
Apakah gender dan kota mandiri? Mari kita lakukan tes Chi-Squred. Hipotesis kosong: mereka independen, hipotesis alternatif adalah bahwa mereka berkorelasi dalam beberapa cara.
Di bawah hipotesis Null, kami menganggap distribusi seragam. Jadi nilai yang kami harapkan adalah sebagai berikut
Jadi kita menjalankan uji chi-squared dan nilai-p yang dihasilkan di sini dapat dilihat sebagai ukuran korelasi antara kedua variabel ini.
Untuk menghitung V Crammer, pertama-tama kita temukan faktor normalisasi chi-squared-max yang biasanya ukuran sampel, bagi chi-square dengan itu dan ambil akar kuadrat
R
Di sini nilai p adalah 0,08 - cukup kecil, tetapi masih belum cukup untuk menolak hipotesis independensi. Jadi kita dapat mengatakan bahwa "korelasi" di sini adalah 0,08
Kami juga menghitung V:
Dan dapatkan 0,14 (semakin kecil v, semakin rendah korelasinya)
Pertimbangkan dataset lain
Untuk ini, itu akan memberikan yang berikut
Nilai-p adalah 0,72 yang jauh lebih dekat dengan 1, dan v adalah 0,03 - sangat dekat dengan 0
Variabel Kategorikal vs Variabel
Untuk jenis ini kami biasanya melakukan uji ANOVA satu arah : kami menghitung varians dalam grup dan varians intra-grup dan kemudian membandingkannya.
Contoh
Kami ingin mempelajari hubungan antara lemak yang diserap dari donat dengan jenis lemak yang digunakan untuk menghasilkan donat (contoh diambil dari sini )
Apakah ada ketergantungan antar variabel? Untuk itu kami melakukan uji ANOVA dan melihat bahwa nilai-p hanya 0,007 - tidak ada korelasi antara variabel-variabel ini.
R
Output adalah
Jadi kita dapat mengambil nilai-p sebagai ukuran korelasi di sini juga.
Referensi
sumber
kruskal-wallic
digunakanone-way anova
? Terima kasih sebelumnya.