Saya memiliki variabel nominal (topik pembicaraan berbeda, kode sebagai topic0 = 0 dll) dan sejumlah variabel skala (DV) seperti lama percakapan.
Bagaimana saya bisa memperoleh korelasi antara variabel nominal dan skala?
correlation
continuous-data
categorical-data
Paul Miller
sumber
sumber
Jawaban:
Judul pertanyaan ini menunjukkan kesalahpahaman mendasar. Gagasan korelasi yang paling mendasar adalah "ketika satu variabel meningkat, apakah variabel lain meningkat (korelasi positif), menurun (korelasi negatif), atau tetap sama (tidak ada korelasi)" dengan skala sedemikian sehingga korelasi positif sempurna adalah +1, tidak ada korelasi adalah 0, dan korelasi negatif sempurna adalah -1. Arti "sempurna" tergantung pada ukuran korelasi yang digunakan: untuk korelasi Pearson itu berarti titik-titik pada plot pencar terletak tepat di garis lurus (miring ke atas untuk +1 dan ke bawah untuk -1), untuk korelasi Spearman bahwa peringkat persis setuju (atau sama sekali tidak setuju, jadi pertama dipasangkan dengan yang terakhir, untuk -1), dan untuk tau Kendallbahwa semua pasangan pengamatan memiliki peringkat yang bersesuaian (atau sumbang untuk -1). Intuisi untuk bagaimana ini bekerja dalam praktiknya dapat diperoleh dari korelasi Pearson untuk plot pencar berikut ( kredit gambar ):
Wawasan lebih lanjut datang dari mempertimbangkan Anscombe's Quartet di mana keempat set data memiliki korelasi Pearson +0.816, meskipun mereka mengikuti pola "karena meningkat, y cenderung meningkat" dengan cara yang sangat berbeda ( kredit gambar ):x y
Pemberian yang mana:
Dengan menggunakan "Gosip" sebagai tingkat referensi untuk "Topik", dan mendefinisikan variabel dummy biner untuk "Olahraga" dan "Cuaca", kita dapat melakukan regresi berganda.
Perhatikan bahwa 0,825 bukan korelasi antara Durasi dan Topik - kami tidak dapat menghubungkan kedua variabel tersebut karena Topik adalah nominal. Apa yang sebenarnya diwakilinya adalah korelasi antara durasi yang diamati , dan yang diprediksi (dipasang) oleh model kami. Kedua variabel ini bersifat numerik sehingga kami dapat menghubungkannya. Faktanya nilai yang dipasang hanyalah durasi rata-rata untuk setiap kelompok:
Hanya untuk memeriksa, korelasi Pearson antara nilai yang diamati dan dipasang adalah:
Kami dapat memvisualisasikan ini di sebar plot:
Kekuatan hubungan ini secara visual sangat mirip dengan plot Kuartet Anscombe, yang tidak mengejutkan karena mereka semua memiliki korelasi Pearson sekitar 0,82.
Anda mungkin terkejut bahwa dengan variabel independen kategoris, saya memilih untuk melakukan regresi (berganda) daripada ANOVA satu arah . Namun ternyata ini menjadi pendekatan yang setara.
Ini memberikan ringkasan dengan statistik F dan nilai p yang identik:
Sekali lagi, model ANOVA cocok dengan rata-rata kelompok, seperti halnya regresi:
Namun sangat mungkin bahwa "korelasi" atau "proporsi varian tidak dijelaskan" adalah ukuran ukuran efek yang ingin Anda gunakan. Misalnya, fokus Anda mungkin lebih terletak pada bagaimana cara berbeda di antara kelompok. Pertanyaan dan jawaban ini mengandung lebih banyak informasi tentang eta kuadrat, eta kuadrat parsial, dan berbagai alternatif.
sumber