Korelasi antara variabel nominal (IV) dan variabel kontinu (DV)

77

Saya memiliki variabel nominal (topik pembicaraan berbeda, kode sebagai topic0 = 0 dll) dan sejumlah variabel skala (DV) seperti lama percakapan.

Bagaimana saya bisa memperoleh korelasi antara variabel nominal dan skala?

Paul Miller
sumber
3
Ukuran asosiasi / korelasi yang paling alami antara variabel nominal (diambil sebagai IV) dan skala (diambil sebagai DV) adalah eta.
ttnphns
Jika saya mengerti dengan benar, Anda ingin mengatakan sesuatu tentang hubungan antara topik percakapan (seperti IV?) Dan durasi percakapan (DV). '' misalnya, hypo = topik 1 berarti percakapan yang jauh lebih singkat daripada topik 2 '', jika contoh ini adalah yang Anda maksudkan: Anda akan menggunakan ANOVA untuk ini (jika lebih banyak MANOVA DV, atau beberapa anova) Apakah ini yang Anda maksud? kalimat dengan pertanyaan Anda cukup ambigu ..
Steven B. Peutz

Jawaban:

160

Judul pertanyaan ini menunjukkan kesalahpahaman mendasar. Gagasan korelasi yang paling mendasar adalah "ketika satu variabel meningkat, apakah variabel lain meningkat (korelasi positif), menurun (korelasi negatif), atau tetap sama (tidak ada korelasi)" dengan skala sedemikian sehingga korelasi positif sempurna adalah +1, tidak ada korelasi adalah 0, dan korelasi negatif sempurna adalah -1. Arti "sempurna" tergantung pada ukuran korelasi yang digunakan: untuk korelasi Pearson itu berarti titik-titik pada plot pencar terletak tepat di garis lurus (miring ke atas untuk +1 dan ke bawah untuk -1), untuk korelasi Spearman bahwa peringkat persis setuju (atau sama sekali tidak setuju, jadi pertama dipasangkan dengan yang terakhir, untuk -1), dan untuk tau Kendallbahwa semua pasangan pengamatan memiliki peringkat yang bersesuaian (atau sumbang untuk -1). Intuisi untuk bagaimana ini bekerja dalam praktiknya dapat diperoleh dari korelasi Pearson untuk plot pencar berikut ( kredit gambar ):

Korelasi Pearson untuk berbagai plot pencar

Wawasan lebih lanjut datang dari mempertimbangkan Anscombe's Quartet di mana keempat set data memiliki korelasi Pearson +0.816, meskipun mereka mengikuti pola "karena meningkat, y cenderung meningkat" dengan cara yang sangat berbeda ( kredit gambar ):xy

Plot pencar untuk Kuartet Anscombe

x

data.df <- data.frame(
    topic = c(rep(c("Gossip", "Sports", "Weather"), each = 4)),
    duration  = c(6:9, 2:5, 4:7)
)
print(data.df)
boxplot(duration ~ topic, data = data.df, ylab = "Duration of conversation")

Pemberian yang mana:

> print(data.df)
     topic duration
1   Gossip        6
2   Gossip        7
3   Gossip        8
4   Gossip        9
5   Sports        2
6   Sports        3
7   Sports        4
8   Sports        5
9  Weather        4
10 Weather        5
11 Weather        6
12 Weather        7

Petak kotak untuk data palsu

Dengan menggunakan "Gosip" sebagai tingkat referensi untuk "Topik", dan mendefinisikan variabel dummy biner untuk "Olahraga" dan "Cuaca", kita dapat melakukan regresi berganda.

> model.lm <- lm(duration ~ topic, data = data.df)
> summary(model.lm)

Call:
lm(formula = duration ~ topic, data = data.df)

Residuals:
   Min     1Q Median     3Q    Max 
 -1.50  -0.75   0.00   0.75   1.50 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)    7.5000     0.6455  11.619 1.01e-06 ***
topicSports   -4.0000     0.9129  -4.382  0.00177 ** 
topicWeather  -2.0000     0.9129  -2.191  0.05617 .  
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.291 on 9 degrees of freedom
Multiple R-squared: 0.6809,     Adjusted R-squared: 0.6099 
F-statistic:   9.6 on 2 and 9 DF,  p-value: 0.005861 

R2=0.6809R2R

> rsq <- summary(model.lm)$r.squared
> rsq
[1] 0.6808511
> sqrt(rsq)
[1] 0.825137

Perhatikan bahwa 0,825 bukan korelasi antara Durasi dan Topik - kami tidak dapat menghubungkan kedua variabel tersebut karena Topik adalah nominal. Apa yang sebenarnya diwakilinya adalah korelasi antara durasi yang diamati , dan yang diprediksi (dipasang) oleh model kami. Kedua variabel ini bersifat numerik sehingga kami dapat menghubungkannya. Faktanya nilai yang dipasang hanyalah durasi rata-rata untuk setiap kelompok:

> print(model.lm$fitted)
  1   2   3   4   5   6   7   8   9  10  11  12 
7.5 7.5 7.5 7.5 3.5 3.5 3.5 3.5 5.5 5.5 5.5 5.5 

Hanya untuk memeriksa, korelasi Pearson antara nilai yang diamati dan dipasang adalah:

> cor(data.df$duration, model.lm$fitted)
[1] 0.825137

Kami dapat memvisualisasikan ini di sebar plot:

plot(x = model.lm$fitted, y = data.df$duration,
     xlab = "Fitted duration", ylab = "Observed duration")
abline(lm(data.df$duration ~ model.lm$fitted), col="red")

Visualisasikan koefisien korelasi berganda antara nilai yang diamati dan yang dipasang

Kekuatan hubungan ini secara visual sangat mirip dengan plot Kuartet Anscombe, yang tidak mengejutkan karena mereka semua memiliki korelasi Pearson sekitar 0,82.

Anda mungkin terkejut bahwa dengan variabel independen kategoris, saya memilih untuk melakukan regresi (berganda) daripada ANOVA satu arah . Namun ternyata ini menjadi pendekatan yang setara.

library(heplots) # for eta
model.aov <- aov(duration ~ topic, data = data.df)
summary(model.aov)

Ini memberikan ringkasan dengan statistik F dan nilai p yang identik:

            Df Sum Sq Mean Sq F value  Pr(>F)   
topic        2     32  16.000     9.6 0.00586 **
Residuals    9     15   1.667                   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Sekali lagi, model ANOVA cocok dengan rata-rata kelompok, seperti halnya regresi:

> print(model.aov$fitted)
  1   2   3   4   5   6   7   8   9  10  11  12 
7.5 7.5 7.5 7.5 3.5 3.5 3.5 3.5 5.5 5.5 5.5 5.5 

R2η2

> etasq(model.aov, partial = FALSE)
              eta^2
topic     0.6808511
Residuals        NA

ηη2RR2eta kuadrat. Karena ANOVA ini satu arah (hanya ada satu prediktor kategori), eta parsial kuadrat sama dengan eta kuadrat, tetapi hal-hal berubah dalam model dengan lebih banyak prediktor.

> etasq(model.aov, partial = TRUE)
          Partial eta^2
topic         0.6808511
Residuals            NA

Namun sangat mungkin bahwa "korelasi" atau "proporsi varian tidak dijelaskan" adalah ukuran ukuran efek yang ingin Anda gunakan. Misalnya, fokus Anda mungkin lebih terletak pada bagaimana cara berbeda di antara kelompok. Pertanyaan dan jawaban ini mengandung lebih banyak informasi tentang eta kuadrat, eta kuadrat parsial, dan berbagai alternatif.

Gegat
sumber
4
R0.82
ηRηη
r=0.9R=0.9ηRr
ηrR
eta21