Bagaimana saya mempelajari “korelasi” antara variabel kontinu dan variabel kategorikal?

19

Apa ukuran "korelasi" yang berarti untuk mempelajari hubungan antara kedua jenis variabel tersebut?

Di R, bagaimana cara melakukannya?

r correlation categorical-data association-measure Luna
sumber

1

sebelum Anda bertanya "bagaimana cara Anda belajar", Anda harus memiliki jawaban untuk "bagaimana Anda mendefinisikan" :-) BTW, jika Anda memproyeksikan variabel kategorikal ke angka bilangan bulat, Anda sudah dapat melakukan korelasi.

Penasaran

2

@ Thomas, jika Anda melakukan itu, perkiraan kekuatan hubungan tergantung pada bagaimana Anda memutuskan untuk memberi label poin, yang agak menakutkan :)

Makro

@ Macro, Anda benar - argumen kuat lain untuk memiliki definisi yang baik!

Penasaran

@ Macro Kecuali saya salah paham maksud Anda, nggak. Korelasi tidak sensitif terhadap transformasi linear. Jadi cor (X, Y) = cor (a + bX, Y) untuk a dan b terbatas. Pelabelan ulang 0/1 sebagai 1/11 tidak melakukan apa pun untuk korelasi menggunakan var atau transformasi liniernya.

Alexis

@Curious lihat komentar saya untuk Makro di atas. Dan perhatikan: (1) X <- sample(c(0,1),replace=TRUE,size=100)(2) Y <- X + rnorm(100,0.5)(3) corr(Y,X)(4) X <- 1 + 10*X(5) corr(X,Y): hasil yang sama untuk kedua korelasi!

Alexis

19

Untuk sesaat, mari kita abaikan masalah terus menerus / diskrit. Pada dasarnya korelasi mengukur kekuatan hubungan linier antar variabel, dan Anda tampaknya meminta cara alternatif untuk mengukur kekuatan hubungan. Anda mungkin tertarik untuk melihat beberapa ide dari teori informasi . Khususnya saya pikir Anda mungkin ingin melihat informasi timbal balik . Saling informasi pada dasarnya memberi Anda cara untuk mengukur seberapa banyak mengetahui keadaan satu variabel memberitahu Anda tentang variabel lainnya. Saya benar-benar berpikir definisi ini lebih dekat dengan apa yang kebanyakan orang maksudkan ketika mereka berpikir tentang korelasi.

Untuk dua variabel diskrit X dan Y, perhitungannya adalah sebagai berikut:

I (X; Y) = \sum_{y \in Y} \sum_{x \in X} p (x, y) \log (\frac{p (x, y)}{p (x) p (y)})

$I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) }$

Untuk dua variabel kontinu, kami mengintegrasikan daripada mengambil jumlah:

I (X; Y) = \int_{Y} \int_{X} p (x, y) \log (\frac{p (x, y)}{p (x) p (y)}) d x d y

$I(X;Y) = \int_Y \int_X p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) } \; dx \,dy$

Kasing khusus Anda adalah untuk satu diskrit dan satu kontinu. Daripada mengintegrasikan lebih dari jumlah atau menjumlahkan integral, saya membayangkan akan lebih mudah untuk mengkonversi salah satu variabel menjadi tipe lain. Cara khas untuk melakukan itu adalah dengan mendiskritasikan variabel kontinu Anda menjadi nampan diskrit.

Ada beberapa cara untuk menentukan data (misalnya interval yang sama), dan saya percaya paket entropi harus membantu untuk perhitungan MI jika Anda ingin menggunakan R.

Michael McGowan
sumber

1

Terima kasih. Tetapi seberapa tinggi MI sesuai dengan corr = 1 dan seberapa rendah MI sesuai dengan corr = 0?

Luna

MI memiliki minimum 0, dan MI = 0 jika dan hanya jika variabelnya independen. MI tidak memiliki batas atas konstan (batas atas terkait dengan entropi variabel), jadi Anda mungkin ingin melihat salah satu versi yang dinormalisasi jika itu penting bagi Anda.

Michael McGowan

6

Jika variabel kategori adalah ordinal dan Anda memasukkan variabel kontinu ke dalam beberapa interval frekuensi, Anda dapat menggunakan Gamma. Juga tersedia untuk data berpasangan dimasukkan ke dalam bentuk ordinal adalah Kendal's tau, Stuart's tau dan Somers D. Ini semua tersedia di SAS menggunakan Proc Freq. Saya tidak tahu bagaimana mereka dihitung menggunakan rutin R. Berikut ini tautan ke presentasi yang memberikan informasi terperinci: http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5, Ukuran Asosiasi untuk Variabel Nominal dan Ordinal

Michael R. Chernick
sumber

1

Variabel kategorikal secara efektif hanya seperangkat variabel indikator. Ini adalah ide dasar dari teori pengukuran bahwa variabel seperti itu tidak berubah untuk relabelling dari kategori, sehingga tidak masuk akal untuk menggunakan pelabelan numerik kategori dalam setiap ukuran hubungan antara variabel lain (misalnya, 'korelasi') . Untuk alasan ini, dan ukuran hubungan antara variabel kontinu dan variabel kategorikal harus didasarkan sepenuhnya pada variabel indikator yang berasal dari variabel terakhir.

Mengingat bahwa Anda menginginkan ukuran 'korelasi' antara kedua variabel, masuk akal untuk melihat korelasi antara variabel acak kontinu dan variabel acak indikator berasal dari variabel kategorikal. Membiarkan kita miliki: $X$ $I$ $\phi \equiv \mathbb{P}(I=1)$

C o v (I, X) = E (I X) - E (I) E (X) = ϕ [E (X | I = 1) - E (X)],

$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$

pemberian yang mana:

C o r r (I, X) = \sqrt{\frac{ϕ}{1 - ϕ}} \cdot \frac{E (X | I = 1) - E (X)}{S (X)} .

$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

Jadi korelasi antara variabel acak kontinu dan variabel acak indikator adalah fungsi yang cukup sederhana dari probabilitas indikator dan gain terstandarisasi dalam nilai diharapkan dari pengkondisian pada . Perhatikan bahwa korelasi ini tidak memerlukan diskritisasi variabel acak kontinu. $X$ $I$ $\phi$ $X$ $I=1$

$C$ $1, ..., m$ $C=k$ $I_k \equiv \mathbb{I}(C=k)$

C o r r (I_{k}, X) = \sqrt{\frac{ϕ_{k}}{1 - ϕ_{k}}} \cdot \frac{E (X | C = k) - E (X)}{S (X)} .

$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$

$\sum_k \mathbb{Cov}(I_k,X) = 0$ $X$ $m-1$

$(x_1, c_1), ..., (x_n, c_n)$

{\hat{ϕ}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} I (c_{i} = k) .

$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$

\hat{E} (X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} .

$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$

\hat{E} (X | C = k) \equiv {\bar{x}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} I (c_{i} = k) / {\hat{ϕ}}_{k} .

$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$

\hat{S} (X) \equiv s_{X} \equiv \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} .

$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$

$X$

Pasang kembali Monica
sumber

0

Paket R mpmi memiliki kemampuan untuk menghitung informasi timbal balik untuk kasus variabel campuran, yaitu kontinu dan diskrit. Meskipun ada opsi statistik lain seperti (titik) koefisien korelasi biserial berguna di sini, akan bermanfaat dan sangat disarankan untuk menghitung informasi timbal balik karena dapat mendeteksi hubungan selain linier dan monotonik.

siyisoy
sumber

0

$X$ $Y$ $X$ $Y$

$Y$
$Y$

Perlu dicatat, bahwa korelasi point-polyserial hanyalah generalisasi dari point-biserial.

Untuk tampilan yang lebih luas, inilah tabel dari Olsson, Drasgow & Dorans (1982) [1].

[1]: Sumber: Olsson, U., Drasgow, F., & Dorans, NJ (1982). Koefisien korelasi polisial. Psychometrika, 47 (3), 337–347

Waldir Leoncio
sumber

Bagaimana saya mempelajari “korelasi” antara variabel kontinu dan variabel kategorikal?

Jawaban: