Apa ukuran "korelasi" yang berarti untuk mempelajari hubungan antara kedua jenis variabel tersebut?
Di R, bagaimana cara melakukannya?
Apa ukuran "korelasi" yang berarti untuk mempelajari hubungan antara kedua jenis variabel tersebut?
Di R, bagaimana cara melakukannya?
X <- sample(c(0,1),replace=TRUE,size=100)
(2)Y <- X + rnorm(100,0.5)
(3)corr(Y,X)
(4)X <- 1 + 10*X
(5)corr(X,Y)
: hasil yang sama untuk kedua korelasi!Jawaban:
Untuk sesaat, mari kita abaikan masalah terus menerus / diskrit. Pada dasarnya korelasi mengukur kekuatan hubungan linier antar variabel, dan Anda tampaknya meminta cara alternatif untuk mengukur kekuatan hubungan. Anda mungkin tertarik untuk melihat beberapa ide dari teori informasi . Khususnya saya pikir Anda mungkin ingin melihat informasi timbal balik . Saling informasi pada dasarnya memberi Anda cara untuk mengukur seberapa banyak mengetahui keadaan satu variabel memberitahu Anda tentang variabel lainnya. Saya benar-benar berpikir definisi ini lebih dekat dengan apa yang kebanyakan orang maksudkan ketika mereka berpikir tentang korelasi.
Untuk dua variabel diskrit X dan Y, perhitungannya adalah sebagai berikut:
Untuk dua variabel kontinu, kami mengintegrasikan daripada mengambil jumlah:
Kasing khusus Anda adalah untuk satu diskrit dan satu kontinu. Daripada mengintegrasikan lebih dari jumlah atau menjumlahkan integral, saya membayangkan akan lebih mudah untuk mengkonversi salah satu variabel menjadi tipe lain. Cara khas untuk melakukan itu adalah dengan mendiskritasikan variabel kontinu Anda menjadi nampan diskrit.
Ada beberapa cara untuk menentukan data (misalnya interval yang sama), dan saya percaya paket entropi harus membantu untuk perhitungan MI jika Anda ingin menggunakan R.
sumber
Jika variabel kategori adalah ordinal dan Anda memasukkan variabel kontinu ke dalam beberapa interval frekuensi, Anda dapat menggunakan Gamma. Juga tersedia untuk data berpasangan dimasukkan ke dalam bentuk ordinal adalah Kendal's tau, Stuart's tau dan Somers D. Ini semua tersedia di SAS menggunakan Proc Freq. Saya tidak tahu bagaimana mereka dihitung menggunakan rutin R. Berikut ini tautan ke presentasi yang memberikan informasi terperinci: http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5, Ukuran Asosiasi untuk Variabel Nominal dan Ordinal
sumber
Variabel kategorikal secara efektif hanya seperangkat variabel indikator. Ini adalah ide dasar dari teori pengukuran bahwa variabel seperti itu tidak berubah untuk relabelling dari kategori, sehingga tidak masuk akal untuk menggunakan pelabelan numerik kategori dalam setiap ukuran hubungan antara variabel lain (misalnya, 'korelasi') . Untuk alasan ini, dan ukuran hubungan antara variabel kontinu dan variabel kategorikal harus didasarkan sepenuhnya pada variabel indikator yang berasal dari variabel terakhir.
Mengingat bahwa Anda menginginkan ukuran 'korelasi' antara kedua variabel, masuk akal untuk melihat korelasi antara variabel acak kontinu dan variabel acak indikator I yang berasal dari variabel kategorikal. Membiarkan ϕ ≡ P ( I = 1 ) kita miliki:X I ϕ≡P(I=1)
pemberian yang mana:
Jadi korelasi antara variabel acak kontinu dan variabel acak indikator I adalah fungsi yang cukup sederhana dari probabilitas indikator ϕ dan gain terstandarisasi dalam nilai X yang diharapkan dari pengkondisian pada I = 1 . Perhatikan bahwa korelasi ini tidak memerlukan diskritisasi variabel acak kontinu.X I ϕ X I=1
sumber
Paket R mpmi memiliki kemampuan untuk menghitung informasi timbal balik untuk kasus variabel campuran, yaitu kontinu dan diskrit. Meskipun ada opsi statistik lain seperti (titik) koefisien korelasi biserial berguna di sini, akan bermanfaat dan sangat disarankan untuk menghitung informasi timbal balik karena dapat mendeteksi hubungan selain linier dan monotonik.
sumber
Perlu dicatat, bahwa korelasi point-polyserial hanyalah generalisasi dari point-biserial.
Untuk tampilan yang lebih luas, inilah tabel dari Olsson, Drasgow & Dorans (1982) [1].
[1]: Sumber: Olsson, U., Drasgow, F., & Dorans, NJ (1982). Koefisien korelasi polisial. Psychometrika, 47 (3), 337–347
sumber