Menggunakan informasi timbal balik untuk memperkirakan korelasi antara variabel kontinu dan variabel kategori

13

Adapun judulnya, idenya adalah menggunakan informasi timbal balik, di sini dan setelah MI, untuk memperkirakan "korelasi" (didefinisikan sebagai "seberapa banyak yang saya ketahui tentang A ketika saya tahu B") antara variabel kontinu dan variabel kategorikal. Saya akan memberi tahu Anda pemikiran saya tentang masalah ini sebentar lagi, tetapi sebelum saya menyarankan Anda untuk membaca pertanyaan / jawaban lain ini di CrossValidated karena berisi beberapa informasi yang berguna.

Sekarang, karena kita tidak dapat berintegrasi dengan variabel kategorikal, kita perlu memutuskan yang berkelanjutan. Ini dapat dilakukan dengan cukup mudah di R, yang merupakan bahasa yang telah saya gunakan sebagian besar analisis saya. Saya lebih suka menggunakan cutfungsi, karena ini juga alias nilai-nilai, tetapi opsi lain juga tersedia. Intinya adalah, kita harus memutuskan apriori jumlah "tempat sampah" (keadaan diskrit) sebelum diskritisasi dapat dilakukan.

Masalah utama, bagaimanapun, adalah satu lagi: MI berkisar dari 0 hingga ∞, karena merupakan ukuran yang tidak standar unit mana yang merupakan bit. Itu membuat sangat sulit untuk menggunakannya sebagai koefisien korelasi. Ini dapat sebagian diselesaikan dengan menggunakan koefisien korelasi global , di sini dan setelah GCC, yang merupakan versi MI standar; GCC didefinisikan sebagai berikut:

masukkan deskripsi gambar di sini

Referensi: rumusnya adalah dari Mutual Information sebagai Alat Nonlinier untuk Menganalisis Globalisasi Pasar Saham oleh Andreia Dionísio, Rui Menezes & Diana Mendes, 2010.

GCC berkisar dari 0 hingga 1, dan karenanya dapat dengan mudah digunakan untuk memperkirakan korelasi antara dua variabel. Masalah terpecahkan, bukan? Yah, agak. Karena semua proses ini sangat bergantung pada jumlah 'tempat sampah' yang kami putuskan untuk digunakan selama diskritisasi. Di sini hasil percobaan saya:

masukkan deskripsi gambar di sini

Pada sumbu y, Anda memiliki GCC dan pada sumbu x Anda memiliki jumlah 'nampan' yang saya putuskan untuk digunakan untuk diskritisasi. Dua baris mengacu pada dua analisis berbeda yang saya lakukan pada dua dataset berbeda (meskipun sangat mirip).

Tampaknya bagi saya bahwa penggunaan MI pada umumnya dan GCC pada khususnya masih kontroversial. Namun, kebingungan ini mungkin akibat kesalahan dari pihak saya. Apa pun masalahnya, saya ingin mendengar pendapat Anda tentang masalah ini (juga, apakah Anda memiliki metode alternatif untuk memperkirakan korelasi antara variabel kategori dan variabel kontinu?).

Edgar Derby
sumber
2
H(Xi,Xj)H(Xi)+H(Xj)
BTW, di sini adalah kode dalam kasus ada yang ingin mencoba metode Binning.
zkurtz
4
Anda tidak memperkirakan "korelasi". Anda memperkirakan informasi timbal balik. Yang satu tidak memperkirakan yang lain; mereka adalah ukuran yang berbeda dari konsep asosiasi yang lebih umum .
zkurtz
Mungkin judul yang lebih baik untuk posting ini adalah "Bagaimana cara terbaik bin variabel kontinu untuk memperkirakan informasi timbal balik dengan variabel kategori?"
zkurtz
Ini adalah pendekatan non-binning yang menarik. Sayangnya saya tidak dapat menemukan implementasi R.
zkurtz

Jawaban:

5

Ada cara yang lebih sederhana dan lebih baik untuk menangani masalah ini. Variabel kategorikal secara efektif hanya seperangkat variabel indikator. Ini adalah ide dasar dari teori pengukuran bahwa variabel seperti itu tidak berubah untuk relabelling dari kategori, sehingga tidak masuk akal untuk menggunakan pelabelan numerik dari kategori dalam setiap ukuran hubungan antara variabel lain (misalnya, 'korelasi') . Untuk alasan ini, dan ukuran hubungan antara variabel kontinu dan variabel kategorikal harus didasarkan sepenuhnya pada variabel indikator yang berasal dari variabel terakhir.

XIϕP(I=1)

Cov(I,X)=E(IX)E(I)E(X)=ϕ[E(X|I=1)E(X)],

pemberian yang mana:

Corr(I,X)=ϕ1ϕE(X|I=1)E(X)S(X).

XIϕXI=1


C1,...,mC=kIkI(C=k)

Corr(Ik,X)=ϕk1ϕkE(X|C=k)E(X)S(X).

Corr(C,X)(Corr(I1,X),...,Corr(Im,X))

kCov(Ik,X)=0Xm1


(x1,c1),...,(xn,cn)

ϕ^k1ni=1nI(ci=k).

E^(X)x¯1ni=1nxi.

E^(X|C=k)x¯k1ni=1nxiI(ci=k)/ϕ^k.

S^(X)sX1n1i=1n(xix¯)2.

X

Ben - Pasang kembali Monica
sumber