Korelasi jarak versus informasi timbal balik

15

Saya telah bekerja dengan informasi timbal balik untuk beberapa waktu. Tetapi saya menemukan ukuran yang sangat baru dalam "dunia korelasi" yang juga dapat digunakan untuk mengukur independensi distribusi, yang disebut "korelasi jarak" (juga disebut korelasi Brown): http://en.wikipedia.org/wiki/Brownian_covariance . Saya memeriksa makalah tempat langkah ini diperkenalkan, tetapi tanpa menemukan kiasan untuk informasi timbal balik.

Jadi, pertanyaan saya adalah:

  • Apakah mereka memecahkan masalah yang sama persis? Jika tidak, bagaimana masalahnya berbeda?
  • Dan jika pertanyaan sebelumnya dapat dijawab dengan positif, apa kelebihan menggunakan satu atau yang lain?
dsign
sumber
Cobalah untuk menuliskan secara eksplisit 'korelasi jarak' dan 'informasi timbal balik' sebagai contoh sederhana. Dalam kasus kedua, Anda akan mendapatkan logaritma, sementara pada yang pertama - tidak.
Piotr Migdal
@PiotrMigdal Ya, saya menyadari perbedaan itu. Bisakah Anda jelaskan mengapa ini penting? Tolong, perhitungkan bahwa saya bukan ahli statistik ...
dsign
Untuk ma alat standar mengukur saling ketergantungan distribusi probabilitas adalah informasi timbal balik. Ini memiliki banyak properti yang bagus dan interpretasinya mudah. Namun, mungkin ada masalah khusus di mana korelasi jarak lebih disukai (tapi saya belum pernah menggunakannya dalam hidup saya). Jadi apa masalah yang Anda coba selesaikan?
Piotr Migdal
2
Komentar ini terlambat beberapa tahun tetapi Departemen Statistik Columbia University menjadikan tahun akademik 2013-2014 sebagai tahun fokus pada langkah-langkah ketergantungan. Pada bulan April-Mei 2014, sebuah lokakarya diadakan yang menyatukan para akademisi top yang melakukan pekerjaan di bidang ini termasuk Reshef Brothers (MIC), Gabor Szekely (korelasi jarak), Subhadeep Mukhopadhay. Berikut ini tautan ke program yang menyertakan banyak pdf dari presentasi. dependence2013.wikischolars.columbia.edu/…
Mike Hunter

Jawaban:

9

Informasi / informasi timbal balik tidak tergantung pada nilai yang mungkin, itu hanya tergantung pada probabilitas karena itu kurang sensitif. Korelasi jarak lebih kuat dan lebih mudah untuk dihitung. Untuk perbandingan, lihat

http://www-stat.stanford.edu/~tibs/reshef/comment.pdf

gabor J Szekely
sumber
2
Hai, terima kasih atas jawaban Anda! Makalah yang Anda maksud adalah tentang MIC, yang saya yakini sedikit lebih dari MI. Saya telah menerapkan ukuran korelasi jarak dan saya tidak berpikir itu lebih sederhana daripada MI untuk kasus elemen variabel kategori diskrit. Kemudian lagi satu hal yang saya pelajari adalah bahwa DCM didefinisikan dengan baik dan berperilaku baik untuk variabel kontinu, tetapi dengan MI Anda perlu melakukan binning atau hal-hal mewah ala MIC.
dsign
3
Namun, DCM tampaknya membutuhkan matriks persegi yang sisinya adalah jumlah sampel. Dengan kata lain, kompleksitas ruang berskala kuadratik. Atau setidaknya itu kesan saya, saya ingin melakukan kesalahan. MIC lebih baik, karena Anda dapat menyetelnya dalam semacam kompromi antara presisi dan kinerja.
dsign