Baru-baru ini, saya membaca dua artikel. Yang pertama adalah tentang sejarah korelasi dan yang kedua adalah tentang metode baru yang disebut Maximal Information Coefficient (MIC). Saya butuh bantuan Anda untuk memahami metode MIC untuk memperkirakan korelasi non-linear antara variabel.
Selain itu, Instruksi penggunaannya dalam R dapat ditemukan di situs web penulis (di bawah Unduhan ):
Saya harap ini akan menjadi platform yang baik untuk membahas dan memahami metode ini. Ketertarikan saya untuk membahas intuisi di balik metode ini dan bagaimana hal itu dapat diperluas seperti yang dikatakan penulis.
" ... kita perlu ekstensi MIC (X, Y) ke MIC (X, Y | Z). Kita akan ingin tahu berapa banyak data yang dibutuhkan untuk mendapatkan estimasi MIC yang stabil, seberapa rentan terhadap outlier, berapa tiga - atau hubungan dimensi tinggi yang akan dilewatkan, dan banyak lagi. MIC adalah langkah maju yang bagus, tetapi ada banyak langkah yang harus diambil. "
Jawaban:
Apakah ini tidak mengatakan bahwa ini diterbitkan dalam jurnal non-statistik yang kami tidak yakin dengan rekan sejawat statistiknya? Masalah ini diselesaikan oleh Hoeffding pada tahun 1948 (Annals of Mathematical Statistics 19: 546) yang mengembangkan algoritma langsung yang tidak memerlukan binning atau beberapa langkah. Karya Hoeffding bahkan tidak dirujuk dalam artikel Science. Ini telah dalam
hoeffd
fungsi R dalamHmisc
paket selama bertahun-tahun. Berikut sebuah contoh (ketikexample(hoeffd)
R):hoeffd
menggunakan implementasi Fortran yang cukup efisien dari metode Hoeffding. Gagasan dasar dari pengujiannya adalah untuk mempertimbangkan perbedaan antara peringkat gabungan X dan Y dan produk dari peringkat marginal X dan peringkat marginal Y, dengan skala yang sesuai.Memperbarui
Hmisc
sumber
Gagasan utama penulis adalah untuk mendiskritisasi data ke banyak grid dua dimensi yang berbeda dan menghitung skor yang dinormalisasi yang mewakili informasi timbal balik dari dua variabel pada setiap grid. Skor dinormalisasi untuk memastikan perbandingan yang adil antara grid yang berbeda dan bervariasi antara 0 (tidak berkorelasi) dan 1 (korelasi tinggi).
sumber
Saya menemukan dua artikel bagus yang menjelaskan lebih jelas gagasan MIC khususnya yang ini ; di sini yang kedua .
Seperti yang saya pahami dari bacaan-bacaan ini adalah Anda dapat memperbesar kompleksitas dan skala hubungan yang berbeda antara dua variabel dengan menjelajahi kombinasi kotak yang berbeda; kisi-kisi ini digunakan untuk membagi ruang 2 dimensi menjadi sel. Dengan memilih kisi yang menampung informasi paling banyak tentang bagaimana sel mempartisi ruang yang Anda pilih, MIC.
Saya ingin bertanya kepada @mbq apakah dia dapat memperluas apa yang disebutnya "plot-all-scatterplots-and-peak-the-with-white-area terbesar" dan kompleksitas O (M2) yang tidak nyata.
sumber