Dapatkah algoritma MIC untuk mendeteksi korelasi non-linear dijelaskan secara intuitif?

Baru-baru ini, saya membaca dua artikel. Yang pertama adalah tentang sejarah korelasi dan yang kedua adalah tentang metode baru yang disebut Maximal Information Coefficient (MIC). Saya butuh bantuan Anda untuk memahami metode MIC untuk memperkirakan korelasi non-linear antara variabel.

Selain itu, Instruksi penggunaannya dalam R dapat ditemukan di situs web penulis (di bawah Unduhan ):

Saya harap ini akan menjadi platform yang baik untuk membahas dan memahami metode ini. Ketertarikan saya untuk membahas intuisi di balik metode ini dan bagaimana hal itu dapat diperluas seperti yang dikatakan penulis.

" ... kita perlu ekstensi MIC (X, Y) ke MIC (X, Y | Z). Kita akan ingin tahu berapa banyak data yang dibutuhkan untuk mendapatkan estimasi MIC yang stabil, seberapa rentan terhadap outlier, berapa tiga - atau hubungan dimensi tinggi yang akan dilewatkan, dan banyak lagi. MIC adalah langkah maju yang bagus, tetapi ada banyak langkah yang harus diambil. "

correlation nonparametric bioinformatics information-theory mutual-information Biostat
sumber

Pertanyaannya menarik, tapi saya pikir itu tidak bisa dijawab. Bisakah Anda membuatnya lebih spesifik?

mpiktas

Diskusi akan terhambat oleh fakta bahwa artikel dalam Sains tidak dapat diakses.

Itamar

Berikut adalah salinan makalah yang dibebaskan oleh salah satu penulis.

Singkatnya, MIC adalah penggalian gagasan lama tentang "plot-semua-sebar-plot-dan-puncak-yang-dengan-terbesar-putih-daerah", jadi itu terutama menghasilkan positif palsu, memiliki kompleksitas

nyata

(yang disembunyikan penulis di belakang heuristik uji-hanya-beberapa-dipilih-pasangan) dan dengan-desain melewatkan semua interaksi tiga dan lebih variabel.

O (M^{2})

$O(M^2)$

Untuk detail teknis tentang MIC, Bahan Pendukung Online lebih informatif daripada artikel itu sendiri.

res

Jawaban:

Apakah ini tidak mengatakan bahwa ini diterbitkan dalam jurnal non-statistik yang kami tidak yakin dengan rekan sejawat statistiknya? Masalah ini diselesaikan oleh Hoeffding pada tahun 1948 (Annals of Mathematical Statistics 19: 546) yang mengembangkan algoritma langsung yang tidak memerlukan binning atau beberapa langkah. Karya Hoeffding bahkan tidak dirujuk dalam artikel Science. Ini telah dalam hoeffdfungsi R dalam Hmiscpaket selama bertahun-tahun. Berikut sebuah contoh (ketik example(hoeffd)R):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0

hoeffdmenggunakan implementasi Fortran yang cukup efisien dari metode Hoeffding. Gagasan dasar dari pengujiannya adalah untuk mempertimbangkan perbedaan antara peringkat gabungan X dan Y dan produk dari peringkat marginal X dan peringkat marginal Y, dengan skala yang sesuai.

Memperbarui

$D$

Hmisc $D$ $|F(x,y) - G(x)H(y)|$ $D$

Frank Harrell
sumber

(+1) Kertas Hoeffding tersedia online.

res

Temuan yang bagus. Mungkin bernilai catatan singkat untuk Sains membandingkan kinerja Hoeffding dengan mereka. Sangat disayangkan bahwa banyak penelitian yang baik (di banyak bidang) dari 50-an dilupakan selama bertahun-tahun.

Itamar

M. saya = H (X) + H (Y) - H (X, Y)

$MI=H(X)+H(Y)-H(X,Y)$

H (X) = - \sum_{saya} hal (z_{saya}) catatan hal (z_{saya})

$H(X)=-\sum_i p(z_i)\log p(z_i)$

H (X, Y) = - \sum_{saya, j} hal (x_{saya}, y_{j}) catatan hal (x_{saya}, y_{j})

$H(X,Y)=-\sum_{i,j} p(x_i,y_j)\log p(x_i,y_j)$

Gagasan utama penulis adalah untuk mendiskritisasi data ke banyak grid dua dimensi yang berbeda dan menghitung skor yang dinormalisasi yang mewakili informasi timbal balik dari dua variabel pada setiap grid. Skor dinormalisasi untuk memastikan perbandingan yang adil antara grid yang berbeda dan bervariasi antara 0 (tidak berkorelasi) dan 1 (korelasi tinggi).

$R^2$

Itamar
sumber

Saya menemukan dua artikel bagus yang menjelaskan lebih jelas gagasan MIC khususnya yang ini ; di sini yang kedua .

Seperti yang saya pahami dari bacaan-bacaan ini adalah Anda dapat memperbesar kompleksitas dan skala hubungan yang berbeda antara dua variabel dengan menjelajahi kombinasi kotak yang berbeda; kisi-kisi ini digunakan untuk membagi ruang 2 dimensi menjadi sel. Dengan memilih kisi yang menampung informasi paling banyak tentang bagaimana sel mempartisi ruang yang Anda pilih, MIC.

Saya ingin bertanya kepada @mbq apakah dia dapat memperluas apa yang disebutnya "plot-all-scatterplots-and-peak-the-with-white-area terbesar" dan kompleksitas O (M2) yang tidak nyata.

pedrosaurio
sumber

Saya khawatir tentang metode statistik apa pun yang menggunakan binning.

Frank Harrell

@ Frankharrell Bisakah Anda memberikan referensi atau intuisi yang detail mengapa binning buruk? Secara intuitif, saya dapat melihat bahwa Anda pada dasarnya membuang informasi karena binning, tetapi pasti ada lebih banyak alasan mengapa?

Kiran K.

Ada terlalu banyak referensi untuk tahu harus mulai dari mana. Tidak ada metode statistik berdasarkan binning yang bertahan. Ketangkasan adalah salah satu dari banyak masalah.

Frank Harrell

@FrankHarrell Menghargai komentar. Alasan saya meminta referensi adalah saya seorang mahasiswa PhD, dan saya sedang mempelajari konsep ketergantungan dan multivariat saat ini, dan akan senang membaca makalah ini dan mengutipnya dalam karya saya sendiri di masa depan. Jika Anda dapat menyebutkan satu atau dua yang menonjol, saya yakin saya dapat menemukan yang tersisa yang Anda sebutkan. Saya juga akan melakukan penggalian dan memposting referensi di sini jika saya menemukan yang bagus.

Kiran K.

Mulailah dengan citeulike.org/user/harrelfe/article/13265458 kemudian lihat informasi lain tentang dikotomisasi di biostat.mc.vanderbilt.edu/CatContinuous . Untuk ukuran ketergantungan umum yang tidak memerlukan binning, jangan lewatkan citeulike.org/user/harrelfe/article/13264312

Frank Harrell