Mengapa dan kapan kita harus menggunakan Informasi Reksa atas pengukuran korelasi statistik seperti "Pearson", "spearman", atau "Kendall's tau"?
Mengapa dan kapan kita harus menggunakan Informasi Reksa atas pengukuran korelasi statistik seperti "Pearson", "spearman", atau "Kendall's tau"?
Mari kita pertimbangkan satu konsep dasar korelasi (linier), kovarian (yang merupakan koefisien korelasi Pearson "tidak terstandarisasi"). Untuk dua variabel acak diskrit dan Y dengan probabilitas fungsi massa p ( x ) , p ( y ) dan PMF bersama p ( x , y ) kita memiliki
Informasi Mutual antara keduanya didefinisikan sebagai
Jadi keduanya tidak antagonis - mereka saling melengkapi, menggambarkan berbagai aspek hubungan antara dua variabel acak. Orang dapat berkomentar bahwa Informasi Reksa "tidak peduli" apakah asosiasi itu linier atau tidak, sementara Kovarian mungkin nol dan variabel mungkin masih bergantung secara stokastik. Di sisi lain, Kovarian dapat dihitung secara langsung dari sampel data tanpa harus benar-benar mengetahui distribusi probabilitas yang terlibat (karena itu adalah ekspresi yang melibatkan momen-momen distribusi), sedangkan Informasi Reksa membutuhkan pengetahuan tentang distribusi, yang estimasi, jika tidak diketahui, adalah pekerjaan yang jauh lebih rumit dan tidak pasti dibandingkan dengan estimasi Kovarian.
Informasi timbal balik adalah jarak antara dua distribusi probabilitas. Korelasi adalah jarak linear antara dua variabel acak.
Anda dapat memiliki informasi timbal balik antara dua probabilitas yang ditentukan untuk serangkaian simbol, sementara Anda tidak dapat memiliki korelasi antara simbol yang tidak dapat dipetakan secara alami ke dalam ruang R ^ N.
Di sisi lain, informasi timbal balik tidak membuat asumsi tentang beberapa properti variabel ... Jika Anda bekerja dengan variabel yang lancar, korelasi dapat memberi tahu Anda lebih banyak tentang mereka; misalnya jika hubungan mereka monoton.
Jika Anda memiliki beberapa informasi sebelumnya, maka Anda mungkin dapat beralih dari satu ke yang lain; dalam catatan medis Anda dapat memetakan simbol "memiliki genotipe A" sebagai 1 dan "tidak memiliki genotipe A" menjadi nilai 0 dan 1 dan melihat apakah ini memiliki beberapa bentuk korelasi dengan satu penyakit atau lainnya. Demikian pula, Anda dapat mengambil variabel yang kontinu (mis: gaji), mengubahnya menjadi kategori diskrit dan menghitung informasi timbal balik antara kategori-kategori tersebut dan seperangkat simbol lainnya.
sumber
Ini sebuah contoh.
Dalam dua plot ini koefisien korelasinya adalah nol. Tetapi kita bisa mendapatkan informasi timbal balik yang dibagikan tinggi walaupun korelasinya nol.
Pada bagian pertama, saya melihat bahwa jika saya memiliki nilai X tinggi atau rendah maka saya cenderung mendapatkan nilai Y yang tinggi. Tetapi jika nilai X sedang, maka saya memiliki nilai Y yang rendah. Plot pertama menyimpan informasi tentang informasi timbal balik yang dibagikan oleh X dan Y. Dalam plot kedua, X tidak memberitahuku apa-apa tentang Y.
sumber
Meskipun keduanya merupakan ukuran hubungan antara fitur, MI lebih umum daripada koefisien korelasi (CE) karena CE hanya mampu memperhitungkan hubungan linier tetapi MI juga dapat menangani hubungan non-linear.
sumber