Mengapa ahli statistik tidak menggunakan informasi timbal balik sebagai ukuran hubungan?

Saya telah melihat beberapa pembicaraan oleh non-ahli statistik di mana mereka tampaknya menemukan kembali langkah-langkah korelasi menggunakan informasi timbal balik daripada regresi (atau tes statistik setara / terkait erat).

Saya ambil ada alasan bagus ahli statistik tidak mengambil pendekatan ini. Pemahaman awam saya adalah bahwa penduga entropi / informasi timbal balik cenderung bermasalah dan tidak stabil. Saya berasumsi bahwa daya juga bermasalah sebagai akibatnya: mereka mencoba menyiasati hal ini dengan mengklaim bahwa mereka tidak menggunakan kerangka pengujian parametrik. Biasanya pekerjaan semacam ini tidak mengganggu perhitungan daya, atau bahkan interval kepercayaan / kredibel.

Tetapi untuk mengambil posisi advokat iblis, apakah konvergensi lambat merupakan masalah besar ketika dataset sangat besar? Juga, kadang-kadang metode ini tampaknya "bekerja" dalam arti bahwa asosiasi divalidasi oleh studi tindak lanjut. Apa kritik terbaik terhadap penggunaan informasi timbal balik sebagai ukuran hubungan dan mengapa tidak digunakan secara luas dalam praktik statistik?

sunting: Juga, apakah ada makalah bagus yang membahas masalah ini?

correlation mutual-information pengguna4733
sumber

MI adalah ukuran hubungan antara dua variabel diskrit. Ini tidak benar-benar pengaturan yang umum dalam statistik umum (bisa dalam beberapa sub bidang khusus). Tetapi dalam pengaturan itu, saya melihatnya cukup sering digunakan. Tentu saja, ketika saya bertemu orang-orang terapan yang menggunakan korelasi Pearson pada kumpulan data bivariat, saya menunjukkan MI kepada mereka.

user603

Lihat juga stats.stackexchange.com/questions/1052/... Namun, diskusi di sini sudah, menurut saya, baik atau lebih baik, jadi pertanyaan umum tentang duplikat adalah moot.

Nick Cox

Juga untuk referensi, lihat stats.stackexchange.com/q/20011/1036

Andy W

Referensi umum lebih lanjut adalah Matius Reimherr dan Dan L. Nicolae. 2013. Tentang Mengukur Ketergantungan: Kerangka Kerja untuk Mengembangkan Tindakan yang Dapat Diartikan. Ilmu Statistik 28: 116-130.

Nick Cox

Jawaban:

Saya pikir Anda harus membedakan antara data kategorikal (diskrit) dan data kontinu.

Untuk data kontinu, korelasi Pearson mengukur hubungan linear (monotonik), korelasi peringkat hubungan monotonik.

MI di sisi lain "mendeteksi" hubungan apa pun. Ini biasanya bukan apa yang Anda minati dan / atau cenderung berisik. Secara khusus, Anda harus memperkirakan kepadatan distribusi. Tetapi karena ini kontinu, pertama-tama Anda akan membuat histogram [tong diskrit], dan kemudian menghitung MI. Tetapi karena MI memungkinkan untuk hubungan apa pun, MI akan berubah saat Anda menggunakan nampan yang lebih kecil (sehingga Anda mengizinkan lebih banyak goyangan). Jadi Anda dapat melihat bahwa estimasi MI akan sangat tidak stabil, tidak memungkinkan Anda untuk menempatkan interval kepercayaan pada estimasi dll. [Sama berlaku jika Anda melakukan estimasi kepadatan kontinu.] Pada dasarnya ada terlalu banyak hal untuk diperkirakan sebelum benar-benar menghitung MI.

Data kategorikal di sisi lain sangat cocok dengan kerangka kerja MI (lihat G-test), dan tidak ada banyak untuk memilih antara G-test dan chi-squared.

seanv507
sumber

Saya kebanyakan mengacu pada kasus-kasus asosiasi diskrit (dengan regresi, saya memiliki GLM dalam pikiran, bukan hanya OLS). Sebenarnya, banyak ilmuwan yang mempelajari fenomena kompleks (misalnya genetika) mungkin mengatakan mereka lebih tertarik pada apa yang Anda gambarkan (mendeteksi hubungan apa pun ). Daya tarik lolos dari kritik umum yang jelas tentang "bagaimana jika bentuk fungsional korelasi itu salah? Tentu saja saya ingin mendeteksi hubungan apa pun !" kuat. Namun, saya pikir ada kekeliruan bebas-makan-siang yang dimainkan di sini, tetapi itu akan diabaikan bahwa saya mencoba untuk mengartikulasikan / memahami dengan lebih baik.

user4733

... Saya tidak mengetahui hubungan antara tes LR dan MI, itu sangat menarik!

user4733