Mengapa kita menghitung nilai Informasi?

10

Saya memiliki data dengan variabel kategori dan variabel kontinu, tetapi adalah kebutuhan untuk menemukan nilai informasi dalam analisis data penjelasan.

Berikan saja alasan mengapa kami menghitung nilai informasi untuk setiap variabel pada awal analisis data dan apa yang akan menjadi titik cutoff dari INFORMASI NILAI untuk mengurus analisis

pengguna43247
sumber
2
Tolong beri tahu kami lebih spesifik apa yang dimaksud dengan "nilai informasi" penghitungan: tampaknya tidak ada makna kuantitatif terstandarisasi untuk istilah yang akan dipahami semua pembaca dengan cara yang sama. Saat Anda mengedit pertanyaan Anda, berikan juga lebih banyak konteks untuk membantu kami memahami jenis analisis apa yang Anda diskusikan dan untuk apa Anda menggunakan "cutoff point".
whuber

Jawaban:

11

Secara umum, Informasi Nilai memberikan ukuran seberapa baik variabel mampu membedakan antara respon biner (misalnya "baik" versus "buruk") dalam beberapa variabel sasaran . Idenya adalah jika variabel memiliki Nilai Informasi yang rendah, itu mungkin tidak melakukan pekerjaan yang cukup untuk mengklasifikasikan variabel target, dan karenanya dihapus sebagai variabel penjelas.XYX

Untuk melihat bagaimana ini bekerja, biarkan dikelompokkan menjadi nampan. Setiap sesuai dengan yang mungkin mengambil salah satu dari dua nilai, katakan 0 atau 1. Kemudian untuk , ,XnxXyYXi1in

IV=i=1n(gibi)ln(gi/bi)

dimana

bi=(# dari di dari di proporsi di bin versus semua nampan0Xi)/(#0X)=0i

gi=(# of di of 's di proporsi di bin versus semua nampan1Xi)/(#1X)=1i

ln(gi/bi) juga dikenal sebagai Bobot Bukti (untuk bin ). Nilai batas dapat bervariasi dan pemilihannya subjektif. Saya sering menggunakan (seperti halnya [1] di bawah).XiIV<0.3

Dalam konteks penilaian kredit, dua sumber ini akan membantu:

[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf

[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf

dmanuge
sumber
1
Apakah Anda tahu segala jenis koreksi untuk menghitung nilai informasi ketika salah satu dari semua kotak baik atau buruk? Ide saya adalah menambahkan 1 ke setiap kolom dari setiap nampan untuk memperbaiki situasi ini. Saya bertanya-tanya apakah ini adalah praktik umum atau apakah ada masalah teoretis lainnya. Saya kebanyakan mempertimbangkan langkah keluar dari pragmatisme ini.
Zelazny7
Saya telah melihat beberapa praktisi menghapus istilah dengan semua baik atau buruk dari penjumlahan, tetapi saya tidak akan merekomendasikan ini karena Anda pada dasarnya akan membatalkan asosiasi yang sempurna. Menambahkan konstanta (katakanlah c) adalah solusi yang menarik, tetapi pilihan dan konstanta serta ukuran bin akan sangat mempengaruhi IV Anda. Ketika c mendekati 0 atau ukuran bin mendekati infinity, IV mendekati infinity. Untuk mendapatkan IV yang lebih representatif, Anda mungkin ingin mempertimbangkan untuk menggabungkan nampan yang berdekatan yang memiliki semua barang atau semua yang buruk.
dmanuge