Saya memiliki data dengan variabel kategori dan variabel kontinu, tetapi adalah kebutuhan untuk menemukan nilai informasi dalam analisis data penjelasan.
Berikan saja alasan mengapa kami menghitung nilai informasi untuk setiap variabel pada awal analisis data dan apa yang akan menjadi titik cutoff dari INFORMASI NILAI untuk mengurus analisis
data-visualization
pengguna43247
sumber
sumber
Jawaban:
Secara umum, Informasi Nilai memberikan ukuran seberapa baik variabel mampu membedakan antara respon biner (misalnya "baik" versus "buruk") dalam beberapa variabel sasaran . Idenya adalah jika variabel memiliki Nilai Informasi yang rendah, itu mungkin tidak melakukan pekerjaan yang cukup untuk mengklasifikasikan variabel target, dan karenanya dihapus sebagai variabel penjelas.X Y X
Untuk melihat bagaimana ini bekerja, biarkan dikelompokkan menjadi nampan. Setiap sesuai dengan yang mungkin mengambil salah satu dari dua nilai, katakan 0 atau 1. Kemudian untuk , ,X n x ∈ X y∈ Y Xsaya 1 ≤ i ≤ n
dimana
Dalam konteks penilaian kredit, dua sumber ini akan membantu:
[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf
[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf
sumber