Dapatkah seseorang secara praktis menjelaskan alasan di balik ketidakmurnian Gini vs Informasi (berdasarkan Entropy)?
Metrik mana yang lebih baik untuk digunakan dalam skenario yang berbeda saat menggunakan pohon keputusan?
machine-learning
decision-trees
Krish Mahajan
sumber
sumber
Jawaban:
Pengotoran Gini dan Entropi Penguatan Informasi hampir sama. Dan orang-orang menggunakan nilai-nilai secara bergantian. Berikut adalah rumus keduanya:
Diberi pilihan, saya akan menggunakan pengotor Gini, karena tidak mengharuskan saya untuk menghitung fungsi logaritmik, yang intensif secara komputasi. Bentuk tertutup dari solusi itu juga dapat ditemukan.
Pengotoran Gini, untuk alasan yang disebutkan di atas.
Jadi, mereka hampir sama ketika datang ke analytics CART.
Referensi yang bermanfaat untuk perbandingan komputasi dari kedua metode
sumber
Secara umum, kinerja Anda tidak akan berubah apakah Anda menggunakan pengotoran Gini atau Entropy.
Laura Elena Raileanu dan Kilian Stoffel membandingkan keduanya dalam " perbandingan teoretis antara indeks gini dan kriteria perolehan informasi ". Kata-kata terpenting adalah:
Saya pernah diberitahu bahwa kedua metrik itu ada karena mereka muncul dalam berbagai disiplin ilmu.
sumber
Untuk kasus variabel dengan dua nilai, muncul dengan fraksi f dan (1-f),
gini dan entropi diberikan oleh:
gini = 2 * f (1-f)
entropi = f * ln (1 / f) + (1-f) * ln (1 / (1-f))
Langkah-langkah ini sangat mirip jika diskalakan ke 1,0 (merencanakan 2 * gini dan entropi / ln (2)):
sumber
Gini adalah untuk meminimalkan kesalahan klasifikasi
Entropi untuk analisis eksplorasi
sumber
Pada akhirnya seperti yang dijelaskan oleh @NIMISHAN Gini lebih cocok untuk meminimalkan kesalahan klasifikasi karena simetris ke 0,5, sedangkan entropi akan lebih banyak menghukum probabilitas kecil.
sumber
Entropy membutuhkan waktu komputasi sedikit lebih banyak daripada Gini Index karena perhitungan log, mungkin itu sebabnya Gini Index telah menjadi opsi default untuk banyak algoritma ML. Namun, dari Tan et. al book Pengantar Penambangan Data
"Ukuran pengotor cukup konsisten satu sama lain ... Memang, strategi yang digunakan untuk memangkas pohon memiliki dampak yang lebih besar pada pohon akhir daripada pilihan ukuran pengotor."
Jadi, sepertinya pemilihan ukuran pengotor tidak banyak berpengaruh pada kinerja algoritma pohon keputusan tunggal.
Juga. "Metode Gini hanya berfungsi ketika variabel target adalah variabel biner." - Belajar Analisis Prediktif dengan Python.
sumber
Saya telah melakukan optimasi pada klasifikasi biner selama + minggu terakhir, dan dalam setiap kasus, entropi secara signifikan mengungguli gini. Ini mungkin merupakan kumpulan data yang spesifik, tetapi sepertinya mencoba keduanya saat menyetel hyperparameter adalah pilihan yang rasional, daripada membuat asumsi tentang model sebelumnya.
Anda tidak pernah tahu bagaimana data akan bereaksi sampai Anda menjalankan statistik.
sumber
Sesuai prinsip parsimoni, Gini mengungguli entropi pada kemudahan komputasi (log jelas memiliki lebih banyak perhitungan dibandingkan dengan multiplikasi sederhana pada tingkat prosesor / mesin).
Tetapi entropi jelas memiliki keunggulan dalam beberapa kasus data yang melibatkan ketidakseimbangan tinggi.
Karena entropi menggunakan log probabilitas dan mengalikannya dengan probabilitas kejadian, yang terjadi di latar belakang adalah nilai probabilitas yang lebih rendah semakin ditingkatkan.
Jika distribusi probabilitas data Anda bersifat eksponensial atau Laplace (seperti dalam kasus pembelajaran mendalam di mana kami membutuhkan distribusi probabilitas pada titik tajam) entropi mengungguli Gini.
Untuk memberikan contoh jika Anda memiliki 2 peristiwa, satu probabilitas 0,01 dan probabilitas 0,99 lainnya.
Dalam Gini Prob sq akan menjadi .01 ^ 2 + .99 ^ 2, .0001 + .9801 berarti probabilitas yang lebih rendah tidak memainkan peran apa pun karena semuanya diatur oleh probabilitas mayoritas.
Sekarang dalam kasus entropi .01 * log (.01) +. 99 * log (.99) = .01 * (- 2) + .99 * (-. 00436) = -.02-.00432 sekarang dalam kasus ini probabilitas yang terlihat jelas lebih rendah diberikan usia-berat yang lebih baik.
sumber