Kapan saya harus menggunakan Pengotoran Gini yang bertentangan dengan Penguatan Informasi?

66

Dapatkah seseorang secara praktis menjelaskan alasan di balik ketidakmurnian Gini vs Informasi (berdasarkan Entropy)?

Metrik mana yang lebih baik untuk digunakan dalam skenario yang berbeda saat menggunakan pohon keputusan?

Krish Mahajan
sumber
5
@ Anony-Mousse Saya kira itu sudah jelas sebelum komentar Anda. Pertanyaannya bukan apakah keduanya memiliki kelebihan, tetapi dalam skenario mana yang lebih baik dari yang lain.
Martin Thoma
Saya telah mengusulkan "Penguatan informasi" dan bukannya "Entropi", karena cukup dekat (IMHO), seperti yang ditandai di tautan terkait. Kemudian, pertanyaan diajukan dalam bentuk yang berbeda di Kapan menggunakan pengotor Gini dan kapan menggunakan informasi?
Laurent Duval
1
Saya telah memposting di sini interpretasi sederhana tentang ketidakmurnian Gini yang mungkin bermanfaat.
Picaud Vincent

Jawaban:

47

Pengotoran Gini dan Entropi Penguatan Informasi hampir sama. Dan orang-orang menggunakan nilai-nilai secara bergantian. Berikut adalah rumus keduanya:

  1. Gini:Gsayansaya(E)=1-j=1chalj2
  2. Entropi:H(E)=-j=1chaljcatatanhalj

Diberi pilihan, saya akan menggunakan pengotor Gini, karena tidak mengharuskan saya untuk menghitung fungsi logaritmik, yang intensif secara komputasi. Bentuk tertutup dari solusi itu juga dapat ditemukan.

Metrik mana yang lebih baik untuk digunakan dalam skenario yang berbeda saat menggunakan pohon keputusan?

Pengotoran Gini, untuk alasan yang disebutkan di atas.

Jadi, mereka hampir sama ketika datang ke analytics CART.

Referensi yang bermanfaat untuk perbandingan komputasi dari kedua metode

Dawny33
sumber
1
Sangat umum untuk melihat formula entropi, sedangkan apa yang benar-benar digunakan dalam pohon keputusan tampak seperti entropi kondisional. Saya pikir ini perbedaan penting atau saya melewatkan sesuatu?
user1700890
@ user1700890 Algoritma ID3 menggunakan Info. dapatkan entropi. Saya perlu membaca tentang entropi bersyarat. Mungkin perbaikan dari ID3 :)
Dawny33
1
Saya pikir definisi Anda tentang gini impurtiy mungkin salah: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Martin Thoma
22

Secara umum, kinerja Anda tidak akan berubah apakah Anda menggunakan pengotoran Gini atau Entropy.

Laura Elena Raileanu dan Kilian Stoffel membandingkan keduanya dalam " perbandingan teoretis antara indeks gini dan kriteria perolehan informasi ". Kata-kata terpenting adalah:

  • Itu hanya penting dalam 2% dari kasus apakah Anda menggunakan pengotor atau entropi gini.
  • Entropi mungkin sedikit lebih lambat untuk dikomputasi (karena memanfaatkan logaritma).

Saya pernah diberitahu bahwa kedua metrik itu ada karena mereka muncul dalam berbagai disiplin ilmu.

Archie
sumber
16

Untuk kasus variabel dengan dua nilai, muncul dengan fraksi f dan (1-f),
gini dan entropi diberikan oleh:
gini = 2 * f (1-f)
entropi = f * ln (1 / f) + (1-f) * ln (1 / (1-f))
Langkah-langkah ini sangat mirip jika diskalakan ke 1,0 (merencanakan 2 * gini dan entropi / ln (2)):

Nilai Gini (y4, ungu) dan Entropy (y3, hijau) diskalakan untuk perbandingan

DanLvii Dewey
sumber
14

Gini dimaksudkan untuk atribut kontinu dan Entropi adalah untuk atribut yang terjadi di kelas

Gini adalah untuk meminimalkan kesalahan klasifikasi
Entropi untuk analisis eksplorasi

Entropi sedikit lebih lambat untuk dikomputasi

NIMISHAN
sumber
7

0<kamu<1,catatan(1-kamu)=-kamu-kamu2/2-kamu3/3+0<hal<1,catatan(hal)=hal-1-(1-hal)2/2-(1-hal)3/3+
0<hal<1,-halcatatan(hal)=hal(1-hal)+hal(1-hal)2/2+hal(1-hal)3/3+
Kriteria Gini dan Entropi yang dinormalisasi

Pada akhirnya seperti yang dijelaskan oleh @NIMISHAN Gini lebih cocok untuk meminimalkan kesalahan klasifikasi karena simetris ke 0,5, sedangkan entropi akan lebih banyak menghukum probabilitas kecil.

ClementWalter
sumber
3

Entropy membutuhkan waktu komputasi sedikit lebih banyak daripada Gini Index karena perhitungan log, mungkin itu sebabnya Gini Index telah menjadi opsi default untuk banyak algoritma ML. Namun, dari Tan et. al book Pengantar Penambangan Data

"Ukuran pengotor cukup konsisten satu sama lain ... Memang, strategi yang digunakan untuk memangkas pohon memiliki dampak yang lebih besar pada pohon akhir daripada pilihan ukuran pengotor."

Jadi, sepertinya pemilihan ukuran pengotor tidak banyak berpengaruh pada kinerja algoritma pohon keputusan tunggal.

Juga. "Metode Gini hanya berfungsi ketika variabel target adalah variabel biner." - Belajar Analisis Prediktif dengan Python.

Rakend Dubba
sumber
3

Saya telah melakukan optimasi pada klasifikasi biner selama + minggu terakhir, dan dalam setiap kasus, entropi secara signifikan mengungguli gini. Ini mungkin merupakan kumpulan data yang spesifik, tetapi sepertinya mencoba keduanya saat menyetel hyperparameter adalah pilihan yang rasional, daripada membuat asumsi tentang model sebelumnya.

Anda tidak pernah tahu bagaimana data akan bereaksi sampai Anda menjalankan statistik.

H Froedge
sumber
0

Sesuai prinsip parsimoni, Gini mengungguli entropi pada kemudahan komputasi (log jelas memiliki lebih banyak perhitungan dibandingkan dengan multiplikasi sederhana pada tingkat prosesor / mesin).

Tetapi entropi jelas memiliki keunggulan dalam beberapa kasus data yang melibatkan ketidakseimbangan tinggi.

Karena entropi menggunakan log probabilitas dan mengalikannya dengan probabilitas kejadian, yang terjadi di latar belakang adalah nilai probabilitas yang lebih rendah semakin ditingkatkan.

Jika distribusi probabilitas data Anda bersifat eksponensial atau Laplace (seperti dalam kasus pembelajaran mendalam di mana kami membutuhkan distribusi probabilitas pada titik tajam) entropi mengungguli Gini.

Untuk memberikan contoh jika Anda memiliki 2 peristiwa, satu probabilitas 0,01 dan probabilitas 0,99 lainnya.

Dalam Gini Prob sq akan menjadi .01 ^ 2 + .99 ^ 2, .0001 + .9801 berarti probabilitas yang lebih rendah tidak memainkan peran apa pun karena semuanya diatur oleh probabilitas mayoritas.

Sekarang dalam kasus entropi .01 * log (.01) +. 99 * log (.99) = .01 * (- 2) + .99 * (-. 00436) = -.02-.00432 sekarang dalam kasus ini probabilitas yang terlihat jelas lebih rendah diberikan usia-berat yang lebih baik.

Gaurav Dogra
sumber