Koefisien Gini vs Gini pengotor - pohon keputusan

25

Masalahnya mengacu pada pembuatan pohon keputusan. Menurut Wikipedia ' koefisien Gini ' tidak boleh disamakan dengan ' pengotor Gini '. Namun kedua ukuran tersebut dapat digunakan saat membangun pohon keputusan - ini dapat mendukung pilihan kita saat membagi set item.

1) 'Pengotor Gini' - ini adalah metrik pemisah pohon keputusan standar (lihat tautan di atas);

2) 'Koefisien Gini' - setiap pemisahan dapat dinilai berdasarkan kriteria AUC. Untuk setiap skenario pemisahan, kita dapat membuat kurva ROC dan menghitung metrik AUC. Menurut Wikipedia AUC = (GiniCoeff + 1) / 2;

Pertanyaannya adalah: apakah kedua tindakan ini setara? Di satu sisi, saya diberitahu bahwa koefisien Gini tidak boleh dikacaukan dengan ketidakmurnian Gini. Di sisi lain, kedua langkah ini dapat digunakan dalam melakukan hal yang sama - menilai kualitas pohon keputusan.

Damien
sumber
Saya sampai pada pertanyaan ini untuk mencari definisi: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Martin Thoma

Jawaban:

28

Tidak, terlepas dari nama mereka, mereka tidak setara atau bahkan serupa.

  • Pengotor Gini adalah ukuran kesalahan klasifikasi, yang berlaku dalam konteks klasifikasi multi-kelas.
  • Koefisien Gini berlaku untuk klasifikasi biner dan membutuhkan classifier yang dalam beberapa cara dapat memberi peringkat contoh sesuai dengan kemungkinan berada di kelas positif.

Keduanya dapat diterapkan dalam beberapa kasus, tetapi keduanya merupakan langkah yang berbeda untuk hal yang berbeda. Kenajisan adalah apa yang biasa digunakan dalam pohon keputusan .

Sean Owen
sumber
7

Saya mengambil contoh Data dengan dua orang A dan B dengan kekayaan masing-masing unit 1 dan unit 3. Pengotoran Gini sesuai Wikipedia = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8

Koefisien Gini sesuai Wikipedia akan menjadi rasio area antara garis merah dan biru dengan total area di bawah garis biru pada grafik berikut

masukkan deskripsi gambar di sini

Area di bawah garis merah adalah 1/2 + 1 + 3/2 = 3

Total area di bawah garis biru = 4

Jadi koefisien Gini = 3/4

Jelas kedua angka itu berbeda. Saya akan memeriksa lebih banyak kasus untuk melihat apakah mereka proporsional atau ada hubungan yang tepat dan edit jawabannya.

Sunting: Saya memeriksa kombinasi lain juga, rasionya tidak konstan. Di bawah ini adalah daftar beberapa kombinasi yang saya coba. masukkan deskripsi gambar di sini

Gaurav Singhal
sumber
Penjelasan yang luar biasa !!
Outlier
0

Saya pikir mereka berdua mewakili konsep yang sama.

Dalam pohon klasifikasi, Indeks Gini digunakan untuk menghitung ketidakmurnian partisi data. Jadi Asumsikan partisi data D terdiri dari 4 kelas masing-masing dengan probabilitas yang sama. Maka Indeks Gini (Gini Impurity) adalah: Gini (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)

Dalam CART kami melakukan pemisahan biner. Jadi indeks gini akan dihitung sebagai jumlah tertimbang dari partisi yang dihasilkan dan kami memilih pemisahan dengan indeks gini terkecil.

Jadi penggunaan Pengotoran Gini (Indeks Gini) tidak terbatas pada situasi biner.

Istilah lain untuk Pengotor Gini adalah Koefisien Gini yang digunakan secara normal sebagai ukuran distribusi pendapatan.

Turing Pasmod
sumber
3
Koefisien Gini bukanlah ketidakmurnian Gini. Lihat tautan dalam pertanyaan
Sean Owen
2
Wikipedia tidak selalu menjadi sumber informasi yang andal :-)
Pasmod Turing
2
Yakin. Pergi mencarinya di tempat lain: mathworld.wolfram.com/GiniCoefficient.html Apa yang membuat Anda berpikir koefisien Gini = Gini pengotor?
Sean Owen
Lihat itu: books.google.de/…
Pasmod Turing
1
Saya pikir kita berbicara tentang pohon keputusan. Jadi kita berada di bidang pembelajaran mesin! Silakan baca pertanyaan lebih hati
Pasmod Turing