Masalahnya mengacu pada pembuatan pohon keputusan. Menurut Wikipedia ' koefisien Gini ' tidak boleh disamakan dengan ' pengotor Gini '. Namun kedua ukuran tersebut dapat digunakan saat membangun pohon keputusan - ini dapat mendukung pilihan kita saat membagi set item.
1) 'Pengotor Gini' - ini adalah metrik pemisah pohon keputusan standar (lihat tautan di atas);
2) 'Koefisien Gini' - setiap pemisahan dapat dinilai berdasarkan kriteria AUC. Untuk setiap skenario pemisahan, kita dapat membuat kurva ROC dan menghitung metrik AUC. Menurut Wikipedia AUC = (GiniCoeff + 1) / 2;
Pertanyaannya adalah: apakah kedua tindakan ini setara? Di satu sisi, saya diberitahu bahwa koefisien Gini tidak boleh dikacaukan dengan ketidakmurnian Gini. Di sisi lain, kedua langkah ini dapat digunakan dalam melakukan hal yang sama - menilai kualitas pohon keputusan.
sumber
Jawaban:
Tidak, terlepas dari nama mereka, mereka tidak setara atau bahkan serupa.
Keduanya dapat diterapkan dalam beberapa kasus, tetapi keduanya merupakan langkah yang berbeda untuk hal yang berbeda. Kenajisan adalah apa yang biasa digunakan dalam pohon keputusan .
sumber
Saya mengambil contoh Data dengan dua orang A dan B dengan kekayaan masing-masing unit 1 dan unit 3. Pengotoran Gini sesuai Wikipedia = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8
Koefisien Gini sesuai Wikipedia akan menjadi rasio area antara garis merah dan biru dengan total area di bawah garis biru pada grafik berikut
Area di bawah garis merah adalah 1/2 + 1 + 3/2 = 3
Total area di bawah garis biru = 4
Jadi koefisien Gini = 3/4
Jelas kedua angka itu berbeda. Saya akan memeriksa lebih banyak kasus untuk melihat apakah mereka proporsional atau ada hubungan yang tepat dan edit jawabannya.
Sunting: Saya memeriksa kombinasi lain juga, rasionya tidak konstan. Di bawah ini adalah daftar beberapa kombinasi yang saya coba.
sumber
Saya pikir mereka berdua mewakili konsep yang sama.
Dalam pohon klasifikasi, Indeks Gini digunakan untuk menghitung ketidakmurnian partisi data. Jadi Asumsikan partisi data D terdiri dari 4 kelas masing-masing dengan probabilitas yang sama. Maka Indeks Gini (Gini Impurity) adalah: Gini (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)
Dalam CART kami melakukan pemisahan biner. Jadi indeks gini akan dihitung sebagai jumlah tertimbang dari partisi yang dihasilkan dan kami memilih pemisahan dengan indeks gini terkecil.
Jadi penggunaan Pengotoran Gini (Indeks Gini) tidak terbatas pada situasi biner.
Istilah lain untuk Pengotor Gini adalah Koefisien Gini yang digunakan secara normal sebagai ukuran distribusi pendapatan.
sumber