Apa hubungan antara skor GINI dan rasio log-likelihood

21

Saya sedang mempelajari pohon klasifikasi dan regresi, dan salah satu ukuran untuk lokasi split adalah skor GINI.

Sekarang saya terbiasa menentukan lokasi split terbaik ketika log rasio kemungkinan dari data yang sama antara dua distribusi adalah nol, yang berarti kemungkinan keanggotaan sama-sama mungkin.

Intuisi saya mengatakan bahwa harus ada semacam hubungan, bahwa GINI harus memiliki dasar yang baik dalam teori informasi matematika (Shannon) tetapi saya tidak memahami GINI dengan cukup baik untuk mendapatkan hubungan itu sendiri.

Pertanyaan:

  • Apa derivasi "prinsip pertama" dari skor pengotor GINI sebagai ukuran untuk pemisahan?
  • Bagaimana skor GINI terkait dengan log rasio kemungkinan atau fundamental informasi-teori lainnya (Shannon Entropy, pdf , dan cross entropy adalah bagian dari itu)?

Referensi:

Entropi Shannon digambarkan sebagai:

H(x)=ΣsayaP(xsaya)logbP(xsaya)

Memperluas ini ke kasus multivarian yang kami dapatkan:

H(X,Y)=ΣxΣyP(x,y)logbP(x,y)

Entropi Bersyarat didefinisikan sebagai berikut:

H(X|Y)=Σyhal(x,y)logbhal(x)hal(x,y)atau,H(X|Y)=H(X,Y)-H(Y)

Log rasio kemungkinan digunakan untuk deteksi perubahan mendadak dan diturunkan menggunakan ini. (Saya tidak memiliki derivasi di depan saya.)

Kenajisan GINI:

  • Bentuk umum dari pengotor GINI adalahsaya=saya=1mfsaya(1-fsaya)

Pikiran:

  • Pemisahan dilakukan atas dasar ketidakmurnian. "Kemurnian" yang tinggi kemungkinan sama dengan entropi rendah. Pendekatan ini kemungkinan terkait dengan minimisasi entropi.
  • Sangat mungkin bahwa distribusi basis yang diasumsikan seragam, atau mungkin dengan melambaikan tangan, Gaussian. Mereka kemungkinan membuat campuran distribusi.
  • Saya ingin tahu apakah derivasi grafik Shewhart dapat diterapkan di sini?
  • Pengotor GINI terlihat seperti integral dari fungsi kepadatan probabilitas untuk distribusi binomial dengan 2 percobaan, dan satu keberhasilan. P(x=k)=(21)hal(1-hal)

(tambahan)

  • Bentuk ini juga konsisten dengan distribusi Beta-binomial yang merupakan konjugat sebelum distribusi Hypergeometrik. Tes hypergeometrik sering digunakan untuk menentukan sampel mana yang lebih atau kurang terwakili dalam sampel. Ada juga hubungan dengan tes eksak Fisher, apa pun itu (perhatikan sendiri, pelajari lebih lanjut tentang ini).

Sunting: Saya menduga ada bentuk GINI yang bekerja sangat baik dengan logika digital dan / atau rb-tree. Saya berharap untuk mengeksplorasi ini di proyek kelas musim gugur ini.

EngrStudent - Pasang kembali Monica
sumber
1
Apakah bermasalah jika saya menjawab pertanyaan saya sendiri?
EngrStudent
1
Tidak, tidak sama sekali. Jika Anda menemukan jawaban yang menurut Anda masuk akal, segeralah pergi.
gung - Reinstate Monica
@EngrStudent. pertanyaan bagus tetapi tautan pertama yang Anda berikan di bagian referensi berkaitan dengan koefisien Gini, yang tidak ada hubungannya dengan ukuran Gini yang digunakan dalam CART
Antoine
Mengenai indeks Gini, saya baru saja memposting interpretasi sederhana: stats.stackexchange.com/questions/308885/…
Picaud Vincent

Jawaban:

11

Saya akan menggunakan notasi yang sama yang saya gunakan di sini: Matematika di balik pohon klasifikasi dan regresi

sayaGsaya

  1. Gini:Gsayansaya(E)=1-j=1chalj2
  2. Entropi:H(E)=-j=1chaljloghalj

β

Hβ(E)=1β-1(1-j=1chaljβ)

Giniβ=2Hβ1

G

G-statistik=2|E|sayaG

Bergantung pada komunitas (statistik / data mining) orang lebih suka satu ukuran atau yang lain (Pertanyaan terkait di sini ). Mereka mungkin cukup setara dalam proses induksi pohon keputusan. Log-likelihood mungkin memberikan skor lebih tinggi untuk partisi seimbang ketika ada banyak kelas [Catatan Teknis: Beberapa Properti dari Kriteria Membelah. Breiman 1996].

Gini Gain dapat menjadi lebih baik karena tidak memiliki logaritma dan Anda dapat menemukan formulir tertutup untuk nilai dan varians yang diharapkan dengan asumsi split acak [Alin Dobra, Johannes Gehrke: Koreksi Bias dalam Klasifikasi Konstruksi Pohon. ICML 2001: 90-97]. Tidak mudah untuk Mendapatkan Informasi (Jika Anda tertarik, lihat di sini ).

Simone
sumber
1

Pertanyaan bagus. Sayangnya saya belum memiliki reputasi yang cukup untuk mengungguli atau berkomentar, jadi jawab saja!

Saya tidak terlalu terbiasa dengan uji rasio, tetapi menurut saya itu adalah formalisme yang digunakan untuk membandingkan kemungkinan data yang muncul dari dua (atau lebih) distribusi yang berbeda , sedangkan koefisien Gini adalah statistik ringkasan dari satu distribusi.

Cara yang berguna untuk memikirkan koefisien Gini (IMO) adalah sebagai area di bawah kurva Lorenz (terkait dengan cdf).

Dimungkinkan untuk menyamakan entropi Shannon dengan Gini menggunakan definisi yang diberikan dalam OP untuk entropi:

H=ΣsayaP(xsaya)logbP(xsaya)

dan definisi Gini:

G=1-1μΣsayaP(xsaya)(Ssaya-1+Ssaya)

Ssaya=Σj=1sayaP(xsaya)xsayaxsaya

Itu tidak terlihat seperti tugas yang mudah!

Gabriel
sumber
Rasio kemungkinan log dioperasikan pada data yang sama. Salah satu distribusi dapat berupa bentuk umum yang sama dengan yang lain, tetapi parameternya dipasang ke data ketika beberapa kriteria lain benar. Misalnya, Anda dapat memiliki satu distribusi yang parameternya menggambarkan variasi proses produksi yang sehat (tidak harus Gaussian) dan yang lain yang sesuai dengan nilai proses produksi saat ini, dan beroperasi keduanya pada nilai proses produksi saat ini membandingkan rasio kemungkinan log dengan nilai ambang yang mengindikasikan kemungkinan bertamasya. Bisa jadi aktual untuk dibandingkan dengan ideal.
EngrStudent