Saya menjalankan model xgboost. Saya tidak tahu persis bagaimana menafsirkan output dari xgb.importance
.
Apa arti dari Penguatan, Penutupan, dan Frekuensi dan bagaimana kita menafsirkannya?
Juga, apa arti Split, RealCover, dan RealCover%? Saya punya beberapa parameter tambahan di sini
Apakah ada parameter lain yang dapat memberi tahu saya lebih lanjut tentang pentingnya fitur?
Dari dokumentasi R, saya memiliki beberapa pemahaman bahwa Gain adalah sesuatu yang mirip dengan Informasi gain dan Frekuensi adalah berapa kali fitur digunakan di semua pohon. Saya tidak tahu apa Sampul itu.
Saya menjalankan kode contoh yang diberikan dalam tautan (dan juga mencoba melakukan hal yang sama pada masalah yang sedang saya kerjakan), tetapi definisi split yang diberikan di sana tidak cocok dengan angka yang saya hitung.
importance_matrix
Keluaran:
Feature Gain Cover Frequence
1: xxx 2.276101e-01 0.0618490331 1.913283e-02
2: xxxx 2.047495e-01 0.1337406946 1.373710e-01
3: xxxx 1.239551e-01 0.1032614896 1.319798e-01
4: xxxx 6.269780e-02 0.0431682707 1.098646e-01
5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02
214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05
215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05
216: xxxxxxxxxxxx 3.899363e-06 0.0001536857 1.147052e-05
217: xxxxxxxxxxxxxx 3.619348e-06 0.0001808504 1.147052e-05
218: xxxxxxxxxxxxx 3.429679e-06 0.0001792233 1.147052e-05
sumber
Terima kasih Sandeep atas jawaban terperinci Anda. Saya ingin memperbaiki bahwa penutup dihitung di semua belahan dan bukan hanya simpul daun.
Mari kita lihat contoh sederhana dengan data yang disediakan oleh pustaka xgboost.
Keluaran -
Mari kita coba menghitung sampul bau = tidak ada dalam matriks kepentingan (0.495768965) dari tumpukan pohon.
Sampul setiap perpecahan di mana bau = tidak digunakan adalah 1628.2500 di Node ID 0-0 dan 765.9390 di Node ID 1-1.
Total tutupan semua perpecahan (menjumlahkan di seluruh kolom penutup dalam tumpukan pohon) = 1628.2500 * 2 + 786.3720 * 2
Penutup bau = tidak ada dalam matriks pentingnya = (1628.2500 + 765.9390) / (1628.2500 * 2 + 786.3720 * 2)
Karena itu kami yakin bahwa tutupan dihitung di semua belahan!
sumber