Menggunakan LASSO di hutan acak

14

Saya ingin membuat hutan acak menggunakan proses berikut:

  • Bangun pohon pada sampel data dan fitur acak menggunakan penguatan informasi untuk menentukan pemisahan
  • Hentikan simpul daun jika melebihi kedalaman yang telah ditentukan ATAU perpecahan apa pun akan menghasilkan jumlah daun kurang dari minimum yang telah ditentukan
  • Daripada menetapkan label kelas untuk setiap pohon, tetapkan proporsi kelas dalam simpul daun
  • Hentikan membangun pohon setelah nomor yang telah ditentukan telah dibangun

Ini menghasilkan proses hutan acak tradisional dalam dua cara. Pertama, ia menggunakan pohon yang dipangkas yang memberikan proporsi alih-alih label kelas. Dan kedua, kriteria berhenti adalah jumlah pohon yang ditentukan sebelumnya dan bukan beberapa perkiraan kesalahan out-of-bag.

Pertanyaan saya adalah ini:

Untuk proses di atas yang menghasilkan N pohon, dapatkah saya mencocokkan model menggunakan regresi logistik dengan pilihan LASSO? Apakah ada yang punya pengalaman pas pengelompokan Hutan Acak dan pasca-pengolahan dengan LASSO logistik?

Kerangka ISLE menyebutkan menggunakan LASSO sebagai langkah pasca-pemrosesan untuk masalah regresi tetapi tidak masalah klasifikasi. Selain itu, saya tidak mendapatkan hasil yang membantu ketika googling "Random forest laso".

Zelazny7
sumber
Lasso pandai menemukan / menimbang fitur yang berguna ketika ada banyak kualitas yang bervariasi. Setiap pohon di hutan Anda kemungkinan tidak akan jauh lebih baik atau lebih buruk daripada pohon lain, jadi saya tidak berpikir laso akan banyak membantu Anda.
rrenaud
Dengan mengambil sampel sebagian kecil tanpa penggantian dan membatasi kedalaman pohon, keragaman yang lebih besar diperkenalkan jadi saya pikir beberapa bentuk regularisasi diperlukan.
Zelazny7
Bisakah Anda lebih spesifik tentang bagaimana Anda berencana agar sesuai dengan model logistik? Apa sebenarnya variabel prediktor? Juga - apa motivasi Anda untuk pasca-pemrosesan? Jika Anda mencoba melakukan pemilihan variabel, ada metode lain yang perlu dipertimbangkan.
Alex Williams
Dengan mengeluarkan prediksi setiap pohon, set data baru dari prediktor dibuat. Dataset ini dapat digunakan dalam regresi LASSO untuk sampai pada kombinasi prediksi pohon yang jarang. Motivasinya adalah menghasilkan model yang lebih ringkas dan berjalan lebih cepat dalam produksi.
Zelazny7
Saya mengalami masalah yang sama baru-baru ini, dan saya menemukan dalam makalah asli Friedman bahwa ia merancang fungsi kerugian khusus untuk masalah klasifikasi biner. Semoga itu bisa membantu. Selain itu, apakah Anda punya ide tentang bagaimana memperluasnya ke masalah klasifikasi multi-kelas? Atau apa pendekatan Anda terhadap masalah klasifikasi multi-kelas?
Quan

Jawaban:

5

Ini terdengar seperti meningkatkan pohon gradien. Ide meningkatkan adalah untuk menemukan kombinasi linear terbaik dari kelas model. Jika kami memasukkan pohon ke data, kami berusaha menemukan pohon yang paling menjelaskan variabel hasil. Jika sebaliknya, kami menggunakan boosting, kami mencoba menemukan kombinasi linear terbaik dari pohon.

Namun, dengan meningkatkan kami sedikit lebih efisien karena kami tidak memiliki koleksi pohon acak, tetapi kami mencoba membangun pohon baru yang bekerja pada contoh yang belum dapat kami prediksi dengan baik.

Untuk lebih lanjut tentang ini, saya sarankan membaca bab 10 dari Elemen Pembelajaran Statistik: http://statweb.stanford.edu/~tibs/ElemStatLearn/

Meskipun ini bukan jawaban lengkap dari pertanyaan Anda, saya harap ini membantu.

Sven
sumber
3
Terima kasih. Sejak saya memposting pertanyaan ini, saya menjadi sangat akrab dengan paket GBM R. Proses saya sekarang melibatkan membangun model GBM mengatakan 10.000 pohon dan kemudian menjalankan semua 10.000 pohon melalui GLMnet untuk melakukan regresi LASSO pada pohon. Ini menghasilkan model GBM terkompresi dengan sedikit atau tanpa kehilangan kinerja (dan kadang-kadang dorongan).
Zelazny7
@ Zelazny7 Bagaimana dengan data uji coba / tes sulit Apakah ini memprediksi dengan baik?
Astaga
Ya, semua pengujian saya dilakukan pada penangguhan yang tidak menginformasikan perkembangan dengan cara apa pun. Performa tidak menurun dalam banyak kasus. Terkadang sedikit lebih buruk, bahkan kadang membaik.
Zelazny7
1
@ Zelazny7 Saya menemukan prosedur yang sama juga (di pekerjaan terakhir saya), dengan pengalaman yang sama.
Matthew Drury
Anda harus ke sesuatu ... Hastie sendiri menyarankan pohon pasca-pengolahan dari hutan acak atau meningkatkan menggunakan LASSO. Dia menyebutkan dalam video ini di 30:10.
Jonathan