Batasan pada metode ensemble berbasis pohon dalam masalah kecil, p besar?

10

Metode ansambel berbasis pohon seperti Hutan Acak, dan turunan berikutnya (misalnya, hutan kondisional), semua dimaksudkan untuk berguna dalam apa yang disebut masalah "kecil n , p besar ", untuk mengidentifikasi kepentingan variabel relatif. Memang, ini tampaknya menjadi masalah, tetapi pertanyaan saya adalah seberapa jauh kemampuan ini dapat diambil? Bisakah satu, misalnya 30 pengamatan dan 100 variabel? Apa yang menjadi titik tolak pendekatan semacam itu, dan adakah aturan praktis yang layak yang ada? Saya lebih suka dan akan menerima jawaban yang didukung oleh tautan ke bukti aktual (bukan dugaan), menggunakan set data simulasi atau nyata. Saya belum menemukan banyak tentang yang terakhir (di sini dan di sini), jadi saran / saran / saran Anda (pada topik) dipersilahkan!

Nabi60091
sumber

Jawaban:

3

Saya menduga tidak akan ada jawaban pasti untuk pertanyaan ini sampai beberapa studi simulasi dilakukan. Sementara itu, saya menemukan Hutan Acak Genuer et al : beberapa wawasan metodologis membantu menempatkan beberapa perspektif pada pertanyaan ini, setidaknya dalam hal menguji RF terhadap berbagai set data "rendah, tinggi,". Beberapa set data ini memiliki> 5000 prediktor dan <100 pengamatan !!

Nabi60091
sumber
3

Mode kegagalan yang akan Anda temui adalah bahwa, dengan fitur acak yang cukup, akan ada fitur yang berhubungan dengan target dalam sampel kantong yang digunakan untuk setiap pohon tetapi tidak dalam dataset yang lebih besar. Masalah serupa dengan yang terlihat dalam beberapa pengujian.

Aturan praktis untuk ini sulit untuk dikembangkan karena titik yang tepat di mana hal ini terjadi tergantung pada jumlah kebisingan dan kekuatan sinyal dalam data. Ada juga ada metode yang mengatasinya dengan menggunakan beberapa nilai p dikoreksi uji sebagai kriteria pemisahan, melakukan langkah pemilihan fitur berdasarkan kepentingan variabel dan / atau perbandingan kepentingan fitur dengan fitur kontras buatan yang dihasilkan oleh permutasi fitur acak yang sebenarnya, penggunaan keluar dari kasus tas untuk memvalidasi pemilihan split dan metode lainnya. Ini bisa sangat efektif.

Saya telah menggunakan hutan acak (termasuk beberapa tweak metodologis di atas) pada kumpulan data dengan ~ 1000 kasus dan 30.000-1.000.000 fitur. (Kumpulan data dalam genetika manusia dengan berbagai tingkat pemilihan fitur atau rekayasa). Mereka tentu bisa efektif dalam memulihkan sinyal yang kuat (atau efek batch) dalam data seperti itu tetapi tidak melakukan dengan baik menyatukan sesuatu seperti penyakit dengan penyebab heterogen karena jumlah variasi acak mengatasi setiap sinyal

Ryan Bressler
sumber
0

Ini juga akan tergantung pada sinyal dan kebisingan di data Anda. Jika variabel dependen Anda dijelaskan dengan cukup baik oleh kombinasi variabel dalam model Anda daripada saya pikir Anda bisa pergi dengan rasio n / p yang lebih rendah.

Saya menduga jumlah minimum absolut n juga akan diperlukan untuk mendapatkan model yang layak selain dari rasio.

Salah satu cara untuk melihatnya adalah bahwa setiap pohon dibangun menggunakan variabel SQRT (p) dan jika jumlah itu besar dan jumlah poin adalah pohon kecil dapat dipasang tanpa benar-benar memiliki model nyata di sana. Oleh karena itu banyak pohon yang terlalu pas akan memberikan variabel salah penting.

Biasanya jika dalam grafik tingkat kepentingan, saya melihat banyak variabel teratas dengan tingkat kepentingan yang hampir sama, saya menyimpulkan bahwa itu hanya memberi saya noise.

DeepakML
sumber
Dari mana SQRT (p) berasal?
LauriK
Dalam RandomForest setiap pohon dibangun menggunakan sampel variabel. Secara default (minimal dalam paket R randomForest) nilai yang dibutuhkan adalah angka terdekat kurang dari atau sama dengan SQRT (p) di mana p adalah jumlah kolom.
DeepakML