Berapa banyak fitur untuk sampel menggunakan Hutan Acak

13

The Wikipedia halaman yang kutipan "The Elements of statistik Learning" kata:

Biasanya, untuk masalah klasifikasi dengan fitur , hal fitur pdigunakan di setiap pemisahan.hal

Saya mengerti bahwa ini adalah tebakan berpendidikan yang cukup baik dan mungkin dikonfirmasi oleh bukti empiris, tetapi apakah ada alasan lain mengapa seseorang memilih akar kuadrat? Apakah ada fenomena statistik yang terjadi di sana?

Apakah ini entah bagaimana membantu mengurangi varians kesalahan?

Apakah ini sama untuk regresi dan klasifikasi?

Valentin Calomme
sumber

Jawaban:

16

Saya pikir dalam makalah asli mereka menyarankan menggunakan ), tetapi bagaimanapun idenya adalah sebagai berikut:catatan2(N+1

Jumlah fitur yang dipilih secara acak dapat mempengaruhi kesalahan generalisasi dalam dua cara: memilih banyak fitur meningkatkan kekuatan masing-masing pohon sementara mengurangi jumlah fitur menyebabkan korelasi yang lebih rendah di antara pohon-pohon meningkatkan kekuatan hutan secara keseluruhan.

Yang menarik adalah bahwa penulis Random Forests (pdf) menemukan perbedaan empiris antara klasifikasi dan regresi:

Perbedaan yang menarik antara regresi dan klasifikasi adalah bahwa korelasinya meningkat cukup lambat karena jumlah fitur yang digunakan meningkat.

N/3N

NcatatanN

Kisaran di antara biasanya besar. Dalam kisaran ini, ketika jumlah fitur naik, korelasinya meningkat, tetapi PE * (pohon) mengimbangi dengan menurun.

(PE * menjadi kesalahan generalisasi)

Seperti yang mereka katakan dalam Elemen Pembelajaran Statistik:

Dalam praktiknya, nilai terbaik untuk parameter ini akan bergantung pada masalah, dan mereka harus diperlakukan sebagai parameter penyetelan.

Satu hal yang menjadi sandaran masalah Anda adalah jumlah variabel kategorikal. Jika Anda memiliki banyak variabel kategori yang dikodekan sebagai variabel-dummy, biasanya masuk akal untuk meningkatkan parameter. Sekali lagi, dari kertas Random Forests:

sayant(lHaig2M.+1)

oW_
sumber
Terima kasih, itu jawaban yang sangat berguna. Memang, saya berpikir bahwa ada hubungannya dengan kekuatan masing-masing pohon vs kekuatan hutan secara keseluruhan. Dan memang, sangat menarik bahwa ada perbedaan antara regresi dan klasifikasi. Terima kasih banyak telah menghubungkan kertas asli. Sudah mencoba mengumpulkan kertas seperti itu untuk banyak teknik.
Valentin Calomme