Hutan acak digunakan untuk regresi. Namun, dari apa yang saya pahami, mereka menetapkan nilai target rata-rata pada setiap lembar. Karena hanya ada daun terbatas di setiap pohon, hanya ada nilai spesifik yang dapat dicapai target dari model regresi kami. Jadi bukankah ini hanya regresi 'diskrit' (seperti fungsi langkah) dan tidak seperti regresi linier yang 'kontinu'?
Apakah saya memahami ini dengan benar? Jika ya, keuntungan apa yang ditawarkan hutan acak dalam regresi?
regression
random-forest
cart
pengguna110565
sumber
sumber
Jawaban:
Ini benar - hutan acak mendiskritkan variabel kontinu karena didasarkan pada pohon keputusan, yang berfungsi melalui partisi biner rekursif. Tetapi dengan data yang cukup dan pemisahan yang cukup, fungsi langkah dengan banyak langkah kecil dapat mendekati fungsi yang halus. Jadi ini tidak perlu menjadi masalah. Jika Anda benar-benar ingin menangkap respons yang mulus dengan satu prediktor tunggal, Anda menghitung efek parsial dari variabel tertentu dan menyesuaikan fungsi yang mulus dengan variabel tersebut (ini tidak memengaruhi model itu sendiri, yang akan mempertahankan karakter bertahap ini).
Hutan acak menawarkan beberapa keunggulan dibandingkan teknik regresi standar untuk beberapa aplikasi. Untuk menyebutkan hanya tiga:
Adapun apakah itu adalah regresi 'benar', ini agak semantik. Bagaimanapun, regresi satu demi satu adalah regresi juga, tetapi juga tidak mulus. Seperti halnya regresi dengan prediktor kategoris, seperti yang ditunjukkan dalam komentar di bawah.
sumber
Ini diskrit, tetapi kemudian output apa pun dalam bentuk angka floating point dengan jumlah bit tetap akan diskrit. Jika pohon memiliki 100 daun, maka ia dapat memberikan 100 angka yang berbeda. Jika Anda memiliki 100 pohon berbeda dengan masing-masing 100 daun, maka hutan acak Anda secara teoritis dapat memiliki 100 ^ 100 nilai yang berbeda, yang dapat memberikan 200 digit (desimal) presisi, atau ~ 600 bit. Tentu saja, akan ada beberapa tumpang tindih, jadi Anda sebenarnya tidak akan melihat 100 ^ 100 nilai yang berbeda. Distribusi cenderung untuk mendapatkan lebih banyak diskrit, semakin Anda mencapai ekstrem; setiap pohon akan memiliki beberapa daun minimum (daun yang memberikan hasil yang kurang dari atau sama dengan semua daun lainnya), dan sekali Anda mendapatkan daun minimum dari setiap pohon, Anda tidak bisa mendapatkan yang lebih rendah. Jadi akan ada nilai keseluruhan minimum untuk hutan, dan ketika Anda menyimpang dari nilai itu, Anda akan mulai dengan semua kecuali beberapa pohon yang berada di daun minimumnya, membuat penyimpangan kecil dari kenaikan nilai minimum dalam lompatan diskrit. Tetapi penurunan reliabilitas pada ekstrem adalah sifat regresi pada umumnya, bukan hanya hutan acak.
sumber
Jawabannya akan tergantung pada apa definisi regresi Anda, lihat Definisi dan pembatasan model regresi . Tetapi definisi yang biasa (atau bagian dari definisi) adalah bahwa model regresi mengharapkan kondisi . Dan pohon regresi memang dapat dilihat sebagai penaksir harapan bersyarat.
Dalam node daun, Anda memprediksi rata-rata pengamatan sampel yang mencapai daun itu, dan rata-rata aritmetika adalah penaksir harapan. Pola percabangan di pohon mewakili pengkondisian.
sumber