Hutan Acak bekerja dengan membuat ansambel pohon keputusan tempat setiap pohon dibuat menggunakan sampel bootstrap dari data pelatihan asli (sampel dari kedua variabel input dan pengamatan).
Dapatkah proses serupa diterapkan untuk regresi linier? Buat model regresi linier k menggunakan sampel bootstrap acak untuk setiap regresi k
Apa alasan TIDAK untuk membuat model seperti "regresi acak"?
Terima kasih. Jika ada sesuatu yang secara mendasar hanya salah paham, tolong beri tahu saya.
a_0 + a_1 * x_1 + ... + a_d * x_d
, fungsi linear rata-rata yang dihasilkan (setelah agregasi bootstrap) masih memiliki bentuk fungsional linier yang sama dengan yang Anda mulai dengan (yaitu 'pelajar dasar').Jawaban:
Saya sebagian tidak setuju dengan jawaban saat ini karena hutan acak metodologi dibangun berdasarkan memperkenalkan varians (CART dibangun pada sampel bootstrap + metode ruang bagian acak) untuk membuatnya independen. Setelah Anda memiliki pohon ortogonal maka rata-rata prediksi mereka cenderung (dalam banyak kasus) lebih baik daripada prediksi pohon rata-rata (karena ketidaksetaraan Jensen). Meskipun CARTs memiliki tunjangan nyata ketika dikenakan pengobatan ini, metodologi ini jelas berlaku untuk model apa pun dan model linier tidak terkecuali. Ini adalah paket R yang persis apa yang Anda cari. Ini menyajikan tutorial yang bagus tentang cara menyetel dan menafsirkannya dan bibliografi pada subjek: Random Generalized Linear Models .
sumber
Untuk menempatkan respon @ ziggystar dalam hal jargon pembelajaran mesin: ide di balik teknik agregasi bootstrap (misalnya Hutan Acak) adalah untuk mencocokkan banyak model rendah-bias, varian tinggi ke data dengan beberapa elemen "keacakan" atau "ketidakstabilan." Dalam kasus hutan acak, ketidakstabilan ditambahkan melalui bootstrap dan dengan memilih serangkaian fitur acak untuk membagi setiap simpul pohon. Rata-rata melintasi pohon-pohon yang bising, tetapi bias rendah ini, meringankan varian pohon yang tinggi.
Sementara pohon regresi / klasifikasi adalah model "bias rendah, varian tinggi", model regresi linier biasanya berlawanan - "bias tinggi, varian rendah." Dengan demikian, masalah yang sering dihadapi dengan model linear adalah mengurangi bias, bukan mengurangi varians. Agregasi bootstrap sama sekali tidak dibuat untuk melakukan ini.
Masalah tambahan adalah bahwa bootstrap mungkin tidak memberikan cukup "keacakan" atau "ketidakstabilan" dalam model linier yang khas. Saya berharap pohon regresi menjadi lebih sensitif terhadap keacakan sampel bootstrap, karena setiap daun biasanya hanya memegang beberapa poin data. Selain itu, pohon regresi dapat ditumbuhkan secara stokastik dengan membelah pohon pada subset variabel acak di setiap node. Lihat pertanyaan sebelumnya untuk mengapa ini penting: Mengapa Hutan Acak dibelah berdasarkan fitur m acak?
Semua yang dikatakan, Anda tentu dapat menggunakan bootstrap pada model linier [LINK] , dan ini bisa sangat membantu dalam konteks tertentu. Namun, motivasinya jauh berbeda dari teknik agregasi bootstrap.
sumber
Dan inilah mengapa tidak menarik untuk melakukan "acak" - sesuatu dengan model linear seperti halnya dengan pohon keputusan:
Pohon keputusan besar yang dibuat dari sampel besar sangat mungkin untuk melengkapi data, dan metode hutan acak melawan efek ini dengan mengandalkan suara dari banyak pohon kecil.
Regresi linier di sisi lain, adalah model yang tidak terlalu rentan terhadap overfitting dan dengan demikian tidak ada salahnya dengan melatihnya pada sampel lengkap di awal. Dan bahkan jika Anda memiliki banyak variabel regresi, Anda dapat menerapkan teknik lain, seperti regularisasi, untuk memerangi overfitting.
sumber
sumber