Karena RF dapat menangani non-linearitas tetapi tidak dapat memberikan koefisien, akankah bijaksana untuk menggunakan hutan acak untuk mengumpulkan fitur-fitur yang paling penting dan kemudian memasukkan fitur-fitur tersebut ke dalam model regresi linier berganda untuk mendapatkan koefisien mereka?
regression
machine-learning
feature-selection
random-forest
regression-strategies
Model Markov Tersembunyi
sumber
sumber
Jawaban:
Saya menafsirkan pertanyaan satu kalimat OP yang berarti bahwa OP ingin memahami keinginan pipa analisis berikut:
Saya tidak berpikir pipa ini akan mencapai apa yang Anda inginkan. Variabel yang penting dalam hutan acak tidak harus memiliki hubungan aditif linier dengan hasilnya. Pernyataan ini seharusnya tidak mengejutkan: itu yang membuat hutan acak sangat efektif dalam menemukan hubungan nonlinier.
Ini sebuah contoh. Saya menciptakan masalah klasifikasi dengan 10 fitur noise, dua fitur "sinyal", dan batas keputusan melingkar.
Dan ketika kita menerapkan model RF, kita tidak terkejut menemukan bahwa fitur-fitur ini dengan mudah dianggap penting oleh model. (NB: model ini tidak disetel sama sekali .)
Tetapi ketika kita memilih dua fitur yang bermanfaat ini saja, model linier yang dihasilkan sangat buruk.
Bagian penting dari ringkasan adalah perbandingan dari penyimpangan residual dan penyimpangan nol. Kita dapat melihat bahwa model itu pada dasarnya tidak melakukan apa pun untuk "memindahkan" penyimpangan. Selain itu, estimasi koefisien pada dasarnya nol.
Apa yang menyebabkan perbedaan liar antara kedua model? Ya, jelas batas keputusan yang kami coba pelajari bukanlah fungsi linier dari dua fitur "sinyal". Tentunya jika Anda mengetahui bentuk fungsional dari batas keputusan sebelum memperkirakan regresi, Anda dapat menerapkan beberapa transformasi untuk menyandikan data dengan cara yang kemudian dapat ditemukan oleh regresi ... (Tapi saya belum pernah tahu bentuk batas di depan waktu dalam masalah dunia nyata.) Karena kami hanya bekerja dengan dua fitur sinyal dalam kasus ini, data sintetik ditetapkan tanpa noise pada label kelas, bahwa batas antar kelas sangat jelas dalam plot kami. Tapi itu kurang jelas ketika bekerja dengan data nyata dalam jumlah dimensi yang realistis.
Selain itu, secara umum, hutan acak dapat cocok dengan model yang berbeda untuk himpunan bagian data yang berbeda. Dalam contoh yang lebih rumit, tidak akan jelas apa yang terjadi dari satu plot sama sekali, dan membangun model linier kekuatan prediksi yang sama akan lebih sulit.
Karena kita hanya mementingkan dua dimensi, kita dapat membuat permukaan prediksi. Seperti yang diharapkan, model acak belajar bahwa lingkungan di sekitar tempat asal itu penting.
Seperti yang tersirat oleh output model luar biasa kami, permukaan prediksi untuk model regresi logistik yang dikurangi pada dasarnya datar.
HongOoi mencatat bahwa keanggotaan kelas bukanlah fungsi linier dari fitur, tetapi bahwa fungsi linier berada di bawah transformasi. Karena batas keputusan adalah jika kita menguadratkan fitur-fitur ini, kita akan dapat membangun model linier yang lebih berguna. Ini disengaja. Sementara model RF dapat menemukan sinyal di kedua fitur tanpa transformasi, analis harus lebih spesifik untuk mendapatkan hasil yang sama membantu dalam GLM. Mungkin itu cukup untuk OP: menemukan seperangkat transformasi yang berguna untuk 2 fitur lebih mudah daripada 12. Tapi poin saya adalah bahwa bahkan jika transformasi akan menghasilkan model linier yang berguna, pentingnya fitur RF tidak akan menyarankan transformasi sendiri.1=x21+x22,
sumber
Jawaban oleh @Sycorax sangat fantastis. Selain aspek-aspek yang sepenuhnya dijelaskan dari masalah yang terkait dengan model fit, ada alasan lain untuk tidak mengejar proses multi-langkah seperti menjalankan hutan acak, laso, atau jaring elastis untuk "belajar" yang menampilkan fitur untuk regresi tradisional. Regresi biasa tidak akan tahu tentang hukuman yang benar berlangsung selama pengembangan hutan acak atau metode lainnya, dan akan cocok efek unpenalized yang buruk bias tampil terlalu kuat dalam memprediksi . Ini tidak akan berbeda dari menjalankan pemilihan variabel bertahap dan melaporkan model akhir tanpa memperhitungkan bagaimana hal itu tiba.Y
sumber
Hutan acak yang dieksekusi dengan baik diterapkan pada masalah yang lebih "tepat hutan acak" dapat berfungsi sebagai filter untuk menghilangkan kebisingan, dan membuat hasil yang lebih berguna sebagai input ke alat analisis lainnya.
Penafian:
Saya harus memberikan "berteriak" untuk "mengintip" saya yang membuat "Laba-laba". ( tautan ) Contoh masalah mereka menginformasikan pendekatan saya. ( tautan ) Saya juga menyukai estimator Theil-Sen, dan berharap saya bisa memberikan alat peraga kepada Theil dan Sen.
Jawaban saya bukan tentang bagaimana melakukan kesalahan, tetapi tentang bagaimana cara kerjanya jika Anda benar. Sementara saya menggunakan suara "sepele", saya ingin Anda berpikir tentang suara "non-sepele" atau "terstruktur".
Salah satu kekuatan hutan acak adalah seberapa baik berlaku untuk masalah dimensi tinggi. Saya tidak dapat menampilkan kolom 20k (alias ruang dimensi 20k) dengan cara visual yang bersih. Ini bukan tugas yang mudah. Namun, jika Anda memiliki masalah 20k-dimensi, hutan acak mungkin menjadi alat yang baik di sana ketika sebagian besar lainnya jatuh datar di "wajah" mereka.
Ini adalah contoh menghilangkan noise dari sinyal menggunakan hutan acak.
Izinkan saya menjelaskan apa yang sedang terjadi di sini. Gambar di bawah ini menunjukkan data pelatihan untuk kelas "1". Kelas "2" adalah seragam acak di atas domain dan rentang yang sama. Anda dapat melihat bahwa "informasi" dari "1" sebagian besar adalah spiral, tetapi telah rusak dengan materi dari "2". Memiliki 33% dari data Anda yang rusak dapat menjadi masalah bagi banyak alat yang pas. Theil-Sen mulai menurun sekitar 29%. ( tautan )
Sekarang kami memisahkan informasi, hanya memiliki gagasan tentang apa itu noise.
Inilah hasil yang pas:
Saya sangat suka ini karena dapat menunjukkan kekuatan dan kelemahan dari metode yang layak untuk masalah yang sulit pada saat yang sama. Jika Anda melihat di dekat pusat Anda dapat melihat bagaimana ada lebih sedikit penyaringan. Skala informasi geometris kecil dan hutan acak tidak ada. Ia mengatakan sesuatu tentang jumlah node, jumlah pohon, dan kepadatan sampel untuk kelas 2. Ada juga "celah" dekat (-50, -50), dan "jet" di beberapa lokasi. Namun, secara umum, penyaringannya layak.
Bandingkan dengan SVM
Berikut adalah kode yang memungkinkan perbandingan dengan SVM:
Ini menghasilkan gambar berikut.
Ini adalah SVM yang layak. Abu-abu adalah domain yang dikaitkan dengan kelas "1" oleh SVM. Titik-titik biru adalah sampel yang terkait dengan kelas "1" oleh RF. Filter berbasis RF berkinerja sebanding dengan SVM tanpa dasar yang dipaksakan secara eksplisit. Dapat dilihat bahwa "data ketat" di dekat pusat spiral jauh lebih "rapat" diselesaikan oleh RF. Ada juga "pulau-pulau" menuju "ekor" di mana RF menemukan hubungan yang tidak dimiliki SVM.
Saya terhibur. Tanpa latar belakang, saya melakukan salah satu hal awal yang juga dilakukan oleh kontributor yang sangat baik di lapangan. Penulis asli menggunakan "distribusi referensi" ( tautan , tautan ).
SUNTING:
Terapkan FOREST acak ke model ini:
Sementara user777 memiliki pemikiran bagus tentang CART yang menjadi elemen dari hutan acak, premis dari hutan acak adalah "kumpulan ensemble pelajar yang lemah". CART dikenal sebagai pembelajar yang lemah tetapi tidak ada yang dekat dengan "ansambel". "Ensemble" meskipun dalam hutan acak dimaksudkan "dalam batas sejumlah besar sampel". Jawaban user777, di sebar, menggunakan setidaknya 500 sampel dan yang mengatakan sesuatu tentang keterbacaan manusia dan ukuran sampel dalam kasus ini. Sistem visual manusia (itu sendiri ansambel peserta didik) adalah sensor dan pengolah data yang luar biasa dan menemukan nilai yang memadai untuk kemudahan pemrosesan.
Jika kita mengambil bahkan pengaturan default pada alat acak-hutan, kita dapat mengamati perilaku peningkatan kesalahan klasifikasi untuk beberapa pohon pertama, dan tidak mencapai tingkat satu pohon sampai ada sekitar 10 pohon. Awalnya kesalahan tumbuh pengurangan kesalahan menjadi stabil di sekitar 60 pohon. Maksud saya dengan stabil
Yang menghasilkan:
Jika alih-alih melihat "pembelajar lemah minimum" kita melihat "ansambel lemah minimum" yang disarankan oleh heuristik yang sangat singkat untuk pengaturan default alat, hasilnya agak berbeda.
Catatan, saya menggunakan "garis" untuk menggambar lingkaran yang mengindikasikan tepi di atas perkiraan. Anda dapat melihat bahwa itu tidak sempurna, tetapi jauh lebih baik daripada kualitas seorang pembelajar tunggal.
Pengambilan sampel asli memiliki 88 sampel "interior". Jika ukuran sampel ditingkatkan (memungkinkan ansambel diterapkan) maka kualitas aproksimasi juga meningkat. Jumlah pelajar yang sama dengan 20.000 sampel membuat kecocokan yang lebih baik.
Informasi input berkualitas jauh lebih tinggi juga memungkinkan evaluasi jumlah pohon yang sesuai. Inspeksi konvergensi menunjukkan bahwa 20 pohon adalah jumlah minimum yang cukup dalam kasus khusus ini, untuk mewakili data dengan baik.
sumber