Apakah Random Forest dan Boosting parametrik atau non-parametrik?

13

Dengan membaca pemodelan statistik yang sangat baik : Dua budaya (Breiman 2001) , kita dapat mengambil semua perbedaan antara model statistik tradisional (misalnya, regresi linier) dan algoritma pembelajaran mesin (misalnya, Bagging, Random Forest, Boosted trees ...).

Breiman mengkritik model data (parametrik) karena didasarkan pada asumsi bahwa pengamatan dihasilkan oleh model formal yang diketahui yang ditentukan oleh ahli statistik, yang mungkin meniru Alam. Di sisi lain, ML algos tidak mengasumsikan model formal dan langsung mempelajari hubungan antara variabel input dan output dari data.

Saya menyadari bahwa Bagging / RF dan Boosting, juga semacam parametrik: misalnya, ntree , mtry dalam RF, laju pembelajaran , fraksi tas , kompleksitas pohon dalam pohon-pohon Boosted Stochastic Gradient Boosted adalah semua parameter penyetelan . Kami juga mengestimasi parameter ini dari data karena kami menggunakan data untuk menemukan nilai optimal dari parameter ini.

Jadi apa bedanya? Apakah model parametrik RF dan Boosted Trees?

Antoine
sumber

Jawaban:

12

Model parametrik memiliki parameter (menyimpulkannya) atau asumsi mengenai distribusi data, sedangkan RF, jaring saraf, atau pohon penguat memiliki parameter yang terkait dengan algoritme itu sendiri, tetapi mereka tidak memerlukan asumsi tentang distribusi data Anda atau mengklasifikasikan data Anda ke dalam distribusi teoritis . Bahkan hampir semua algoritma memiliki parameter seperti iterasi atau nilai margin yang terkait dengan optimasi.

D.Castro
sumber
5
Jadi, untuk meringkas: 1) parameter ML dan model parametrik disetel / diperkirakan berdasarkan data, TETAPI 2) dalam ML, parameter mengontrol bagaimana algoritma belajar dari data (tanpa membuat asumsi tentang data, dan hilir dari generasi data), sedangkan parameter model parametrik (model yang dianggap apriori) mengendalikan mekanisme yang dianggap telah menghasilkan data (dengan banyak asumsi tidak realistis yang jarang dipegang dalam praktik). Apakah Anda pikir ini ringkasan yang memadai? Apakah Anda menambah / mengubah sesuatu?
Antoine
4
Saya pikir kalimat dari makalah Breiman yang merangkum semuanya adalah "pemodelan algoritme menggeser fokus dari model data ke sifat-sifat algoritma".
Antoine
1
Anda dapat meringkasnya seperti itu tetapi .. jangan meremehkan model parametrik. Ada situasi di mana mereka diperlukan dan optimal untuk menyelesaikan banyak masalah. Juga asumsi mereka tidak begitu tidak realistis. Banyak distribusi teoretis yang valid untuk menjelaskan banyak hal, dari normal ke binomial ke lognormal, geometris dll. Ini bukan tentang satu atau yang lain, ini tentang memilih cara yang tepat untuk menyelesaikan masalah.
D.Castro
4
Saya setuju. Ketika proses fisik yang mendasarinya diketahui, model parametrik sesuai. Breiman mengkritik penggunaan model parametrik untuk penemuan dan prediksi pengetahuan ketika proses yang mendasarinya tidak diketahui
Antoine
1

Saya pikir kriteria untuk parametrik dan non-parametrik adalah ini: apakah jumlah parameter bertambah dengan jumlah sampel pelatihan. Untuk regresi logistik dan svm, ketika Anda memilih fitur, Anda tidak akan mendapatkan lebih banyak parameter dengan menambahkan lebih banyak data pelatihan. Tetapi untuk RF dan sebagainya, detail model akan berubah (seperti kedalaman pohon) meskipun jumlah pohon tidak berubah.

Yu Zhang
sumber
tetapi dalam RF atau Boosting, meningkatkan kedalaman pohon tidak menambah parameter. Anda masih memiliki tree.complexityparameter, Anda cukup mengubah nilainya. Juga, dalam RF dan Meningkatkan jumlah pohon di hutan / urutan tidak berubah tergantung pada ukuran sampel Anda
Antoine
dalam opsi saya, ketika kedalaman perubahan pohon, ada beberapa pemisahan di pohon, sehingga Anda memiliki lebih banyak parameter. Ketika jumlah perubahan pohon dalam RF dan Meningkatkan sebagai perubahan data, tetapi ini tidak akan terjadi ketika model model linier.
Yu Zhang
1

Dalam arti statistik, model adalah parametrik, jika parameter dipelajari atau disimpulkan berdasarkan data. Pohon dalam pengertian ini adalah nonparametrik. Tentu saja kedalaman pohon adalah parameter algoritma, tetapi itu tidak diturunkan secara inheren dari data, melainkan parameter input yang harus disediakan oleh pengguna.

PeterPancake
sumber
Jadi, katakan Anda harus menghadirkan OLS dan model berbasis pohon kepada audiens non teknis, dapatkah Anda mengatakan bahwa yang pertama adalah parametrik sedangkan yang terakhir adalah non-parametrik?
Tanguy