Dengan membaca pemodelan statistik yang sangat baik : Dua budaya (Breiman 2001) , kita dapat mengambil semua perbedaan antara model statistik tradisional (misalnya, regresi linier) dan algoritma pembelajaran mesin (misalnya, Bagging, Random Forest, Boosted trees ...).
Breiman mengkritik model data (parametrik) karena didasarkan pada asumsi bahwa pengamatan dihasilkan oleh model formal yang diketahui yang ditentukan oleh ahli statistik, yang mungkin meniru Alam. Di sisi lain, ML algos tidak mengasumsikan model formal dan langsung mempelajari hubungan antara variabel input dan output dari data.
Saya menyadari bahwa Bagging / RF dan Boosting, juga semacam parametrik: misalnya, ntree , mtry dalam RF, laju pembelajaran , fraksi tas , kompleksitas pohon dalam pohon-pohon Boosted Stochastic Gradient Boosted adalah semua parameter penyetelan . Kami juga mengestimasi parameter ini dari data karena kami menggunakan data untuk menemukan nilai optimal dari parameter ini.
Jadi apa bedanya? Apakah model parametrik RF dan Boosted Trees?
Saya pikir kriteria untuk parametrik dan non-parametrik adalah ini: apakah jumlah parameter bertambah dengan jumlah sampel pelatihan. Untuk regresi logistik dan svm, ketika Anda memilih fitur, Anda tidak akan mendapatkan lebih banyak parameter dengan menambahkan lebih banyak data pelatihan. Tetapi untuk RF dan sebagainya, detail model akan berubah (seperti kedalaman pohon) meskipun jumlah pohon tidak berubah.
sumber
tree.complexity
parameter, Anda cukup mengubah nilainya. Juga, dalam RF dan Meningkatkan jumlah pohon di hutan / urutan tidak berubah tergantung pada ukuran sampel AndaDalam arti statistik, model adalah parametrik, jika parameter dipelajari atau disimpulkan berdasarkan data. Pohon dalam pengertian ini adalah nonparametrik. Tentu saja kedalaman pohon adalah parameter algoritma, tetapi itu tidak diturunkan secara inheren dari data, melainkan parameter input yang harus disediakan oleh pengguna.
sumber