Dalam semua kertas hutan acak (regresi) yang saya baca, ketika tiba saatnya untuk mengumpulkan prediksi semua pohon, kami mengambil nilai rata-rata sebagai prediksi.
Pertanyaan saya adalah mengapa kita melakukan itu?
Apakah ada justifikasi statistik untuk mengambil rata-rata?
EDIT: Untuk mengklarifikasi pertanyaan, saya tahu dimungkinkan untuk menggunakan fungsi agregasi lainnya (kami menggunakan mode untuk klasifikasi), saya lebih tertarik pada apakah ada beberapa pembenaran teoretis di balik pilihan fungsi rata-rata.
regression
random-forest
ensemble
Batang
sumber
sumber
Jawaban:
Saya selalu berpikir tentang rata-rata dalam hal pengorbanan bias-varians. Jika saya ingat dengan benar, Leo Breiman mengisyaratkan hal ini di koran randomForest dengan pernyataannya "... lebih kuat dalam hal kebisingan."
Penjelasannya seperti ini: pada dasarnya Anda mengambil seikat pohon yang tumbuh dengan panjang penuh - tanpa pemangkasan - sehingga Anda tahu mereka masing-masing akan bias sendiri. Namun, pengambilan sampel acak yang menginduksi setiap pohon di hutan harus menginduksi bias sesering bias berlebihan. Jadi dengan mengambil rata-rata Anda kemudian menghilangkan bias dari setiap pohon-the over + under bias membatalkan. Semoga dalam proses ini Anda juga mengurangi varians di setiap pohon sehingga varians keseluruhan harus dikurangi juga.
Seperti yang ditunjukkan oleh jawaban lain untuk posting, ini mungkin bukan satu-satunya alasan untuk rata-rata.
sumber
Saat menggunakan rata-rata, Anda mengatakan dua hal:
Anda seharusnya tidak mengharapkan ada outlier besar karena Anda dapat membuat ukuran sampel cukup besar untuk mereka menjadi kurang penting dalam rata-rata dan karena Anda akan mengharapkan minimum stabilitas dari prediksi masing-masing pohon.
Tidak ada alasan untuk berpikir bahwa beberapa pohon memiliki bobot prediksi lebih tinggi daripada yang lain, juga tidak ada cara untuk menentukan bobot tersebut.
Anda tidak dapat benar-benar menggunakan mode karena prediksi berada pada skala berkelanjutan. Misalnya, jika Anda memiliki prediksi 80 80 100 101 99 98 97 102 103 104 96, mode akan memprediksi sebagai 80. Itu tidak bisa seperti yang Anda inginkan. Jika semua nilai memiliki desimal yang berbeda, mode tidak akan tahu cara memutuskan.
Rata-rata selain dari rata-rata aritmatika ada, seperti rata-rata geometrik dan rata-rata harmonik. Mereka dirancang untuk menurunkan rata-rata jika ada beberapa nilai rendah dalam rangkaian data. Bukan itu yang Anda inginkan di sini juga.
sumber
Tentu saja Anda dapat menggunakan fungsi agregasi yang berguna dalam situasi khusus Anda. Median adalah cara yang baik untuk membuat sampel kecil yang kuat terhadap outlier. Di hutan regresi Anda biasanya dapat mempengaruhi ukuran sampel untuk menghindari masalah ukuran sampel kecil. Dengan demikian rata-rata tampaknya masuk akal dalam sebagian kecil kasus penggunaan.
sumber
Klasifikasi Hutan Acak ( yaitu bukan estimasi probabilitas) didasarkan pada mode prediksi (voting mayoritas), jadi ya, Anda dapat mengagregasi hasilnya sesuai keinginan.
sumber
Hal pertama yang pertama. Seperti yang dikatakan banyak orang, Anda dapat menggunakan metrik lain tetapi rata-rata adalah opsi "default".
Sebagai opsi default, seseorang akan mengatur fungsi yang berfungsi dalam beberapa kondisi ringan
Sekarang, Jika Anda memikirkannya, hutan acak adalah kumpulan pohon dan masing-masing pohon ini memiliki tujuan untuk memperkirakan variabel respons numerik Anda.
Selain itu, seperti @David Ernst menyebutkan dengan benar:
Lebih jauh, tidak ada alasan untuk berpikir bahwa pohon-pohon ini akan memiliki standar deviasi yang berbeda. Sekali lagi, dalam kondisi ringan!
Yang sedang berkata, rata-rata harus bekerja karena hukum Lemah jumlah besar
sumber
Dalam ansambel. Rata-rata lebih memprioritaskan pada kepercayaan daripada mayoritas.
Misalnya Anda memiliki 3 pohon,
2 dari mereka memilih A dengan kepercayaan 22% dan 1 memilih B dengan kepercayaan 90%.
Jika kita menggunakan suara mayoritas, kita mendapat suara A. Rata-rata 22, N, N Jika kita menggunakan kepercayaan kita mendapat suara B. Rata-rata 90, N, N
Masuk akal untuk menggunakan kepercayaan 90% karena lebih yakin daripada mayoritas lainnya dengan keyakinan hanya 22%.
sumber