Mengapa kita mengambil rata-rata untuk regresi prediksi Random Forest?

8

Dalam semua kertas hutan acak (regresi) yang saya baca, ketika tiba saatnya untuk mengumpulkan prediksi semua pohon, kami mengambil nilai rata-rata sebagai prediksi.

Pertanyaan saya adalah mengapa kita melakukan itu?

Apakah ada justifikasi statistik untuk mengambil rata-rata?

EDIT: Untuk mengklarifikasi pertanyaan, saya tahu dimungkinkan untuk menggunakan fungsi agregasi lainnya (kami menggunakan mode untuk klasifikasi), saya lebih tertarik pada apakah ada beberapa pembenaran teoretis di balik pilihan fungsi rata-rata.

Batang
sumber
1
Mungkin relevan: stats.stackexchange.com/questions/174390/…
Matthew Drury
! masukkan deskripsi gambar di sini Inilah rujukannya: Pada probabilitas vs bagian label kelas sebastianraschka.com/Articles/…
PauAI

Jawaban:

5

Saya selalu berpikir tentang rata-rata dalam hal pengorbanan bias-varians. Jika saya ingat dengan benar, Leo Breiman mengisyaratkan hal ini di koran randomForest dengan pernyataannya "... lebih kuat dalam hal kebisingan."

Penjelasannya seperti ini: pada dasarnya Anda mengambil seikat pohon yang tumbuh dengan panjang penuh - tanpa pemangkasan - sehingga Anda tahu mereka masing-masing akan bias sendiri. Namun, pengambilan sampel acak yang menginduksi setiap pohon di hutan harus menginduksi bias sesering bias berlebihan. Jadi dengan mengambil rata-rata Anda kemudian menghilangkan bias dari setiap pohon-the over + under bias membatalkan. Semoga dalam proses ini Anda juga mengurangi varians di setiap pohon sehingga varians keseluruhan harus dikurangi juga.

Seperti yang ditunjukkan oleh jawaban lain untuk posting, ini mungkin bukan satu-satunya alasan untuk rata-rata.

Lucas Roberts
sumber
1
Menerima ini, karena jawabannya tampaknya rata-rata dipilih dari "intuisi" bukan motivasi teoretis tertentu, berbeda dengan jawaban termotivasi secara teoritis pada GLM: stats.stackexchange.com/q/174390/16052
Bar
1
@Bar, dengan pohon keputusan, masalahnya adalah bahwa optimasi global NP-keras sehingga optimasi serakah dilakukan. Optimalisasi rakus untuk setiap pohon tidak memberi tahu kami tentang hutan. Sayangnya, matematika untuk masalah ini kurang berkembang daripada yang kita inginkan.
Lucas Roberts
5

Saat menggunakan rata-rata, Anda mengatakan dua hal:

  1. Pencilan bukan masalah besar (jika tidak Anda akan menggunakan median atau setidaknya menyaring beberapa pencilan sebelum mengambil rata-rata)
  2. Setiap prediksi memiliki bobot yang sama (jika tidak, Anda akan memperhitungkan bobot)

Anda seharusnya tidak mengharapkan ada outlier besar karena Anda dapat membuat ukuran sampel cukup besar untuk mereka menjadi kurang penting dalam rata-rata dan karena Anda akan mengharapkan minimum stabilitas dari prediksi masing-masing pohon.

Tidak ada alasan untuk berpikir bahwa beberapa pohon memiliki bobot prediksi lebih tinggi daripada yang lain, juga tidak ada cara untuk menentukan bobot tersebut.

Anda tidak dapat benar-benar menggunakan mode karena prediksi berada pada skala berkelanjutan. Misalnya, jika Anda memiliki prediksi 80 80 100 101 99 98 97 102 103 104 96, mode akan memprediksi sebagai 80. Itu tidak bisa seperti yang Anda inginkan. Jika semua nilai memiliki desimal yang berbeda, mode tidak akan tahu cara memutuskan.

Rata-rata selain dari rata-rata aritmatika ada, seperti rata-rata geometrik dan rata-rata harmonik. Mereka dirancang untuk menurunkan rata-rata jika ada beberapa nilai rendah dalam rangkaian data. Bukan itu yang Anda inginkan di sini juga.

David Ernst
sumber
1
Jika pencilan adalah masalah, ada alternatif di antara median dan mean sampel, seperti sarana winorized atau dipangkas, yang bisa memberikan perlindungan pencilan yang baik sambil lebih efisien daripada median.
kjetil b halvorsen
3

Tentu saja Anda dapat menggunakan fungsi agregasi yang berguna dalam situasi khusus Anda. Median adalah cara yang baik untuk membuat sampel kecil yang kuat terhadap outlier. Di hutan regresi Anda biasanya dapat mempengaruhi ukuran sampel untuk menghindari masalah ukuran sampel kecil. Dengan demikian rata-rata tampaknya masuk akal dalam sebagian kecil kasus penggunaan.

Bernhard
sumber
1

Tidakkah mungkin juga untuk mengambil median, mode, atau fungsi agregat lainnya?

Klasifikasi Hutan Acak ( yaitu bukan estimasi probabilitas) didasarkan pada mode prediksi (voting mayoritas), jadi ya, Anda dapat mengagregasi hasilnya sesuai keinginan.

Pembakar
sumber
Terima kasih atas jawabannya, saya telah menambahkan klarifikasi untuk pertanyaan saya. Saya tahu mungkin untuk menggunakan fungsi agregasi lainnya, yang saya ingin tahu adalah apakah ada alasan teoritis untuk pemilihan rata-rata.
Bar
1

Hal pertama yang pertama. Seperti yang dikatakan banyak orang, Anda dapat menggunakan metrik lain tetapi rata-rata adalah opsi "default".

Sebagai opsi default, seseorang akan mengatur fungsi yang berfungsi dalam beberapa kondisi ringan

Sekarang, Jika Anda memikirkannya, hutan acak adalah kumpulan pohon dan masing-masing pohon ini memiliki tujuan untuk memperkirakan variabel respons numerik Anda.

Selain itu, seperti @David Ernst menyebutkan dengan benar:

Tidak ada alasan untuk berpikir bahwa beberapa pohon seharusnya memiliki bobot yang lebih prediktif seperti yang lain, atau cara untuk menentukan bobot tersebut.

Lebih jauh, tidak ada alasan untuk berpikir bahwa pohon-pohon ini akan memiliki standar deviasi yang berbeda. Sekali lagi, dalam kondisi ringan!

Yang sedang berkata, rata-rata harus bekerja karena hukum Lemah jumlah besar

Vasilis Vasileiou
sumber
-1

Dalam ansambel. Rata-rata lebih memprioritaskan pada kepercayaan daripada mayoritas.

Misalnya Anda memiliki 3 pohon,

2 dari mereka memilih A dengan kepercayaan 22% dan 1 memilih B dengan kepercayaan 90%.

Jika kita menggunakan suara mayoritas, kita mendapat suara A. Rata-rata 22, N, N Jika kita menggunakan kepercayaan kita mendapat suara B. Rata-rata 90, N, N

Masuk akal untuk menggunakan kepercayaan 90% karena lebih yakin daripada mayoritas lainnya dengan keyakinan hanya 22%.

PauAI
sumber
Tidak jelas bagi saya apa maksud Anda. Bisakah Anda mengedit untuk menjelaskannya? Apa yang akan terjadi jika ada 100 A dan hanya satu B dengan peringkat kepercayaan yang sama?
mdewey