Mengapa pohon keputusan memiliki bias rendah & varian tinggi?

15

Pertanyaan

  1. Apakah itu tergantung pada apakah pohon itu dangkal atau dalam? Atau dapatkah kita mengatakan ini terlepas dari kedalaman / level pohon?
  2. Mengapa bias rendah & varians tinggi? Tolong jelaskan secara intuitif dan matematis
GeorgeOfTheRF
sumber

Jawaban:

4

Agak terlambat ke pesta tetapi saya merasa bahwa pertanyaan ini bisa menggunakan jawaban dengan contoh nyata.

Saya akan menulis ringkasan artikel yang luar biasa ini: bias-variance-trade-off , yang membantu saya memahami topik tersebut.

Kesalahan prediksi untuk algoritma pembelajaran mesin apa pun dapat dipecah menjadi tiga bagian:

  • Kesalahan Bias
  • Kesalahan Varians
  • Kesalahan yang Tidak Dapat Direduksi

Kesalahan tak tereduksi

Seperti namanya, adalah komponen kesalahan yang tidak dapat kita koreksi, terlepas dari algoritma dan pemilihan parameternya. Kesalahan yang tidak dapat direduksi disebabkan oleh kompleksitas yang tidak ditangkap dalam set pelatihan. Ini bisa menjadi atribut yang tidak kita miliki dalam set pembelajaran tetapi mereka memengaruhi pemetaan untuk hasil terlepas.

Kesalahan bias

Kesalahan bias disebabkan oleh asumsi kami tentang fungsi target. Semakin banyak asumsi (batasan) yang kami buat tentang fungsi target, semakin besar bias yang kami perkenalkan. Model dengan bias tinggi kurang fleksibel karena kami telah memberlakukan lebih banyak aturan pada fungsi target.

Kesalahan varians

Kesalahan varians adalah variabilitas bentuk fungsi target sehubungan dengan set pelatihan yang berbeda. Model dengan kesalahan varians kecil tidak akan banyak berubah jika Anda mengganti beberapa sampel dalam set pelatihan. Model dengan varian tinggi mungkin terpengaruh bahkan dengan perubahan kecil dalam set pelatihan.

Pertimbangkan regresi linier sederhana:

Y=b0+b1x

Jelas, ini adalah definisi yang cukup ketat dari fungsi target dan oleh karena itu model ini memiliki bias yang tinggi.

Di sisi lain, karena varians rendah jika Anda mengubah beberapa sampel data, kecil kemungkinannya ini akan menyebabkan perubahan besar dalam pemetaan keseluruhan yang dilakukan fungsi target. Di sisi lain, algoritma seperti k-terdekat-tetangga memiliki varian tinggi dan bias rendah. Sangat mudah untuk membayangkan bagaimana sampel yang berbeda dapat mempengaruhi permukaan keputusan KNN.

Secara umum, algoritma parametrik memiliki bias yang tinggi dan varians yang rendah, dan sebaliknya.

Salah satu tantangan pembelajaran mesin adalah menemukan keseimbangan yang tepat dari kesalahan bias dan kesalahan varians.

Pohon keputusan

Sekarang kita memiliki definisi-definisi ini di tempat, itu juga mudah untuk melihat bahwa pohon keputusan adalah contoh model dengan bias rendah dan varian tinggi. Pohon hampir tidak membuat asumsi tentang fungsi target tetapi sangat rentan terhadap varians dalam data.

Ada algoritma ensemble, seperti agregasi bootstrap dan hutan acak, yang bertujuan untuk mengurangi varians pada biaya kecil bias dalam pohon keputusan.

John
sumber
2

Jika jumlah level terlalu tinggi yaitu pohon keputusan yang rumit, model cenderung overfit.

Secara intuitif, ini bisa dipahami dengan cara ini. Ketika ada terlalu banyak node keputusan untuk dilalui sebelum sampai pada hasil yaitu jumlah node untuk dilalui sebelum mencapai node daun tinggi, kondisi yang Anda periksa menjadi multiplikatif. Yaitu, perhitungannya menjadi (kondisi 1) && (kondisi 2) && (kondisi 3) && (kondisi 4) && (kondisi5) .

Hanya jika semua persyaratan terpenuhi, sebuah keputusan tercapai. Seperti yang Anda lihat, ini akan bekerja dengan sangat baik untuk set pelatihan karena Anda terus mempersempit data. Pohon menjadi sangat tersetel ke data yang ada di set pelatihan.

Tetapi ketika titik data baru diumpankan, bahkan jika salah satu parameter sedikit menyimpang, kondisi tidak akan terpenuhi dan akan mengambil cabang yang salah.

Sujay S Kumar
sumber
1
  1. Pohon keputusan yang rumit (misalnya dalam) memiliki bias yang rendah dan varian yang tinggi. Imbalan bias-varians tidak tergantung pada kedalaman pohon.

  2. Pohon keputusan peka terhadap di mana pohon itu terbelah dan bagaimana pohon itu terbelah. Oleh karena itu, bahkan perubahan kecil dalam nilai variabel input dapat menghasilkan struktur pohon yang sangat berbeda.

Halo Dunia
sumber
4
Saya tidak ingat satu algoritma pohon biasa yang dipengaruhi oleh penskalaan, mereka tidak melihat nilai variabel, hanya peringkat.
Firebug
0

Mengapa pohon keputusan memiliki bias rendah & varian tinggi? Apakah itu tergantung pada apakah pohon itu dangkal atau dalam? Atau dapatkah kita mengatakan ini terlepas dari kedalaman / level pohon? Mengapa bias rendah & varians tinggi? Tolong jelaskan secara intuitif dan matematis.

Bias vs Variance

Lebih Banyak Bias = kesalahan dari model menjadi lebih sederhana (tidak cocok dengan data dengan baik)

Varians Lebih Banyak = kesalahan dari model menjadi lebih kompleks (cocok dengan data terlalu baik, dan belajar kebisingan di samping pola yang melekat dalam data)

Semuanya relatif

Saya ingin memulai dengan mengatakan bahwa semuanya itu relatif. Decision Tree secara umum memiliki bias yang rendah dan varian yang tinggi, katakanlah hutan acak. Demikian pula, pohon yang lebih dangkal akan memiliki bias yang lebih tinggi dan varian yang lebih rendah dari pohon yang sama dengan kedalaman yang lebih tinggi.

Membandingkan varian pohon keputusan dan hutan acak

Sekarang dengan itu disetrika, mari kita berpikir mengapa pohon keputusan akan lebih buruk dalam varians (varians lebih tinggi dan bias lebih rendah) daripada katakanlah hutan acak. Cara algoritma pohon keputusan bekerja adalah bahwa data dipecah berulang-ulang saat kita turun di pohon, sehingga prediksi aktual akan dibuat oleh semakin sedikit poin data. Dibandingkan dengan itu, hutan acak mengumpulkan keputusan beberapa pohon, dan itu juga, pohon yang kurang berkorelasi melalui pengacakan, maka model ini menggeneralisasikan dengan lebih baik (=> berkinerja lebih andal melintasi berbagai dataset = varian lebih rendah). Demikian pula, kami membuat asumsi yang lebih disederhanakan pada hutan acak untuk berkonsultasi hanya sebagian dari data dan fitur agar sesuai dengan satu pohon, sehingga bias lebih tinggi. BTW, similary,

Vaibhav
sumber