Mengevaluasi Hutan Acak: OOB vs CV

13

Ketika kami menilai kualitas Hutan Acak, misalnya menggunakan AUC, apakah lebih tepat untuk menghitung jumlah ini di atas Sampel Luar Tas atau lebih dari seperangkat validasi silang tahan?

Saya mendengar bahwa menghitungnya melalui Sampel OOB memberikan penilaian yang lebih pesimistis, tetapi saya tidak mengerti mengapa.

pengguna695652
sumber

Jawaban:

12

Catatan: Walaupun saya merasa bahwa jawaban saya mungkin benar, saya juga merasa ragu karena saya mengatasinya dengan memikirkan masalah ini hanya setelah membaca pertanyaan ini selama sekitar 30-60 menit. Jadi, Anda sebaiknya bersikap skeptis dan mencermati hal ini dan tidak tertipu oleh gaya penulisan saya yang terlalu percaya diri (saya menggunakan kata-kata besar dan simbol-simbol Yunani yang mewah tidak berarti saya benar).

Ringkasan

Ini hanya ringkasan. Semua detail disebutkan di bagian §1 dan §2 bawah.

Mari kita asumsikan kasus klasifikasi (dapat diperluas ke regresi juga, tetapi hilangkan untuk singkatnya). Intinya, tujuan kami adalah memperkirakan kesalahan hutan pohon. Kedua kesalahan out-of-bag dan validasi silang k-fold mencoba memberi tahu kami probabilitas bahwa:

  • Hutan memberikan klasifikasi yang benar (validasi silang k-fold melihatnya dengan cara ini).

Yang identik dengan probabilitas bahwa:

  • Suara terbanyak dari pohon hutan adalah suara yang benar (OOBE melihatnya dengan cara ini).

Dan keduanya identik. Satu-satunya perbedaan adalah bahwa k-fold cross-validation dan OOBE mengasumsikan ukuran sampel pembelajaran yang berbeda. Sebagai contoh:

  • Dalam validasi silang 10 kali lipat, set pembelajaran adalah 90%, sedangkan set pengujian adalah 10%.
  • Namun, dalam OOBE jika setiap kantong memiliki n sampel, sehingga n= jumlah total sampel dalam set sampel keseluruhan, maka ini menyiratkan bahwa set pembelajaran praktis sekitar 66% (dua pertiga) dan set pengujian sekitar 33% ( sepertiga).

Oleh karena itu dalam pandangan saya satu-satunya alasan mengapa OOBE adalah perkiraan pesimistis kesalahan hutan hanya karena biasanya dilatih oleh sejumlah kecil sampel daripada biasanya dilakukan dengan validasi silang k-fold (di mana 10 lipatan adalah umum).

Karena itu, saya juga berpikir bahwa validasi silang 2 kali lipat akan menjadi estimasi yang lebih pesimistis dari kesalahan hutan daripada OOBE, dan validasi silang 3 kali lipat akan kurang lebih sama pesimistisnya dengan OOBE.

1. Memahami kesalahan out-of-bag

1.1 Pandangan umum tentang mengantongi

Setiap pohon dalam RF ditumbuhkan oleh daftar sampel yang diambil secara acak dari perangkat pembelajaran X dengan penggantian. Dengan cara ini, n banyak sampel dapat memiliki duplikat, dan jika n = | X | maka dapat ditemukan bahwa sekitar sepertiga dari sampel dalam X cenderung berakhir tidak ada dalam daftar n sampel yang digunakan untuk menumbuhkan pohon tertentu (ini adalah sampel out-of-bag dari pohon tertentu ini. Proses ini diulangi secara independen untuk setiap pohon, sehingga setiap pohon memiliki sampel sampel yang berbeda.nXnn=|X|Xn

1.2. Pandangan lain tentang mengantongi

Sekarang, mari kita gambarkan kembali bagging sedikit berbeda dengan harapan menemukan deskripsi yang sama yang mudah untuk ditangani.

Saya melakukan ini dengan menyatakan bahwa pohon dilatih oleh sampel dikantongi di set X tX . Namun, hal ini tidak sepenuhnya benar sebagai himpunan X t tidak telah diduplikasi sampel (ini adalah bagaimana set bekerja), sedangkan -on yang tangan-lain n daftar sampel dapat memiliki duplikat.tXtXXtn

Oleh karena itu, kita dapat mengatakan bahwa pohon tumbuh dengan sampel analisis X t ditambah sejumlah duplikat yang dipilih secara acak diambil dari X t , yaitu X t , 1 , X t , 2 , ... , X t , rX t , seperti itu: | X t | + r i = 1 | X t , i | = ntXt XtXt,1,Xt,2,...,Xt,rXt

|Xt|+saya=1r|Xt,saya|=n

Hal ini sepele untuk melihat bahwa dari koleksi ini dari set , kita dapat mendefinisikan daftar n sampel -banyak yang berisi duplikat hanya dengan menambahkan unsur-unsur di setiap set C iC ke sebuah array a . Dengan cara ini, untuk setiap 1 p n , terdapat setidaknya satu nilai dari i sehingga sebuah [ p ] C iC={Xt,Xt,1,...,Xt,r}nCsayaCSebuah1halnsayaSebuah[hal]Csaya.

Kita juga dapat melihat bahwa daftar sampel dalam array yang merupakan generalisasi dari mengantongi seperti yang saya didefinisikan dalam Bagian 1. Hal ini sepele untuk melihat bahwa untuk beberapa definisi khusus dari X t bahwa saya telah didefinisikan dalam bagian ini ( § 2 ) , daftar sampel dalam array a dapat persis sama dengan daftar sampel sebagaimana didefinisikan dalam Bagian 1.nSebuahXt§2Sebuah

1.3. Menyederhanakan pengemasan

Alih-alih tumbuh pohon dengan sampel dalam array satu , kita akan tumbuh mereka dengan daftar duplikasi bebas dari kasus yang ditemukan dalam X t saja.tSebuahXt

Saya percaya bahwa, jika cukup besar, pohon t yang tumbuh dengan menganalisis sampel di X t identik dengan yang lain pohon t ' yang tumbuh dari sampel dalam array a .ntXttSebuah

Alasan saya adalah bahwa, kemungkinan duplikasi sampel di adalah sama-sama mungkin di seluruh sampel lainnya di set yang sama. Ini berarti bahwa, ketika kami mengukur perolehan informasi (IG) dari beberapa split, IG akan tetap identik karena entropi akan tetap identik juga.Xt

Dan alasan saya percaya entropi tidak akan berubah secara sistematis untuk split yang diberikan adalah karena probabilitas yang diukur secara empiris dari sampel memiliki label tertentu di beberapa sub-set (setelah menerapkan keputusan split) tidak akan berubah juga.

Dan alasan probabilitas tidak harus mengubah dalam pandangan saya adalah bahwa semua sampel di sama-sama kemungkinan akan digandakan ke d eksemplar.Xtd

1.4 Mengukur kesalahan out-of-bag

Mari menjadi out-of-kantong sampel pohon t . Yaitu O t = XX t . Kemudian kesalahan satu pohon t adalah: Total  x  di  O t  benar diklasifikasikan oleh  tHAIttHAIt=XXtt Dan total kesalahan hutan denganntbanyak pohon adalah: Σ n t t = 1 Total  x  di  O t  benar diklasifikasikan oleh t

total x di HAIt correctly classified by t|Ot|
nt yang dapat dianggap sebagaiprobabilitas yangdiukur secara empirisbahwa suara mayoritas dari semua pohon di hutan adalah suara yang benar.
t=1nttotal x in Ot correctly classified by tt=1nt|Ot|

2. Memahami k-fold cross-validation

XnkK={K1,K2,,Knk}K1K2Knk=XKi,KjKKiKj=

KtK{Kt}

fK{Kt}

f

t=1nktotal x in Kt correctly classified by ft=1nk|Kt|

f

manusia gua
sumber