Apa yang dimaksud dengan kedekatan di hutan acak?

11

Saya menemukan istilah kedekatan di hutan acak. Tetapi saya tidak mengerti apa yang dilakukannya di hutan acak. Apa manfaatnya untuk tujuan klasifikasi?

pengguna3796494
sumber

Jawaban:

12

Istilah "kedekatan" berarti "kedekatan" atau "kedekatan" antara pasangan kasus.

Perkiraan dihitung untuk setiap pasangan kasus / pengamatan / titik sampel. Jika dua kasus menempati terminal node yang sama melalui satu pohon, kedekatan mereka meningkat satu. Pada akhir menjalankan semua pohon, proksimitas dinormalisasi dengan membaginya dengan jumlah pohon. Perkiraan digunakan dalam mengganti data yang hilang, mencari pencilan, dan menghasilkan pandangan data dimensi rendah yang menerangi.

Perkiraan

Perkiraan awalnya membentuk matriks NxN. Setelah pohon tumbuh, letakkan semua data, baik pelatihan dan oob, ke bawah pohon. Jika case k dan n berada di terminal node yang sama, tingkatkan jaraknya menjadi satu. Pada akhirnya, normalkan proksitas dengan membaginya dengan jumlah pohon.

Pengguna mencatat bahwa dengan set data yang besar, mereka tidak dapat memasukkan matriks NxN ke dalam memori cepat. Modifikasi mengurangi ukuran memori yang diperlukan ke NxT di mana T adalah jumlah pohon di hutan. Untuk mempercepat penskalaan intensif komputasi dan penggantian nilai yang hilang berulang, pengguna diberikan pilihan untuk mempertahankan hanya nrnn proksimasi terbesar untuk setiap kasus.

Ketika satu set tes hadir, proximities dari setiap kasus dalam set tes dengan setiap kasus dalam set pelatihan juga dapat dihitung. Jumlah komputasi tambahan cukup.

kutipan: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

sinalpha
sumber
Apa artinya "nrnn"? Saya membaca halaman Adele Cutler (atau mungkin Breiman karena saya tidak tahu siapa yang menulis apa di sini) pada RF, dan saya tidak dapat menemukan di mana mereka mendefinisikan nrnn. (Ini mungkin istilah aljabar linear yang dengannya saya tidak terbiasa.
Tanner Strunk
nrnn = jumlah tetangga terdekat yang akan menghitung proksitas. Sumber: math.usu.edu/adele/RandomForests/ENAR.pdf halaman 161
klumbard
0

Perhatikan bahwa penulis Elemen Pembelajaran Statistik menyatakan bahwa "Plot kedekatan untuk hutan acak sering terlihat sangat mirip, terlepas dari data, yang menimbulkan keraguan pada kegunaannya. Mereka cenderung memiliki bentuk bintang, satu lengan per kelas, yang lebih diucapkan semakin baik kinerja klasifikasi. " (hal 595)

Namun, saya pikir para penulis ini tidak menyebutkan cara hutan acak menangani data yang hilang begitu banyak (meskipun mereka menyebutkan data yang hilang dengan pohon sebelumnya dalam buku ini); mungkin penulis hanya tidak menyoroti aspek RF ini sebanyak yang masuk akal mengingat buku ini sangat besar dan memiliki banyak informasi tentang banyak topik / teknik pembelajaran mesin. Namun, saya tidak berpikir bahwa memiliki plot memberikan bentuk yang sama untuk RF dan kumpulan data berarti sesuatu yang negatif tentang RF secara umum. Misalnya, regresi linier pada dasarnya selalu terlihat sama, tetapi ada baiknya untuk mengetahui poin apa yang dekat dengan garis dan yang tampaknya outlier dari perspektif regresi linier. Jadi ... komentar mereka tentang utilitas plot kedekatan tidak masuk akal bagi saya.

Tanner Strunk
sumber