Mesin pembelajaran ekstrem: tentang apa semua ini?

Saya sudah memikirkan, menerapkan dan menggunakan paradigma Extreme Learning Machine (ELM) selama lebih dari satu tahun sekarang, dan semakin lama saya lakukan, semakin saya ragu bahwa itu benar-benar hal yang baik. Pendapat saya, bagaimanapun, tampaknya berbeda dengan komunitas ilmiah di mana - ketika menggunakan kutipan dan publikasi baru sebagai ukuran - tampaknya menjadi topik hangat.

ELM telah diperkenalkan oleh Huang et. Al. sekitar tahun 2003. Gagasan yang mendasarinya agak sederhana: mulai dengan jaringan saraf tiruan 2-lapisan dan secara acak tetapkan koefisien di lapisan pertama. Ini, seseorang mengubah masalah optimasi non-linear yang biasanya ditangani melalui backpropagation menjadi masalah regresi linier sederhana. Lebih detail, untuk $\mathbf x \in \mathbb R^D$ , modelnya adalah

f (x) = \sum_{i = 1}^{N_{hidden}} w_{i} σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

Sekarang, hanya yang disesuaikan (untuk meminimalkan kuadrat-kesalahan-kerugian), sedangkan semuanya dipilih secara acak. Sebagai kompensasi atas hilangnya derajat kebebasan, saran yang biasa digunakan adalah menggunakan sejumlah besar simpul tersembunyi (yaitu parameter bebas ). $w_i$ $v_{ik}$ $w_i$

Dari perspektif lain (bukan yang biasanya dipromosikan dalam literatur, yang berasal dari sisi jaringan saraf), seluruh prosedur adalah hanya regresi linear, tapi satu di mana Anda memilih fungsi dasar Anda secara acak, misalnya $\phi$

ϕ_{i} (x) = σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$\phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

(Banyak pilihan lain selain sigmoid mungkin untuk fungsi acak. Misalnya, prinsip yang sama juga telah diterapkan menggunakan fungsi basis radial.)

Dari sudut pandang ini, keseluruhan metode menjadi hampir terlalu sederhana, dan ini juga merupakan titik di mana saya mulai ragu bahwa metode ini benar-benar bagus (... sedangkan pemasaran ilmiahnya tentu saja). Jadi inilah pertanyaanku:

Gagasan untuk meraster ruang input menggunakan fungsi basis acak, menurut saya, bagus untuk dimensi rendah. Dalam dimensi tinggi, saya pikir itu tidak mungkin untuk menemukan pilihan yang baik menggunakan pemilihan acak dengan sejumlah fungsi basis yang masuk akal. Karena itu, apakah ELM terdegradasi dalam dimensi tinggi (karena kutukan dimensi)?
Apakah Anda mengetahui hasil percobaan yang mendukung / bertentangan dengan pendapat ini? Dalam makalah yang ditautkan hanya ada satu set data regresi 27 dimensi (PYRIM) di mana metode melakukan mirip dengan SVM (sedangkan saya lebih suka melihat perbandingan dengan JST backpropagation)
Secara umum, saya ingin komentar Anda di sini tentang metode ELM.

regression Davidhigh
sumber

Lihat di sini untuk kisah selengkapnya: theanonymousemail.com/view/?msg=ZHEZJ1AJ

davidhigh

Jawaban:

Intuisi Anda tentang penggunaan ELM untuk masalah dimensi tinggi sudah benar, saya punya beberapa hasil tentang ini, yang saya siapkan untuk publikasi. Untuk banyak masalah praktis, data tidak sangat non-linear dan ELM bekerja dengan cukup baik, tetapi akan selalu ada dataset di mana kutukan dimensionalitas berarti bahwa kesempatan untuk menemukan fungsi dasar yang baik dengan kelengkungan hanya di mana Anda membutuhkannya menjadi agak kecil, bahkan dengan banyak vektor basis.

Saya pribadi akan menggunakan sesuatu seperti mesin vektor kuadrat-terkecil (atau jaringan fungsi basis radial) dan mencoba dan memilih vektor-vektor dasar dari mereka yang ada dalam pelatihan yang diatur secara serakah (lihat misalnya makalah saya , tetapi ada yang lain / lebih baik pendekatan yang diterbitkan pada sekitar waktu yang sama, misalnya dalam buku yang sangat bagus oleh Scholkopf dan Smola tentang "Belajar dengan Kernel"). Saya pikir lebih baik untuk menghitung solusi perkiraan untuk masalah yang tepat, daripada solusi yang tepat untuk masalah perkiraan, dan mesin kernel memiliki landasan teoritis yang lebih baik (untuk kernel tetap; o).

Dikran Marsupial
sumber

+1. Saya belum pernah mendengar tentang ELM sebelumnya, tetapi dari deskripsi di OP terdengar agak seperti mesin keadaan cair (LSM): konektivitas jaringan acak dan hanya mengoptimalkan bobot pembacaan. Namun, dalam LSM "reservoir" acak berulang, sedangkan dalam ELM itu feedforward. Apakah memang persamaan dan perbedaannya?

Amuba mengatakan Reinstate Monica

k (x, x_{i})

$k(\mathbf x,\mathbf x_i)$

x_{i}

$\mathbf x_i$

@amoeba: Saya tidak tahu mesin keadaan cair, tapi dari apa yang Anda katakan itu terdengar sangat mirip ... dan tentu saja, secara teknis lebih umum. Namun, perhitungan ulang hanya menambah bentuk keacakan yang lebih kompleks untuk masalah, yang menurut saya tidak menyembuhkan masalah kutukan dimensi ((tapi ok, siapa yang melakukan ini?). Apakah bobot recurrency itu dipilih dengan hati-hati atau juga sepenuhnya acak?

davidhigh

@davidhigh untuk kernel RBF, "teorema representer" menunjukkan bahwa tidak ada solusi yang lebih baik daripada memusatkan fungsi dasar pada setiap sampel pelatihan (membuat beberapa asumsi yang masuk akal tentang fungsi biaya yang diatur). Ini adalah salah satu fitur bagus dari metode kernel (dan splines), jadi tidak perlu menyebarkannya secara acak. Omong-omong, membangun model linier pada output dari fungsi-fungsi dasar yang dipilih secara acak memiliki sejarah yang sangat panjang, favorit saya adalah lapisan tunggal mencari perceptron ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1 tapi saya mungkin bias!

Dikran Marsupial

@DikranMarsupial apakah Anda menerbitkan atau apakah Anda memiliki pra-publikasi tersedia?

Tom Hale

ELM "belajar" dari data dengan secara analitis menyelesaikan untuk bobot keluaran. Dengan demikian semakin besar data yang dimasukkan ke dalam jaringan akan menghasilkan hasil yang lebih baik. Namun ini juga membutuhkan lebih banyak jumlah node tersembunyi. Jika ELM dilatih dengan sedikit atau tanpa kesalahan, ketika diberikan set input baru, ia tidak dapat menghasilkan output yang benar.

Keuntungan utama ELM dari jaringan syaraf tradisional seperti propagasi kembali adalah waktu pelatihan yang cepat. Sebagian besar waktu perhitungan dihabiskan untuk menyelesaikan bobot lapisan keluaran seperti yang disebutkan dalam kertas Huang.

pengguna62106
sumber