Saya sudah memikirkan, menerapkan dan menggunakan paradigma Extreme Learning Machine (ELM) selama lebih dari satu tahun sekarang, dan semakin lama saya lakukan, semakin saya ragu bahwa itu benar-benar hal yang baik. Pendapat saya, bagaimanapun, tampaknya berbeda dengan komunitas ilmiah di mana - ketika menggunakan kutipan dan publikasi baru sebagai ukuran - tampaknya menjadi topik hangat.
ELM telah diperkenalkan oleh Huang et. Al. sekitar tahun 2003. Gagasan yang mendasarinya agak sederhana: mulai dengan jaringan saraf tiruan 2-lapisan dan secara acak tetapkan koefisien di lapisan pertama. Ini, seseorang mengubah masalah optimasi non-linear yang biasanya ditangani melalui backpropagation menjadi masalah regresi linier sederhana. Lebih detail, untuk , modelnya adalah
Sekarang, hanya yang disesuaikan (untuk meminimalkan kuadrat-kesalahan-kerugian), sedangkan v i k semuanya dipilih secara acak. Sebagai kompensasi atas hilangnya derajat kebebasan, saran yang biasa digunakan adalah menggunakan sejumlah besar simpul tersembunyi (yaitu parameter bebas w i ).
Dari perspektif lain (bukan yang biasanya dipromosikan dalam literatur, yang berasal dari sisi jaringan saraf), seluruh prosedur adalah hanya regresi linear, tapi satu di mana Anda memilih fungsi dasar Anda secara acak, misalnya
(Banyak pilihan lain selain sigmoid mungkin untuk fungsi acak. Misalnya, prinsip yang sama juga telah diterapkan menggunakan fungsi basis radial.)
Dari sudut pandang ini, keseluruhan metode menjadi hampir terlalu sederhana, dan ini juga merupakan titik di mana saya mulai ragu bahwa metode ini benar-benar bagus (... sedangkan pemasaran ilmiahnya tentu saja). Jadi inilah pertanyaanku:
Gagasan untuk meraster ruang input menggunakan fungsi basis acak, menurut saya, bagus untuk dimensi rendah. Dalam dimensi tinggi, saya pikir itu tidak mungkin untuk menemukan pilihan yang baik menggunakan pemilihan acak dengan sejumlah fungsi basis yang masuk akal. Karena itu, apakah ELM terdegradasi dalam dimensi tinggi (karena kutukan dimensi)?
Apakah Anda mengetahui hasil percobaan yang mendukung / bertentangan dengan pendapat ini? Dalam makalah yang ditautkan hanya ada satu set data regresi 27 dimensi (PYRIM) di mana metode melakukan mirip dengan SVM (sedangkan saya lebih suka melihat perbandingan dengan JST backpropagation)
Secara umum, saya ingin komentar Anda di sini tentang metode ELM.
sumber
Jawaban:
Intuisi Anda tentang penggunaan ELM untuk masalah dimensi tinggi sudah benar, saya punya beberapa hasil tentang ini, yang saya siapkan untuk publikasi. Untuk banyak masalah praktis, data tidak sangat non-linear dan ELM bekerja dengan cukup baik, tetapi akan selalu ada dataset di mana kutukan dimensionalitas berarti bahwa kesempatan untuk menemukan fungsi dasar yang baik dengan kelengkungan hanya di mana Anda membutuhkannya menjadi agak kecil, bahkan dengan banyak vektor basis.
Saya pribadi akan menggunakan sesuatu seperti mesin vektor kuadrat-terkecil (atau jaringan fungsi basis radial) dan mencoba dan memilih vektor-vektor dasar dari mereka yang ada dalam pelatihan yang diatur secara serakah (lihat misalnya makalah saya , tetapi ada yang lain / lebih baik pendekatan yang diterbitkan pada sekitar waktu yang sama, misalnya dalam buku yang sangat bagus oleh Scholkopf dan Smola tentang "Belajar dengan Kernel"). Saya pikir lebih baik untuk menghitung solusi perkiraan untuk masalah yang tepat, daripada solusi yang tepat untuk masalah perkiraan, dan mesin kernel memiliki landasan teoritis yang lebih baik (untuk kernel tetap; o).
sumber
ELM "belajar" dari data dengan secara analitis menyelesaikan untuk bobot keluaran. Dengan demikian semakin besar data yang dimasukkan ke dalam jaringan akan menghasilkan hasil yang lebih baik. Namun ini juga membutuhkan lebih banyak jumlah node tersembunyi. Jika ELM dilatih dengan sedikit atau tanpa kesalahan, ketika diberikan set input baru, ia tidak dapat menghasilkan output yang benar.
Keuntungan utama ELM dari jaringan syaraf tradisional seperti propagasi kembali adalah waktu pelatihan yang cepat. Sebagian besar waktu perhitungan dihabiskan untuk menyelesaikan bobot lapisan keluaran seperti yang disebutkan dalam kertas Huang.
sumber