Ketika kita mempelajari literatur Neural Networks , kita dapat mengidentifikasi metode lain dengan topologi neuromorfik (arsitektur seperti Neural-Network). Dan saya tidak berbicara tentang Teorema Perkiraan Universal . Contoh diberikan di bawah ini.
Lalu, itu membuat saya bertanya-tanya: apa definisi Jaringan Syaraf Tiruan buatan? Topologinya tampaknya mencakup segalanya.
Contoh:
Salah satu identifikasi pertama yang kami buat adalah antara PCA dan Autoencoder linier dengan ikatan-bobot dalam encoder dan dekoder serta aktivasi yang di-threshold di lapisan bottleneck.
Juga, identifikasi umum dilakukan antara model linier (regresi logistik khusus) dan Jaringan Saraf Tiruan tanpa lapisan tersembunyi dan lapisan keluaran tunggal. Identifikasi ini membuka beberapa pintu.
Seri Fourier dan Taylor? JST . SVM ? JST. Proses Gaussian? JST (dengan lapisan tersembunyi tunggal dengan unit tersembunyi tak terbatas).
Jadi, sama mudahnya, kita dapat menggabungkan versi yang diatur secara sewenang-wenang dengan fungsi kerugian khusus dari algoritma ini ke dalam kerangka kerja Jaringan Saraf Tiruan.
Tetapi semakin kita menggali, semakin banyak kesamaan yang muncul. Saya baru saja tersandung ke Deep Neural Decision Trees , yang membuat identifikasi arsitektur JST spesifik dengan pohon keputusan, yang memungkinkan ini dipelajari dengan metode JST (seperti backpropagation Descent Gradient Descent). Dari sini kita dapat membangun Random Forests dan Gradient Boosted Decision Trees hanya dari topologi Neural Network.
Jika semuanya dapat dinyatakan sebagai Jaringan Syaraf Tiruan, apa yang mendefinisikan Jaringan Syaraf Tiruan?
sumber
Jawaban:
Jürgen Schmidhuber, " Pembelajaran Jauh dalam Jaringan Saraf Tiruan: Suatu Tinjauan " menelusuri sejarah konsep-konsep kunci dalam jaringan saraf dan pembelajaran mendalam. Dalam pandangannya, jaringan saraf akan muncul untuk mencakup dasarnya setiap model yang dapat dikarakterisasikan sebagai grafik terarah di mana setiap node mewakili beberapa unit komputasi. Schmidhuber adalah peneliti jaringan saraf terkemuka, dan menulis makalah asli pada jaringan LSTM dengan Sepp Hochreiter.
Di sisi lain, saya tidak yakin bahwa itu selalu menguntungkan untuk mencoba dan membangun taksonomi ember yang saling eksklusif untuk strategi pembelajaran mesin. Saya pikir kita dapat mengatakan bahwa ada perspektif dari mana model dapat dilihat sebagai jaringan saraf. Saya tidak berpikir bahwa perspektif adalah yang terbaik atau berguna dalam semua konteks. Sebagai contoh, saya masih berencana untuk merujuk pada hutan acak dan gradien meningkatkan pohon sebagai "ansambel pohon" daripada mengabstraksi perbedaan mereka dan memanggil mereka "pohon jaringan saraf". Selain itu, Schmidhuber membedakan NN dari mesin kernel - meskipun mesin kernel memiliki beberapa koneksi ke NN - ketika ia menulis "Di milenium baru, NN dalam akhirnya menarik perhatian luas," terutama dengan mengungguli metode pembelajaran mesin alternatif seperti mesin kernel ... dalam berbagai aplikasi penting. "
sumber
Jika Anda menginginkan definisi dasar dari JST, Anda mungkin mengatakan bahwa itu adalah model-diarahkan-grafis, di mana input dan output diproses pada setiap node melalui fungsi aktivasi, dan sebagian besar waktu gradient descent digunakan untuk melatihnya. Jadi pertanyaannya benar-benar menjadi: model apa di luar sana yang dapat dinyatakan sebagai model grafis?
Saya bukan ahli tetapi, saya percaya secara teoritis beberapa JST dapat ditampilkan sebagai Turing lengkap, yang berarti bahwa mereka harus dapat melakukan serangkaian perhitungan yang mungkin (dengan kemungkinan sumber daya yang tak terbatas , ingatlah).
Saya juga akan menafsirkan pertanyaan Anda dengan cara berikut:
Jaringan saraf vanila dapat meniru pohon keputusan, dengan menggunakan aktivasi langkah heaviside. Masalahnya adalah bahwa aktivasi unit tersebut memiliki gradien nol, sehingga keturunan gradien normal tidak akan berfungsi. Anda mungkin berkata, "tidak masalah, cukup gunakan bentuk gradient descent yang dimodifikasi." Namun, itu masih belum cukup. Untuk contoh yang lebih baik, ambil sesuatu seperti XGBOOST, yang bukan hanya hutan yang didorong oleh gradien. Ada banyak pekerjaan ekstra yang harus dilakukan dalam memilih titik split, pemangkasan, mengoptimalkan kecepatan, dll. Mungkin setelah modifikasi yang cukup Anda dapat membuat JST yang mirip, tetapi sama sekali tidak jelas bahwa JST seperti itu akan melakukan setidaknya sebagai baik, atau jika itu dioptimalkan untuk melakukan pekerjaan itu.
sumber
"For any given model, can I slap together an ANN model to emulate that model, as close as possible, and in a reasonable amount of time?"
- Saya takut untuk mengatakan itu bukan itu intinya. Intinya adalah, topologi JST sangat umum sehingga tampaknya mencakup segalanya, dan strategi optimasi tampaknya tidak dapat menentukan apa yang ada dan apa yang bukan JST. Karena itu pertanyaannya, apa yang mendefinisikan JST? Karena kalau tidak semuanya adalah, dengan cara, JST dinyatakan dalam istilah lain."A vanilla neural network can emulate a decision tree, by using heaviside step-activations. The problem is that such unit activations have zero gradient, so normal gradient descent won't work. You might say, "no problem, just use a modified form of gradient descent." However, that's still not enough. [...]"
- Seperti yang bisa kami tegaskan, optimasi bukanlah faktor penentu untuk definisi apa yang merupakan JST. Jika Anda dapat menulis setiap pohon keputusan sebagai jaringan saraf (dan kami dapat melakukan itu), maka kami dapat mengatakan bahwa DT adalah (jenis) NN, sementara yang sebaliknya tidak benar."If you want a basic definition of an ANN, you might say that it's a directed-graphical-model, where inputs and outputs are processed at each node via an activation function, and most of the time gradient descent is used to train it. So the question really becomes: what models out there can be expressed as graphical models?"
- Saya setuju dengan ini. Kemudian, "Jaringan Saraf Tiruan" dapat diartikan sebagai kelas model yang paling umum, mungkin hanya kurang umum daripada "model Grafik", yang merupakan superset dari Model Grafik Tidak Langsung dan Diarahkan. Mungkin Anda bisa menguraikan lebih lanjut tentang ini;)Mungkin, nama yang lebih akurat untuk JST adalah "jaringan terdiferensiasi", yaitu fungsi parametrized kompleks yang dapat dioptimalkan menggunakan gradient descent atau variannya. Ini adalah definisi yang sangat umum yang menekankan diferensiasi, tetapi tidak memberi tahu apa-apa tentang ide-ide pokok, tugas-tugas yang cocok untuknya, kerangka matematika yang mendasarinya, dll.
Perhatikan bahwa diferensiabilitas adalah suatu sifat, bukan yang utama. Sebagai contoh, SVM dapat dilatih menggunakan gradient descent dan dengan demikian menunjukkan sifat-sifat jaringan neural / terdiferensiasi, tetapi ide utamanya adalah dalam pemisahan data menggunakan hyperplanes. Autoencoder variasi menggunakan MLP untuk encoder dan decoder, tetapi fungsi yang Anda optimalkan berasal dari statistik Bayesian, dan sebagainya.
Ada juga beberapa model yang sering disebut sebagai jaringan saraf tetapi tidak menggunakan GD untuk belajar. Contoh yang baik adalah RBM. Dugaan saya adalah bahwa label "jaringan saraf" dilekatkan padanya sebagian besar karena alasan historis - akhirnya, pencipta RBM adalah Geoffrey Hinton, dan Hinton adalah seorang pria jaringan saraf, bukan? Namun, jika Anda menganalisis model, Anda akan melihat bahwa struktur RBM adalah jaring Markov, fungsi biaya berbasis energi berasal dari fisika statistik awal abad ke-20 dan pengambilan sampel MCMC / Gibbs telah berkembang secara paralel dan sepenuhnya independen dari jaringan saraf .
sumber
Saya mungkin mencoba untuk mendalilkan beberapa hal yang membantu mendefinisikan Jaringan Saraf Tiruan.
Saya cukup yakin ini mencakup semua jaringan saraf yang umum digunakan saat ini dan juga beberapa yang esoteris.
Agnostik terhadap optimasi (jika kami memberlakukan optimasi berbasis gradien, maka jaringan yang berkembang tidak akan menjadi jaringan saraf).
Itu tidak menyebutkan neuron / node atau layer (beberapa jaringan saraf saat ini sulit dijelaskan oleh istilah-istilah ini), tapi saya kira kita bisa memasukkan itu dan menjadi sedikit lebih ketat.
sumber