Pada dasarnya, pertanyaan saya adalah bahwa dalam multilayer Perceptrons, perceptrons digunakan dengan fungsi aktivasi sigmoid. Sehingga dalam aturan pembaruan dihitung sebagai
Bagaimana perbedaan "sigmoid" Perceptron ini dari regresi logistik?
Saya akan mengatakan bahwa perceptron sigmoid satu-lapisan setara dengan regresi logistik dalam arti bahwa keduanya menggunakan dalam aturan pembaruan. Juga, keduanya mengembalikan dalam prediksi. Namun, dalam multilayer perceptrons, fungsi aktivasi sigmoid digunakan untuk mengembalikan probabilitas, bukan sinyal on-off berbeda dengan regresi logistik dan perceptron satu-layer. tanda( y =1
Saya pikir penggunaan istilah "Perceptron" mungkin sedikit ambigu, jadi izinkan saya memberikan beberapa latar belakang berdasarkan pemahaman saya saat ini tentang perceptrons single-layer:
Aturan perceptron klasik
Pertama, perceptron klasik oleh F. Rosenblatt di mana kita memiliki fungsi langkah:
untuk memperbarui bobot
Sehingga dihitung sebagai
Keturunan Gradien
Dengan menggunakan gradient descent, kami mengoptimalkan (meminimalkan) fungsi biaya
di mana kita memiliki angka "nyata", jadi saya melihat ini pada dasarnya analog dengan regresi linier dengan perbedaan bahwa output klasifikasi kami di-threshold.
Di sini, kami mengambil langkah ke arah negatif dari gradien ketika kami memperbarui bobot
Tetapi di sini, kita memiliki alih-alih
Selain itu, kami menghitung jumlah kesalahan kuadrat untuk lulus penuh atas seluruh dataset pelatihan (dalam mode pembelajaran batch) berbeda dengan aturan perceptron klasik yang memperbarui bobot saat sampel pelatihan baru tiba (analog ke penurunan gradien stokastik - online belajar).
Fungsi aktivasi Sigmoid
Sekarang, inilah pertanyaan saya:
Dalam multilayer Perceptrons, perceptrons digunakan dengan fungsi aktivasi sigmoid. Sehingga dalam aturan pembaruan dihitung sebagai
Bagaimana perbedaan "sigmoid" Perceptron ini dari regresi logistik?
Jawaban:
Jika Anda meminimalkan kesalahan kuadrat rata-rata, maka itu berbeda dari regresi logistik. Regresi logistik biasanya dikaitkan dengan cross entropy loss, berikut adalah halaman pengantar dari perpustakaan scikit-learn .
(Saya akan menganggap perceptrons multilayer adalah hal yang sama yang disebut jaringan saraf.)
Jika Anda menggunakan cross entropy loss (dengan regularisasi) untuk jaringan saraf single-layer, maka itu akan menjadi model yang sama (model log-linear) dengan regresi logistik. Jika Anda menggunakan jaringan multi-layer sebagai gantinya, itu dapat dianggap sebagai regresi logistik dengan fungsi basis nonlinear parametrik.
Output dari kedua regresi logistik dan jaringan saraf dengan fungsi aktivasi sigmoid dapat diartikan sebagai probabilitas. Karena cross entropy loss sebenarnya adalah kemungkinan log negatif yang ditentukan melalui distribusi Bernoulli.
sumber
Karena gradient descent memperbarui setiap parameter dengan cara yang mengurangi kesalahan output yang harus dilanjutkan fungsi semua parameter. Aktivasi berbasis ambang tidak dapat dibedakan itu sebabnya aktivasi sigmoid atau tanh digunakan.
Ini adalah NN single-layer
jika fungsi aktivasi adalah fungsi langkah dasar (threshold), turunan dari wrt z k akan non-terdiferensiasi.J zk
di sini ada tautan yang menjelaskannya secara umum.
Sunting: Mungkin, saya salah mengerti apa yang Anda maksud dengan perceptron. Jika saya tidak salah, perceptron dipahami ditimbang sejumlah input. Jika Anda mengubah pemahaman dengan fungsi logistik itu berubah menjadi regresi logistik. Multi-layer NN dengan fungsi aktivasi sigmoid (logistik) adalah cascaded layers yang terdiri dari regresi logistik.
sumber
Secara intuitif, saya memikirkan perceptron multilayer sebagai komputasi transformasi nonlinier pada fitur input saya, dan kemudian memasukkan variabel-variabel yang ditransformasikan ke dalam regresi logistik.
Saya tidak tahu tentang Anda, tetapi dalam kursus pemodelan dan penelitian saya, saya mencoba semua jenis transformasi yang masuk akal dan bodoh dari fitur input untuk meningkatkan signifikansi dan prediksi model keseluruhan. Mengkuadratkan hal-hal, mengambil kayu gelondongan, menggabungkan dua menjadi satu tingkat, dll. Saya tidak malu, tetapi saya memiliki kesabaran yang terbatas.
sumber