Berpotensi makalah yang lebih baru yang mencoba untuk mengatasinya lebih banyak dari tim Langford dan Shapire: Mempelajari Blok Deep ResNet secara Berurutan menggunakan Teori Peningkat
Bagian yang menarik adalah (Lihat bagian 3):
Perbedaan utama adalah bahwa meningkatkan adalah ensemble dari estimasi hipotesis sedangkan ResNet adalah ensemble dari perwakilan fitur yang diestimasi . Untuk mengatasi masalah ini, kami memperkenalkan classifier linier bantu di atas setiap blok residual untuk membangun modul hipotesis . Secara formal
modul hipotesis didefinisikan sebagai∑Tt=0ft(gt(x))wtot(x):=wTtgt(x)∈R
...
(di mana)ot(x)=∑t−1t′=0wTtft′(gt′(x))
Makalah ini jauh lebih detail seputar konstruksi classifier modul lemah dan bagaimana hal tersebut terintegrasi dengan algoritma BoostResNet mereka .ht(x)
Menambahkan sedikit lebih detail pada jawaban ini, semua algoritma peningkatan dapat ditulis dalam beberapa bentuk [1] (p 5, 180, 185 ...):
FT(x):=∑t=0Tαtht(x)
Di mana adalah hipotesis lemah , untuk beberapa pilihan . Perhatikan bahwa algoritma peningkatan yang berbeda akan menghasilkan dan dengan cara yang berbeda.httthαtαtht
Misalnya AdaBoost [1] (hal 5.) menggunakan untuk meminimalkan kesalahan tertimbang denganhtϵtαt=12log1−ϵtϵt
Di sisi lain, dalam pengaturan peningkatan gradien [1] (p 190.), dipilih yang memaksimalkan , dan dipilih (sebagai tingkat pembelajaran dll)ht∇L(Ft−1(x))⋅htαt>0
Sedangkan seperti pada [2] dalam Lemma 3.2, ditunjukkan bahwa output kedalaman- ResNet adalah yang setara denganTF(x)
F(x)∝∑t=0Tht(x)
ini melengkapi hubungan antara boosting dan resnet. Makalah [2] mengusulkan menambahkan lapisan linier bantu untuk memasukkannya ke dalam bentuk , yang mengarah ke algoritma BoostResNet mereka dan beberapa diskusi seputar ituFT(x):=∑Tt=0αtht(x)
[1] Robert E. Schapire dan Yoav Freund. 2012. Meningkatkan: Yayasan dan Algoritma. MIT Press. p 5, 180, 189
[2] Furong Huang, Jordan Ash, John Langford, Robert Schapire: Mempelajari Blok ResNet Dalam Secara Berurutan menggunakan Teori Peningkat, ICML 2018