Apa saja teknik augmentasi data yang berguna untuk jaringan saraf convolutional yang mendalam?

13

Latar belakang: Saya baru-baru ini memahami pada tingkat yang lebih dalam pentingnya augmentasi data ketika melatih jaringan saraf convolutional setelah melihat pembicaraan luar biasa ini oleh Geoffrey Hinton .

Dia menjelaskan bahwa jaringan saraf convolutional generasi saat ini tidak dapat menggeneralisasi kerangka referensi dari objek yang diuji, membuatnya sulit bagi jaringan untuk benar-benar memahami bahwa gambar cermin dari suatu objek adalah sama.

Beberapa penelitian telah berusaha untuk memperbaiki ini. Ini adalah salah satu dari sekian banyak contoh . Saya pikir ini membantu untuk menetapkan seberapa penting augmentasi data saat ini ketika melatih jaringan saraf convolutional.

Teknik augmentasi data jarang dibandingkan satu sama lain. Karenanya:

Pertanyaan:

  • Apa beberapa makalah di mana praktisi melaporkan kinerja yang sangat baik?

  • Apa saja teknik augmentasi data yang menurut Anda berguna?

radar
sumber
Hai @rhadar, apakah Anda punya berita? Terima kasih :)
nullgeppetto

Jawaban:

1

Detik. 1: Augmentasi Data Karena jaringan dalam perlu dilatih pada sejumlah besar gambar pelatihan untuk mencapai kinerja yang memuaskan, jika rangkaian data gambar asli berisi gambar pelatihan terbatas, lebih baik melakukan augmentasi data untuk meningkatkan kinerja. Juga, augmentasi data menjadi hal yang harus dilakukan ketika melatih jaringan yang dalam.

  • Ada banyak cara untuk melakukan augmentasi data, seperti pembalikan yang populer secara horizontal, tanaman acak dan jittering warna. Selain itu,
    Anda dapat mencoba kombinasi beberapa proses yang berbeda, misalnya,
    melakukan rotasi dan penskalaan acak pada saat yang sama. Selain itu,
    Anda dapat mencoba untuk meningkatkan saturasi dan nilai (komponen S dan V dari
    ruang warna HSV) dari semua piksel ke daya antara 0,25 dan 4 (sama
    untuk semua piksel dalam tambalan), gandakan nilai-nilai ini dengan faktor
    antara 0,7 dan 1.4, dan tambahkan nilai antara -0.1 dan 0.1.
    Anda juga dapat menambahkan nilai antara [-0.1, 0,1] ke rona (
    komponen H HSV) dari semua piksel dalam gambar / tambalan.

  • Krizhevsky et al. 1 mengusulkan PCA mewah ketika melatih Alex-Net yang terkenal pada 2012. Fancy PCA mengubah intensitas
    saluran RGB dalam gambar pelatihan. Dalam praktiknya, Anda pertama-tama dapat melakukan PCA pada set nilai-nilai piksel RGB di seluruh gambar pelatihan Anda. Dan
    kemudian, untuk setiap gambar latihan, cukup tambahkan jumlah berikut untuk
    setiap piksel gambar RGB (yaitu, I_ {xy} = [I_ {xy} ^ R, I_ {xy} ^ G, I_ {xy} ^ B] ^ T ):
    [bf {p} _1, bf {p} _2, bf {p} _3] [alpha_1 lambda_1, alpha_2 lambda_2, alpha_3
    lambda_3] ^ T di mana, bf {p} _i dan lambda_i adalah vektor eigen ke-i dan
    nilai eigennya dari 3 kali 3 matriks kovarian nilai RGB pixel,
    masing-masing, dan alpha_i adalah variabel acak yang diambil dari Gaussian
    dengan mean nol dan standar deviasi 0,1. Harap dicatat bahwa, setiap
    alpha_i hanya diambil satu kali untuk semua piksel dari
    gambar pelatihan tertentu sampai gambar itu digunakan untuk pelatihan lagi. Dengan
    kata lain, ketika model memenuhi gambar pelatihan yang sama lagi, itu akan
    secara acak menghasilkan alpha_i lain untuk augmentasi data. Dalam 1 , mereka
    mengklaim bahwa "PCA mewah dapat kira-kira menangkap
    properti penting dari gambar alami, yaitu, bahwa identitas objek tidak berbeda dengan perubahan intensitas dan warna pencahayaan". Untuk
    kinerja klasifikasi, skema ini mengurangi tingkat kesalahan top-1
    lebih dari 1% dalam kompetisi ImageNet 2012.

(Sumber: Must Know Tips / Trik di Deep Neural Networks (oleh Xiu-Shen Wei))

Patrick Conway
sumber