Bagaimana cara melakukan augmentasi data dan memvalidasi train?

14

Saya melakukan klasifikasi gambar menggunakan pembelajaran mesin.

Misalkan saya memiliki beberapa data pelatihan (gambar) dan akan membagi data menjadi set pelatihan dan validasi. Dan saya juga ingin menambah data (menghasilkan gambar baru dari yang asli) dengan rotasi acak dan injeksi noise. Augmentaion dilakukan secara offline.

Mana cara yang benar untuk melakukan augmentasi data?

  1. Pertama-tama pisahkan data menjadi set pelatihan dan validasi, kemudian lakukan augmentasi data pada set pelatihan dan validasi.

  2. Pertama-tama pisahkan data menjadi set pelatihan dan validasi, kemudian lakukan augmentasi data hanya pada set pelatihan.

  3. Pertama lakukan augmentasi data pada data, kemudian pisahkan data menjadi set pelatihan dan validasi.

Yangjie
sumber
1
"Augmentasi data" memiliki lebih dari satu makna; ini akan membantu untuk mengedit pertanyaan Anda untuk mengklarifikasi pertanyaan Anda, atau hanya untuk memberikan contoh.
Scortchi
Jika Anda berencana untuk melakukan TTA, maka augmentasi harus diterapkan ke set validasi seperti set tes.
abby yorker

Jawaban:

18

Pertama-tama pisahkan data menjadi set pelatihan dan validasi, lalu lakukan augmentasi data pada set pelatihan.

Anda menggunakan set validasi Anda untuk mencoba memperkirakan bagaimana metode Anda bekerja pada data dunia nyata, sehingga hanya berisi data dunia nyata. Menambahkan data yang diperbesar tidak akan meningkatkan keakuratan validasi. Paling-paling akan mengatakan sesuatu tentang seberapa baik metode Anda menanggapi augmentasi data, dan paling buruk merusak hasil validasi dan interpretabilitas.

burk
sumber
Saya cukup ingin tahu tentang sesuatu dalam jawaban Anda. Jika kriteria saya untuk berhenti melatih CNN adalah mengurangi kehilangan validasi, apakah Anda percaya bahwa augmentasi data pada data validasi adalah pilihan yang baik?
mad
1
Tidak, saya masih berpikir itu akan "merusak hasil validasi dan interpretabilitas", karena akurasi validasi tidak lagi menjadi proksi yang baik untuk akurasi data baru yang tidak terlihat jika Anda menambah data validasi.
burk
jadi kita tidak perlu menerapkan augmentasi data pada validasi dan pengujian data sama sekali?
Aadnan Farooq A
@AadnanFarooqA No. Anda biasanya harus melakukan operasi yang sama pada data pengujian dan validasi Anda seperti yang ingin Anda lakukan pada Anda data yang tidak terlihat ketika Anda menggunakan model Anda untuk prediksi.
burk
1
@ AdnanFarooqA Biasanya Anda hanya perlu menerapkan augmentasi pada data pelatihan, setelah pemisahan.
burk
4

jangan pernah melakukan 3, karena Anda akan mendapatkan kebocoran. misalnya menganggap augmentasi adalah pergeseran 1-pixel ke kiri. jika pemisahan dalam augmentasi tidak disadari, Anda mungkin mendapatkan sampel data yang sangat mirip di kereta dan validasi.

eyaler
sumber
0

Augmentasi Data berarti menambahkan data / informasi eksternal ke data yang ada yang sedang dianalisis.

Jadi, karena seluruh data yang ditambah akan digunakan untuk pembelajaran mesin, maka proses berikut akan lebih cocok:

Lakukan augmentasi data -> Memisahkan data

Dawny33
sumber
Terima kasih balasannya. Apakah benar bahwa sampel dan sampel yang ditambah, yang sangat mirip dengan yang asli, tersebar di set yang berbeda?
yangjie
Maksud Anda data yang ada sebagai set pelatihan dan data yang ditambah sebagai set validasi? Lalu, TIDAK
Dawny33
Pemisahan itu acak, jadi maksud saya jika saya melakukan augmentasi data dan kemudian membagi data, kemungkinan beberapa data yang ada (tidak semua) dibagi ke dalam set pelatihan, sedangkan data yang ditambah pergi ke set validasi.
yangjie
Dengan augmentasi, maksud Anda menambahkan? Data augmented adalah data yang mendukung data saat ini di semua titik. Jadi, jika pemisahan itu acak, maka perpecahan akan menghasilkan jumlah data augmente yang sama di kedua set, seperti data yang ada
Dawny33
Apakah ada referensi kertas untuk ini?
Aadnan Farooq A