Saya melakukan klasifikasi gambar menggunakan pembelajaran mesin.
Misalkan saya memiliki beberapa data pelatihan (gambar) dan akan membagi data menjadi set pelatihan dan validasi. Dan saya juga ingin menambah data (menghasilkan gambar baru dari yang asli) dengan rotasi acak dan injeksi noise. Augmentaion dilakukan secara offline.
Mana cara yang benar untuk melakukan augmentasi data?
Pertama-tama pisahkan data menjadi set pelatihan dan validasi, kemudian lakukan augmentasi data pada set pelatihan dan validasi.
Pertama-tama pisahkan data menjadi set pelatihan dan validasi, kemudian lakukan augmentasi data hanya pada set pelatihan.
Pertama lakukan augmentasi data pada data, kemudian pisahkan data menjadi set pelatihan dan validasi.
Jawaban:
Pertama-tama pisahkan data menjadi set pelatihan dan validasi, lalu lakukan augmentasi data pada set pelatihan.
Anda menggunakan set validasi Anda untuk mencoba memperkirakan bagaimana metode Anda bekerja pada data dunia nyata, sehingga hanya berisi data dunia nyata. Menambahkan data yang diperbesar tidak akan meningkatkan keakuratan validasi. Paling-paling akan mengatakan sesuatu tentang seberapa baik metode Anda menanggapi augmentasi data, dan paling buruk merusak hasil validasi dan interpretabilitas.
sumber
jangan pernah melakukan 3, karena Anda akan mendapatkan kebocoran. misalnya menganggap augmentasi adalah pergeseran 1-pixel ke kiri. jika pemisahan dalam augmentasi tidak disadari, Anda mungkin mendapatkan sampel data yang sangat mirip di kereta dan validasi.
sumber
Augmentasi Data berarti menambahkan data / informasi eksternal ke data yang ada yang sedang dianalisis.
Jadi, karena seluruh data yang ditambah akan digunakan untuk pembelajaran mesin, maka proses berikut akan lebih cocok:
sumber