Saya menghadapi masalah memiliki gambar dengan dimensi yang berbeda sebagai input dalam tugas segmentasi. Perhatikan bahwa gambar bahkan tidak memiliki rasio aspek yang sama.
Salah satu pendekatan umum yang saya temukan secara umum dalam pembelajaran mendalam adalah memotong gambar, seperti juga disarankan di sini . Namun, dalam kasus saya, saya tidak dapat memotong gambar dan mempertahankan pusatnya atau sesuatu yang serupa karena dalam segmentasi saya ingin output memiliki dimensi yang sama dengan input.
Makalah ini menunjukkan bahwa dalam tugas segmentasi seseorang dapat memberi makan gambar yang sama beberapa kali ke jaringan tetapi dengan skala yang berbeda dan kemudian mengumpulkan hasilnya. Jika saya memahami pendekatan ini dengan benar, itu hanya akan berfungsi jika semua gambar input memiliki rasio aspek yang sama. Tolong koreksi saya jika saya salah.
Alternatif lain adalah hanya mengubah ukuran setiap gambar ke dimensi tetap. Saya pikir ini juga diusulkan oleh jawaban untuk pertanyaan ini . Namun, itu tidak ditentukan dengan cara apa ukuran gambar diubah.
Saya mempertimbangkan untuk mengambil lebar dan tinggi maksimum dalam dataset dan mengubah ukuran semua gambar ke ukuran tetap dalam upaya untuk menghindari kehilangan informasi. Namun, saya percaya bahwa jaringan kami mungkin mengalami kesulitan dengan gambar yang terdistorsi karena bagian tepi gambar mungkin tidak jelas. Apa yang mungkin merupakan cara terbaik untuk mengubah ukuran gambar Anda sebelum mengumpankannya ke jaringan?
Apakah ada opsi lain yang saya tidak sadari untuk memecahkan masalah memiliki gambar dengan dimensi yang berbeda?
Juga, yang mana dari pendekatan ini menurut Anda adalah yang terbaik dengan mempertimbangkan kompleksitas komputasi tetapi juga kemungkinan hilangnya kinerja oleh jaringan?
Saya akan sangat menghargai jika jawaban atas pertanyaan saya menyertakan beberapa tautan ke sumber jika ada. Terima kasih.
Saya pikir makalah ini akan memiliki wawasan yang bermanfaat bagi Anda.
sumber
Karena Anda ingin melakukan segmentasi, Anda dapat menggunakan U-Net. Tidak memiliki Unit yang sepenuhnya terhubung. Oleh karena itu, ukuran input tidak menjadi masalah.
sumber
saya pikir Anda dapat mengubah ukuran pixel gambar Anda dan mengkonversi rgb ke biner atau integer untuk langkah selanjutnya
sumber
Coba ubah ukuran gambar ke dimensi input arsitektur jaringan saraf Anda (pertahankan agar tetap seperti 128 * 128 dalam arsitektur 2D U-net standar) menggunakan teknik interpolasi tetangga terdekat . Ini karena jika Anda mengubah ukuran gambar menggunakan interpolasi lainnya, ini dapat berakibat merusak label kebenaran dasar. Ini khususnya masalah dalam segmentasi. Anda tidak akan menghadapi masalah seperti itu ketika datang ke klasifikasi.
Coba yang berikut ini:
sumber