Apakah format gambar (png, jpg, gif) memengaruhi cara pelatihan pengenalan jaringan saraf gambar?

22

Saya sadar bahwa ada banyak kemajuan berkaitan dengan pengenalan gambar, klasifikasi gambar, dll dengan jaring saraf convolutional yang mendalam.

Tetapi jika saya melatih jaring, katakanlah, gambar PNG, apakah hanya akan berfungsi untuk gambar yang disandikan? Apa properti gambar lain yang memengaruhi ini? (saluran alfa, interlacing, resolusi, dll?)

Felipe Almeida
sumber
2
Saya tidak memiliki pengalaman yang cukup dengan statistik gambar untuk memberikan jawaban yang percaya diri, tetapi saya berharap bahwa model yang berbeda menggunakan skema yang sama sekali berbeda untuk mengkodekan gambar menjadi fitur, beberapa di antaranya akan dipengaruhi oleh kompresi JPEG, saluran alfa, dll. ., dan beberapa di antaranya tidak, dengan perinciannya khusus untuk model. Saya tahu bahwa ada kedua model yang memperlakukan setiap piksel sebagai fitur dan model yang mengukir gambar ke kawasan dan menggunakan properti kawasan sebagai fitur.
Kodiologist

Jawaban:

20

Jawaban singkatnya adalah TIDAK .

Format di mana gambar dikodekan berkaitan dengan kualitasnya. Jaringan saraf pada dasarnya adalah model matematika yang melakukan banyak dan banyak operasi (perkalian matriks, penambahan elemen-bijaksana dan fungsi pemetaan). Jaringan saraf melihat Tensor sebagai inputnya (yaitu array multi-dimensi). Bentuknya biasanya 4-D (jumlah gambar per batch, tinggi gambar, lebar gambar, jumlah saluran).

Format gambar yang berbeda (terutama yang lossy) dapat menghasilkan array input yang berbeda tetapi jaring saraf yang benar-benar melihat array dalam input mereka, dan TIDAK gambar.

Djib2011
sumber
4

Sementara jawaban Djib2011 benar, saya memahami pertanyaan Anda karena lebih fokus pada bagaimana kualitas gambar / properti mempengaruhi pembelajaran jaringan saraf secara umum. Hanya ada sedikit penelitian dalam topik ini (afaik), tetapi mungkin ada lebih banyak penelitian tentang hal itu di masa depan. Saya hanya menemukan artikel ini di atasnya. Masalahnya saat ini adalah, bahwa ini lebih merupakan masalah yang muncul dalam aplikasi praktis dan kurang dalam bidang penelitian akademik. Saya ingat satu podcast saat ini di mana para peneliti mengamati bahwa bahkan kamera yang digunakan untuk mengambil gambar dapat memiliki efek besar.

Bobipuegi
sumber
Bisakah Anda mengarahkan saya ke podcast?
David Ernst
Ini adalah episode satu jam dari "mesin bicara", di mana mereka berdiskusi dengan seorang peneliti yang mempraktikkan pembelajaran mesin di Afrika (sekitar pertengahan hingga akhir). Tautan iTunes: itunes.apple.com/de/podcast/talking-machines/…
Bobipuegi
2

Ini riff pada jawaban pertama dari Djib2011. Jawaban singkatnya haruslah tidak. Longer - Foto pertama selalu dikodekan sebagai tensor sebagai berikut. Gambar adalah sejumlah piksel. Jika foto dianggap memiliki kolom m rows dan n, setiap piksel ditentukan oleh lokasi baris dan kolomnya, yaitu berdasarkan pasangan (m, n). Khususnya ada m * n piksel yang sangat besar bahkan untuk foto 'kecil'. Setiap piksel foto dikodekan oleh angka antara nol dan satu (intensitas kehitaman) jika foto tersebut hitam dan putih. Ini dikodekan oleh tiga angka (intensitas RGB) jika foto berwarna. Jadi seseorang berakhir dengan tensor yang bisa 1xmxn atau 3xmxn. Pengenalan gambar dilakukan melalui CNN's yang, mengambil keuntungan dari fakta bahwa foto tidak banyak berubah dari pixel ke pixel, kompresdata melalui filter dan pengumpulan. Jadi intinya adalah bahwa CNN bekerja dengan mengompresi sejumlah besar titik data (atau fitur) yang sangat besar dari sebuah foto menjadi sejumlah kecil nilai. Jadi, apa pun format yang Anda mulai, CNN memulai dengan mengompresi data foto lebih lanjut. Oleh karena itu kemerdekaan semata dari ukuran representasi foto.
Namun, CNN akan meminta semua gambar yang dijalankan melaluinya memiliki ukuran yang sama. Jadi ada ketergantungan yang akan berubah tergantung pada bagaimana gambar disimpan. Selain itu, sejauh format file berbeda dengan ukuran yang sama menghasilkan nilai yang berbeda untuk tensornya, orang tidak dapat menggunakan model CNN yang sama untuk mengidentifikasi foto yang disimpan dengan metode yang berbeda.

meh
sumber