Saya sadar bahwa ada banyak kemajuan berkaitan dengan pengenalan gambar, klasifikasi gambar, dll dengan jaring saraf convolutional yang mendalam.
Tetapi jika saya melatih jaring, katakanlah, gambar PNG, apakah hanya akan berfungsi untuk gambar yang disandikan? Apa properti gambar lain yang memengaruhi ini? (saluran alfa, interlacing, resolusi, dll?)
neural-networks
deep-learning
image-processing
Felipe Almeida
sumber
sumber
Jawaban:
Jawaban singkatnya adalah TIDAK .
Format di mana gambar dikodekan berkaitan dengan kualitasnya. Jaringan saraf pada dasarnya adalah model matematika yang melakukan banyak dan banyak operasi (perkalian matriks, penambahan elemen-bijaksana dan fungsi pemetaan). Jaringan saraf melihat Tensor sebagai inputnya (yaitu array multi-dimensi). Bentuknya biasanya 4-D (jumlah gambar per batch, tinggi gambar, lebar gambar, jumlah saluran).
Format gambar yang berbeda (terutama yang lossy) dapat menghasilkan array input yang berbeda tetapi jaring saraf yang benar-benar melihat array dalam input mereka, dan TIDAK gambar.
sumber
Sementara jawaban Djib2011 benar, saya memahami pertanyaan Anda karena lebih fokus pada bagaimana kualitas gambar / properti mempengaruhi pembelajaran jaringan saraf secara umum. Hanya ada sedikit penelitian dalam topik ini (afaik), tetapi mungkin ada lebih banyak penelitian tentang hal itu di masa depan. Saya hanya menemukan artikel ini di atasnya. Masalahnya saat ini adalah, bahwa ini lebih merupakan masalah yang muncul dalam aplikasi praktis dan kurang dalam bidang penelitian akademik. Saya ingat satu podcast saat ini di mana para peneliti mengamati bahwa bahkan kamera yang digunakan untuk mengambil gambar dapat memiliki efek besar.
sumber
Ini riff pada jawaban pertama dari Djib2011. Jawaban singkatnya haruslah tidak. Longer - Foto pertama selalu dikodekan sebagai tensor sebagai berikut. Gambar adalah sejumlah piksel. Jika foto dianggap memiliki kolom m rows dan n, setiap piksel ditentukan oleh lokasi baris dan kolomnya, yaitu berdasarkan pasangan (m, n). Khususnya ada m * n piksel yang sangat besar bahkan untuk foto 'kecil'. Setiap piksel foto dikodekan oleh angka antara nol dan satu (intensitas kehitaman) jika foto tersebut hitam dan putih. Ini dikodekan oleh tiga angka (intensitas RGB) jika foto berwarna. Jadi seseorang berakhir dengan tensor yang bisa 1xmxn atau 3xmxn. Pengenalan gambar dilakukan melalui CNN's yang, mengambil keuntungan dari fakta bahwa foto tidak banyak berubah dari pixel ke pixel, kompresdata melalui filter dan pengumpulan. Jadi intinya adalah bahwa CNN bekerja dengan mengompresi sejumlah besar titik data (atau fitur) yang sangat besar dari sebuah foto menjadi sejumlah kecil nilai. Jadi, apa pun format yang Anda mulai, CNN memulai dengan mengompresi data foto lebih lanjut. Oleh karena itu kemerdekaan semata dari ukuran representasi foto.
Namun, CNN akan meminta semua gambar yang dijalankan melaluinya memiliki ukuran yang sama. Jadi ada ketergantungan yang akan berubah tergantung pada bagaimana gambar disimpan. Selain itu, sejauh format file berbeda dengan ukuran yang sama menghasilkan nilai yang berbeda untuk tensornya, orang tidak dapat menggunakan model CNN yang sama untuk mengidentifikasi foto yang disimpan dengan metode yang berbeda.
sumber