Gunakan AI atau Jaringan Saraf Tiruan untuk deteksi logo

10

Saya mencoba mendeteksi logo saluran TV di dalam file video, jadi cukup berikan .mp4video input , deteksi apakah ada logo itu dalam bingkai tertentu, katakan bingkai pertama, atau tidak.

Kami memiliki logo itu sebelumnya (walaupun mungkin ukurannya tidak 100% sama) dan lokasinya selalu diperbaiki.

Saya sudah memiliki pendekatan berbasis pencocokan pola. Tapi itu membutuhkan pola menjadi ukuran 100% sama. Saya ingin menggunakan Deep Learning dan Neural Network untuk mencapai itu. Bagaimana saya bisa melakukan itu? Saya percaya CNN dapat memiliki efisiensi yang lebih tinggi?

Tina J
sumber
1
Selamat datang di AI! Subjek yang bagus.
DukeZhou
1
@DukeZhou Tnx! Saya harap saya mendapatkan jawaban yang tepat dengan petunjuk ke beberapa kode sampel.
Tina J

Jawaban:

5

Untuk melakukan pengenalan gambar, Anda harus menemukan cara untuk mewakili gambar dengan fitur tertentu.

Salah satu karakteristik yang menentukan dari algoritma pengenalan gambar yang baik adalah kemampuannya untuk mendeteksi daerah-daerah yang menonjol, yaitu daerah-daerah yang paling banyak mengandung informasi.

Ada banyak perhatian pada pembelajaran mendalam untuk klasifikasi gambar berbasis konten saat ini. Anda dapat mencapai hasil yang layak dengan menerapkan pembelajaran mendalam yang memiliki tiga atau lebih lapisan CNN di mana setiap lapisan bertanggung jawab untuk mengekstraksi satu atau lebih fitur gambar.

Seth Simba
sumber
Terima kasih. Saya bukan orang CNN sendiri. Tetapi apakah ada penunjuk ke kode sumber yang memberikan gambar logo, dapat mendeteksi apakah ada atau tidak?
Tina J
3
Hei, silakan periksa DeepLogo on Github oleh Satoj Kovic. Ini ditulis dengan Python dan menggunakan CNN untuk mengenali logo merek. Saya telah memposting tautan di bawah ini. Bersulang. github.com/satojkovic/DeepLogo
Seth Simba
3

Karena ini adalah input video dan logo biasanya stasioner karena dilapiskan pada frame langsung atau yang direkam oleh perangkat keras atau perangkat lunak, tugasnya tidak sulit. Logo juga biasanya memiliki palet warna yang terbatas dan tepi yang tajam. Fitur font mereka, ketika mereka mengeja kata atau akronim biasanya konsisten juga. Ini adalah generalisasi yang dapat dieksploitasi dalam pembelajaran yang mendalam.

Seperti pertanyaan serupa lainnya yang diposting oleh penulis ini, kombinasi lapisan LSTM dan CNN dapat dilatih untuk menemukan dan mengisolasi logo. Dengan beberapa trik gambar, gambar di balik logo juga dapat direkonstruksi dengan akurasi dan keandalan yang wajar dari piksel di sekitar logo melalui serangkaian teknik pembelajaran yang serupa.

Ini adalah beberapa titik awal untuk pengembangan.

Douglas Daseeco
sumber