Saya mencoba mendeteksi area perhatian visual pada gambar yang diberikan dan memotong gambar ke area itu. Misalnya, mengingat gambar dengan ukuran berapa pun dan persegi panjang dimensi LxW katakan sebagai input, saya ingin memotong gambar ke area perhatian visual yang paling penting. Saya mencari pendekatan canggih untuk itu.
Apakah kita memiliki alat atau SDK untuk mengimplementasikannya? Setiap potongan kode atau algoritma akan sangat membantu.
Jawaban:
Anda dapat mencari judul kertas berikut:
Anda bisa kode dalam python menggunakan kerangka Pytorch.
sumber
"Perhatian" dalam jaringan saraf (visual) adalah area gambar di mana jaringan dapat menemukan sebagian besar fitur untuk mengklasifikasikannya dengan kepercayaan tinggi. Berdasarkan deskripsi Anda, Anda berbicara tentang "perhatian lembut".
Apakah kita memiliki alat atau SDK untuk mengimplementasikannya? saya tidak berpikir ada SDK readymade tersedia. Jauh lebih baik untuk melatih model pada dataset Anda dengan perhatian. Setelah model dasar Anda siap, mudah untuk menambahkan mekanisme perhatian untuknya. Saya sarankan Anda untuk memeriksa https://arxiv.org/pdf/1502.03044.pdf .
sumber
Agar komputer dapat mendeteksi dan menyediakan kotak atau lingkaran pembatas di sekitar area perhatian visual dalam gambar, dasar perhatian harus ditentukan. Kemudian metode mendapatkan sistem komputer untuk membuat pilihan berdasarkan pada dasar itu dapat dipilih. Hal pertama yang pertama.
Apakah itu karakter wajah atau tubuh atau permainan yang menjadi objek yang menarik? Apakah itu akan menjadi objek paling dinamis dalam bingkai dalam hal pergerakan? Jika itu seseorang, apakah selalu orang yang sama? Dalam kedua kasus, apakah wajah mereka akan terpapar ke sudut kamera? Apakah hanya ada pemotretan diam, atau apakah gambar akan menjadi bingkai dalam film?
Setelah Anda tahu bagaimana ANDA akan membedakan objek yang membutuhkan perhatian dari objek dan latar belakang lainnya, maka Anda dapat mulai melihat bagaimana komputer dapat mensimulasikan pengakuan itu. Ketika melatih jaringan yang dalam yang melibatkan kernel konvolusi (disebut CNN atau jaringan saraf convolutional) dan mungkin sel memori jangka pendek (LSTM), ada beberapa tahapan dalam pengenalan.
Biasanya ujung-ujungnya terdeteksi terlebih dahulu. Dalam film, pergerakan tepi dilacak sebagai fitur gambar. Elemen dalam gambar yang mengidentifikasi objek apa yang menjadi objek adalah yang kedua. Misalnya mainan dapat dideteksi dengan cara plastik memantulkan cahaya dan jenis warna dan bentuk yang umum untuk mainan. Wajah mungkin pertama kali dikenali dengan mengidentifikasi mata, hidung, mulut, dagu, dan telinga.
Setelah bagian-bagian diidentifikasi, maka seluruh objek dapat diidentifikasi melalui tahap ekstraksi fitur lainnya. Sistem visi mengikuti prinsip dasar pengakuan yang sama yang digunakan oleh sistem visual manusia kita.
Ada banyak kerangka kerja dan pustaka untuk membantu tugas-tugas ini, tetapi untuk menggunakannya, penting untuk mendapatkan gambaran umum dari proses dan untuk mengklarifikasi apa yang akan membuat objek penting keluar dari objek lain yang mungkin serupa atau sangat berbeda sehingga perhatian dapat difokuskan seperti yang Anda inginkan.
Setelah Anda memiliki , koordinat dari dua sudut operasi pemangkasan Anda, yang akan menjadi tujuan pelatihan jaringan Anda, maka perpustakaan manipulasi gambar apa pun dapat menangani pemangkasan tersebut.(hmin,vmin);(hmax,vmax)
Itulah keadaan seni. Tidak ada SDK tingkat tinggi yang memungkinkan seseorang untuk memerintahkan komputer untuk menemukan item paling penting dalam bingkai tanpa klarifikasi apa yang dimaksud dengan itu dan pelatihan operasi untuk mengajarkan perangkat lunak untuk menemukan apa yang Anda putuskan untuk menjadi penting berdasarkan beberapa kriteria. Belum.
sumber