Akismet melakukan pekerjaan luar biasa dalam mendeteksi komentar spam. Tetapi komentar bukan satu-satunya bentuk spam hari ini. Bagaimana jika saya menginginkan sesuatu seperti akismet untuk secara otomatis mendeteksi gambar porno di situs jejaring sosial yang memungkinkan pengguna mengunggah foto, avatar, dll?
Sudah ada beberapa mesin pencari berbasis gambar serta hal-hal pengenalan wajah yang tersedia jadi saya berasumsi itu bukan ilmu roket dan itu bisa dilakukan. Namun, saya tidak tahu bagaimana cara kerjanya dan bagaimana saya harus melakukannya jika saya ingin mengembangkannya dari awal.
Bagaimana saya harus memulai?
Apakah ada proyek open source untuk ini?
Jawaban:
Ini ditulis pada tahun 2000, tidak yakin apakah keadaan seni dalam deteksi porno telah maju sama sekali, tapi saya meragukannya.
http://www.dansdata.com/pornsweeper.htm
sumber
Ini sebenarnya cukup mudah. Anda dapat secara terprogram mendeteksi warna kulit - dan gambar porno cenderung memiliki banyak warna. Ini akan membuat positif palsu tetapi jika ini adalah masalah Anda dapat mengirimkan gambar sehingga terdeteksi melalui moderasi yang sebenarnya. Ini tidak hanya sangat mengurangi pekerjaan moderator tetapi juga memberi Anda banyak pornografi gratis. Ini sama-sama untung.
Kode ini mengukur warna kulit di tengah gambar. Saya telah menguji 20 gambar "porno" yang relatif jinak dan 20 gambar yang sama sekali tidak bersalah. Ini menandai 100% "porno" dan 4 dari 20 gambar bersih. Itu tingkat positif palsu yang cukup tinggi tetapi skrip bertujuan untuk berhati-hati dan dapat disetel lebih lanjut. Ini bekerja pada warna kulit terang, gelap dan Asia.
Kelemahan utama dari false positive adalah objek berwarna coklat seperti pasir dan kayu dan tentu saja tidak mengetahui perbedaan antara daging yang "nakal" dan "baik" (seperti bidikan wajah).
Kelemahan dengan negatif palsu adalah gambar tanpa banyak daging yang terbuka (seperti perbudakan kulit), kulit yang dicat atau bertato, gambar B&W, dll.
kode sumber dan gambar contoh
sumber
Saya lebih suka mengizinkan pengguna melaporkan gambar yang buruk. Pengembangan pengenalan gambar membutuhkan terlalu banyak upaya dan waktu dan tidak akan seakurat mata manusia. Jauh lebih murah untuk melakukan outsourcing pekerjaan moderasi itu.
Lihat di: Amazon Mechanical Turk
" Amazon Mechanical Turk (MTurk) adalah salah satu rangkaian Amazon Web Services, pasar crowdsourcing yang memungkinkan program komputer mengoordinasikan penggunaan kecerdasan manusia untuk melakukan tugas yang tidak dapat dilakukan komputer."
sumber
sumber
LEDAKAN! Berikut adalah whitepaper yang berisi algoritme.
Apakah ada yang tahu di mana mendapatkan kode sumber untuk implementasi java (atau bahasa apapun)?
Itu akan mengguncang.
Satu algoritma yang disebut WISE memiliki tingkat akurasi 98% tetapi tingkat positif palsu 14%. Jadi yang Anda lakukan adalah membiarkan pengguna menandai 2% negatif palsu, idealnya dengan penghapusan otomatis jika sejumlah pengguna menandainya, dan meminta moderator melihat 14% positif palsu.
sumber
Nude.js berdasarkan whitepaper oleh Rigan Ap-apid dari De La Salle University.
sumber
Ada perangkat lunak yang mendeteksi kemungkinan adanya pornografi, tetapi ini bukan ilmu pasti, karena komputer tidak dapat mengenali apa yang sebenarnya ada pada gambar (gambar hanyalah sekumpulan nilai besar pada petak tanpa makna). Anda bisa mengajari komputer apa itu porno dan apa yang tidak dengan memberikan contoh. Ini memiliki kelemahan karena hanya akan mengenali gambar ini atau yang serupa.
Mengingat sifat pornografi yang berulang-ulang, Anda memiliki peluang bagus jika melatih sistem dengan sedikit positif palsu. Misalnya, jika Anda melatih sistem dengan orang-orang telanjang, ini mungkin menandai gambar pantai dengan orang-orang yang "hampir" telanjang sebagai pornografi juga.
Software yang mirip adalah software facebook yang baru saja keluar. Itu hanya khusus pada wajah. Prinsip utamanya sama.
Secara teknis Anda akan menerapkan beberapa jenis pendeteksi fitur yang menggunakan pemfilteran bayes. Detektor fitur dapat mencari fitur seperti persentase piksel berwarna daging jika itu adalah detektor sederhana atau hanya menghitung kesamaan gambar saat ini dengan sekumpulan gambar porno yang disimpan.
Ini tentu saja tidak terbatas pada pornografi, ini sebenarnya lebih merupakan kasus sudut. Saya pikir yang lebih umum adalah sistem yang mencoba menemukan hal lain dalam gambar ;-)
sumber
Jawabannya sangat mudah: Cukup aman untuk mengatakan bahwa itu tidak akan mungkin terjadi dalam dua dekade mendatang. Sebelumnya kami mungkin akan mendapatkan alat terjemahan yang bagus. Terakhir kali saya memeriksanya, orang-orang AI berjuang untuk mengidentifikasi mobil yang sama pada dua foto yang diambil dari sudut yang sedikit diubah. Lihat berapa lama mereka mendapatkan OCR atau pengenalan ucapan yang cukup baik. Itu adalah masalah pengenalan yang bisa mendapatkan keuntungan besar dari kamus dan masih jauh dari solusi yang benar-benar andal meskipun telah dilemparkan ke jutaan orang berbulan-bulan.
Yang sedang berkata Anda hanya bisa menambahkan "ofensif?" link di sebelah yang dibuat pengguna bersaing dan minta mod untuk memeriksa ulang keluhan yang masuk.
edit:
Saya lupa sesuatu: JIKA Anda akan menerapkan beberapa jenis filter, Anda memerlukan yang dapat diandalkan. Jika solusi Anda 50% benar, 2000 dari 4000 pengguna dengan gambar yang layak akan diblokir. Harapkan kemarahan.
sumber
Seorang mahasiswa pascasarjana dari National Cheng Kung University di Taiwan melakukan penelitian tentang subjek ini pada tahun 2004. Ia mampu mencapai tingkat keberhasilan 89,79% dalam mendeteksi gambar telanjang yang diunduh dari Internet. Ini link ke tesisnya: Studi tentang Deteksi Gambar Orang Telanjang Berdasarkan Warna Kulit
Ada dalam bahasa Mandarin, oleh karena itu Anda mungkin memerlukan penerjemah jika Anda tidak dapat membacanya.
sumber
jawaban singkat: gunakan moderator;)
Jawaban panjang: Saya tidak berpikir ada proyek untuk tujuan ini apa itu pornografi? Hanya kaki, ketelanjangan penuh, cebol, dll. Sifatnya subjektif.
sumber
Tambahkan tautan yang menyinggung dan simpan md5 (atau hash lainnya) dari gambar yang menyinggung sehingga dapat diberi tag secara otomatis di masa mendatang.
Seberapa keren jika seseorang memiliki database publik besar dari image md5 bersama dengan tag deskriptif yang dijalankan sebagai webservice? Banyak pornografi bukanlah karya orisinal (karena orang yang memilikinya sekarang, mungkin tidak membuatnya) dan gambar-gambar populer cenderung beredar di berbagai tempat, jadi ini benar-benar dapat membuat perbedaan.
sumber
Jika Anda benar-benar punya waktu dan uang:
Salah satu cara untuk melakukannya adalah dengan 1) Menulis algoritma pendeteksi citra untuk mengetahui apakah suatu objek itu manusia atau bukan. Hal ini dapat dilakukan dengan bitmasking gambar untuk mengambil "kontur" dan melihat apakah kontur sesuai dengan kontur manusia.
2) Data mining banyak gambar porno dan gunakan teknik data mining seperti algoritma C4 atau Particle Swarm Optimization untuk belajar mendeteksi pola yang cocok dengan gambar porno.
Ini akan mengharuskan Anda untuk mengidentifikasi bagaimana kontur tubuh manusia pria / wanita telanjang harus terlihat dalam format digital (ini dapat dicapai dengan cara yang sama dengan algoritma pengenalan gambar OCR).
Semoga kamu bersenang-senang! :-)
sumber
Menurut saya, kendala utama dalam mendefinisikan "gambar porno". Jika Anda dapat mendefinisikannya dengan mudah, Anda mungkin dapat menulis sesuatu yang akan berhasil. Tetapi bahkan manusia tidak dapat menyetujui apa itu pornografi. Bagaimana aplikasi tahu? Moderasi pengguna mungkin adalah pilihan terbaik Anda.
sumber
Saya telah melihat aplikasi pemfilteran web yang melakukan pemfilteran gambar porno, maaf saya tidak dapat mengingat namanya. Itu cukup rentan terhadap positif palsu tetapi sebagian besar waktu itu berhasil.
Saya pikir trik utamanya adalah mendeteksi "terlalu banyak kulit pada gambar :)
sumber
Mendeteksi gambar porno masih merupakan tugas AI pasti yang masih sangat teoritis.
Ambil kekuatan kolektif dan kecerdasan manusia dengan menambahkan tombol / tautan "Laporkan spam / penyalahgunaan". Atau pekerjakan beberapa moderator untuk melakukan pekerjaan ini.
PS Benar-benar terkejut betapa banyak orang yang mengajukan pertanyaan dengan asumsi perangkat lunak dan algoritme sangat kuat bahkan tanpa berpikir apakah yang mereka inginkan dapat dilakukan. Apakah mereka mewakili generasi baru programmer yang tidak memiliki pemahaman tentang perangkat keras, pemrograman tingkat rendah, dan semua "keajaiban di balik" itu?
PS # 2. Saya juga ingat bahwa secara berkala terjadi situasi di mana orang sendiri tidak dapat memutuskan apakah sebuah gambar porno atau seni dibawa ke pengadilan. Bahkan setelah keputusan pengadilan, kemungkinan setengah dari orang-orang akan menganggap keputusan itu salah. Situasi bodoh terakhir semacam itu baru-baru ini ketika halaman Wikipedia dilarang di Inggris karena gambar sampul CD yang menampilkan ketelanjangan.
sumber
Dua opsi yang dapat saya pikirkan (meskipun tidak satu pun dari mereka yang mendeteksi pornografi secara terprogram):
sumber
The Brightcloud layanan web API sempurna untuk ini. Ini adalah REST API untuk melakukan pencarian situs web seperti ini. Ini berisi DB penyaringan web yang sangat besar dan sangat akurat dan salah satu kategorinya, Dewasa, memiliki lebih dari 10 juta situs porno yang teridentifikasi!
sumber
Saya pernah mendengar tentang alat yang menggunakan algoritme yang sangat sederhana, tetapi cukup efektif. Algoritme menghitung jumlah relatif piksel dengan nilai warna mendekati beberapa warna "kulit" yang telah ditentukan sebelumnya. Jika jumlah tersebut lebih tinggi dari nilai yang telah ditentukan, maka gambar dianggap mengandung konten erotis / pornografi. Tentu saja algoritma tersebut akan memberikan hasil false positive untuk foto wajah close up dan banyak hal lainnya.
Karena Anda menulis tentang jejaring sosial, akan ada banyak foto "normal" dengan warna kulit yang tinggi, jadi sebaiknya Anda tidak menggunakan algoritme ini untuk menolak semua gambar dengan hasil positif. Tetapi Anda dapat menggunakannya untuk memberikan bantuan untuk moderator, misalnya menandai gambar-gambar ini dengan prioritas lebih tinggi,
sumber
Yang ini terlihat menjanjikan. Pada dasarnya mereka mendeteksi kulit (dengan kalibrasi dengan mengenali wajah) dan menentukan "jalur kulit" (yaitu mengukur proporsi piksel kulit vs. piksel kulit wajah / piksel kulit). Ini memiliki kinerja yang layak. http://www.prip.tuwien.ac.at/people/julian/skin-detection
sumber
Lihat nama file dan atributnya. Hampir tidak ada informasi yang cukup untuk mendeteksi bahkan 20% gambar nakal, tetapi daftar hitam kata kunci sederhana setidaknya akan mendeteksi gambar dengan label deskriptif atau metadata. 20 menit coding untuk tingkat keberhasilan 20% bukanlah kesepakatan yang buruk, terutama sebagai prescreen yang setidaknya dapat menangkap beberapa yang sederhana sebelum Anda menyerahkan sisanya kepada moderator untuk dinilai.
Trik berguna lainnya adalah kebalikannya tentu saja, pertahankan daftar putih sumber gambar agar diizinkan tanpa moderasi atau pemeriksaan. Jika sebagian besar gambar Anda berasal dari pengunggah atau sumber yang diketahui aman, Anda dapat menerimanya begitu saja.
sumber
- Hakim Agung Amerika Serikat Potter Stewart, 1964
sumber
Anda dapat menemukan banyak whitepaper di internet yang membahas masalah ini.
sumber
Ini bukan ilmu roket. Tidak lagi. Ini sangat mirip dengan pengenalan wajah. Menurut saya, cara termudah untuk mengatasinya adalah dengan menggunakan pembelajaran mesin. Dan karena kita berurusan dengan gambar, saya dapat menunjuk ke jaringan saraf, karena ini tampaknya lebih disukai untuk gambar. Anda akan membutuhkan data pelatihan. Dan Anda dapat menemukan banyak sekali data pelatihan di internet tetapi Anda harus memotong gambar ke bagian tertentu yang ingin dideteksi oleh algoritme. Tentu saja Anda harus memecah masalah menjadi bagian tubuh yang berbeda yang ingin Anda deteksi dan membuat data pelatihan untuk masing-masing, dan di sinilah hal-hal menjadi lucu.
Seperti yang dikatakan orang di atas, itu tidak bisa dilakukan 100% persen. Akan ada kasus dimana algoritma tersebut gagal. Ketepatan sebenarnya akan ditentukan oleh data pelatihan Anda, struktur jaringan saraf Anda dan bagaimana Anda akan memilih untuk mengelompokkan data pelatihan (penis, vagina, payudara, dll, dan kombinasinya). Bagaimanapun, saya sangat yakin bahwa ini dapat dicapai dengan akurasi tinggi untuk gambar porno eksplisit.
sumber
Ini adalah pendeteksi ketelanjangan. Saya belum mencobanya. Itu satu-satunya OSS yang bisa saya temukan.
https://code.google.com/p/nudetech
sumber
Tidak mungkin Anda bisa melakukan ini 100% (saya akan mengatakan mungkin 1-5% masuk akal) dengan pengetahuan saat ini. Anda akan mendapatkan hasil yang jauh lebih baik (daripada 1-5% itu) hanya dengan memeriksa nama gambar untuk kata-kata yang berhubungan dengan seks :).
@ SO Troll: Benar sekali.
sumber