Saya hanya berpikir tentang bagaimana recaptcha semakin sulit ketika saya memikirkan solusi lain yang mungkin. Gambar tidak akan bertahan selamanya sehingga kita akan membutuhkan sesuatu yang lain suatu hari nanti - seperti logika atau emosi manusia. Google dan lainnya sedang mencoba mengelompokkan gambar berdasarkan kategori (menemukan gambar yang bukan milik) tetapi itu membutuhkan sejumlah besar gambar dan tidak berfungsi untuk orang buta.
Bagaimanapun, bagaimana jika kumpulan besar teks dikumpulkan (buku-buku domain publik dari setiap bahasa) dan sebuah kalimat ditunjukkan kepada pengguna dengan 1 (atau 2) kata yang merupakan kotak pilihan pilihan? Hanya komputer yang tahu tata bahasa Inggris / Spanyol / Jerman yang benar yang dapat menentukan kata mana yang termasuk dalam kalimat.
Apakah akan ada masalah dengan pendekatan ini? Saya akan berasumsi bahwa itu akan cukup mudah bagi siapa saja yang tahu bahasa tempat sentense ditampilkan untuk mengetahui jawabannya dengan lebih mudah daripada mencoba membaca teks reCAPTCHA. Ditambah lagi, menyimpan sejumlah kalimat yang gila hanya akan memakan waktu beberapa gigabita ruang dan tidak akan memakan waktu dekat waktu CPU untuk membuat gambar / audio. Dengan kata lain, siapa pun dapat meng-host sistem captcha mereka sendiri dengan dampak minimal pada kinerja sistem.
Apakah ada masalah dengan pendekatan ini? Lebih khusus lagi saya mencari masalah utama dengan pendekatan ini.
Jawaban:
Pertama, saya beri Anda IBM Watson . Saya pikir komputasi telah jauh melampaui pengisian sederhana pada masalah bahasa yang kosong .
Selanjutnya, saya memberi Anda semua checker Spelling / Grammar diimplementasikan dalam perangkat lunak. Menentukan apakah suatu kata secara tata bahasa benar dalam suatu kalimat dipecahkan dalam> 90% kasus. Saya bahkan akan mencengkeram dan mengatakan bahwa mereka lebih bisa membaca dan menulis daripada kebanyakan manusia yang saya kenal.
Saya tidak berpikir ide CAPTCHA Anda akan berfungsi sebaik yang Anda harapkan ...
sumber
Mari kita lihat, berapa lama untuk selalu memilih pilihan pertama dan akhirnya menyelesaikannya dengan benar?
sumber
Jika Anda menarik kalimat dari buku domain publik, bot tidak perlu tahu apa pun tentang tata bahasa. Itu hanya perlu mengindeks kalimat-kalimat yang sama dan melakukan pencarian untuk menemukan kata mana dari kalimat yang sebenarnya digunakan. Dan itu mengasumsikan bahwa Anda cukup memecahkan masalah yang disarankan Jeff O di mana Anda dapat menghindari masalah dengan menebak opsi pertama setiap kali.
Plus, banyak kalimat di jagat buku domain publik tidak pantas untuk upaya semacam ini. Banyak yang akan ambigu tanpa konteks. Banyak yang akan berisi konten yang tidak pantas (bayangkan menyajikan kalimat acak dari Huckleberry Finn). Jadi, Anda harus menginvestasikan sejumlah upaya yang layak untuk mendapatkan serangkaian kalimat yang tidak akan menyinggung dan tidak akan ambigu. Jika Anda menerima bahwa beberapa kalimat akan ambigu, Anda kehilangan banyak kemampuan untuk menghukum bot karena tebakan yang salah.
sumber
Masalah yang lebih menantang bagi bot adalah menghapus satu kata dari sebuah kalimat, lalu menyajikan pilihan di antara empat kata yang berbeda dari bagian pidato yang sama. (Misalnya, menghapus kata benda; mana dari empat kata benda ini yang paling cocok di sini?)
Algoritma penandaan dan penguraian tidak sempurna, tetapi pendekatan berbasis korpus telah sampai pada titik di mana Anda dapat melatih parser dengan cukup baik untuk membantu Anda mengalahkan peluang pada CAPTCHA dengan perangkat lunak komoditas atau sumber terbuka. (Ketika Anda melakukan spamming dalam volume, tidak apa-apa jika beberapa pesan tidak dapat melewatinya, asalkan cukup untuk meningkatkan tingkat keberhasilan Anda secara keseluruhan.)
Komputer belum sebagus semantik.
sumber
Sebagian besar spam yang saya dapatkan hari ini sebenarnya tidak dihasilkan oleh bot. Saya mendapatkan banyak spam yang berasal dari negara-negara dunia ketiga di mana orang disewa selama beberapa sen per jam untuk mengirim pesan di forum dan blog dan semacamnya.
Tidak ada sistem yang membedakan antara manusia dan komputer yang akan menghentikan ini.
Untuk alasan itu, saya benar-benar menghapus CAPTCHA di situs saya. Sebagai gantinya, saya memiliki solusi berbasis javascript yang cukup sederhana (pada dasarnya, Javascript berjalan pada klien mengatur ulang bidang sehingga jika Anda memposting dengan Javascript dimatikan, gagal). Ini menghentikan 95% dari spam bot, tetapi jelas tidak berpengaruh pada spam manusia - tetapi kemudian, CAPTCHA juga tidak.
sumber
Jawabannya bisa menjadi subyektif (sebenarnya bukan subyektif tetapi kurangnya konsep bahasa mencakup semua masyarakat) dan sulit bagi mereka yang tidak berbicara bahasa secara asli.
Jika ada daftar aturan tata bahasa yang terbatas (yang dimiliki setiap bahasa) yang disajikan maka itu hanya menjadi sebuah algoritma; didekati sekarang oleh mesin apa pun yang mau menerapkan algoritma.
sumber
Tetapi mengabaikan gotcha yang serius ini, ada masalah bahasa.
Bahasa aglutinating seperti Hongaria atau Finlandia cocok untuk captcha jenis ini, karena kata-kata dapat memiliki banyak sufiks dan masing-masing memiliki tujuan yang berbeda dalam kalimat (misalnya kata benda yang sama memiliki sufiks yang berbeda ketika digunakan sebagai objek atau subjek) aturannya hanya rumit untuk manusia, sebuah mesin akan menemukan yang benar dalam beberapa percobaan.
Mengisolasi bahasa (Bahasa Inggris sebagai contoh perkiraan, bahasa Mandarin Cina jauh lebih bersih) bahkan lebih buruk, karena tata bahasa sebagian besar ditentukan oleh posisi dalam kalimat dan bukan bentuk kata.
Bahasa fusi seperti Rusia atau Yunani mungkin menimbulkan serangkaian masalah dan sebagainya.
Singkatnya, teka-teki linguistik yang menerjemahkan dengan baik dan sulit ditebak secara acak sangat sulit ditemukan. Mungkin lebih mudah untuk berkonsentrasi pada semantik, daripada sintaksis. Misalnya, "Lanjutkan urutan berikut: Kamis, Rabu, Selasa ..." atau "panggang, goreng, panggang ..." dan seterusnya.
sumber
Gagasan yang biasa di balik captcha adalah bahwa ia harus menghentikan bot hampir setiap saat. Pilihan ganda antara jawaban N menghentikan bot saja (N - 1) / N pada saat itu, dan bot akan melewati rata-rata percobaan N.
Anda dapat menerapkan batas waktu untuk jawaban captcha yang salah, tetapi Anda tidak bisa terlalu ketat tentang hal ini tanpa orang-orang yang tidak bisa berbahasa Inggris (atau apa pun) yang berbicara dengan baik atau memiliki masalah dengan kotak pilih (tangan yang goyah, tikus yang buruk, yang lain cacat). Terlebih lagi, time-out tidak akan menghentikan botnet, karena tebakannya dapat berasal dari IP yang berbeda.
Selain itu, bagaimana Anda memastikan hanya ada satu jawaban yang sah? Kalimat yang dipilih secara acak dari Project Gutenberg mungkin masuk akal dengan beberapa kata benda yang dipilih secara acak, tetapi hanya satu yang merupakan jawaban yang tepat.
sumber
Semua yang Anda lakukan adalah mempersulit manusia untuk menggunakan situs Anda, sementara untuk bot Anda tidak menambahkan hambatan sama sekali.
Yang harus Anda fokuskan adalah menciptakan mekanisme yang secara otomatis mendeteksi apakah sesuatu yang diposkan adalah spam, dan memblokir kiriman jika memang demikian (misalnya, menunda ke moderasi manusia, dan memberi poster pesan pada tingkat itu).
CAPTCHA telah sampai pada titik di mana mereka sangat menjengkelkan. Saya cenderung semakin menghindari situs yang menggunakannya, dan banyak yang menggunakan saya. Ini terutama karena mereka secara luas diketahui tidak berpengaruh pada robot spam apa pun.
sumber