Bagaimana recaptcha tahu Anda tidak memasukkan terjemahan palsu dari gambar [ditutup]

22

Dari apa yang saya pahami, Captcha adalah teks yang telah terdistorsi oleh aplikasi filter, noise, dan algoritma lainnya yang keliru. Oleh karena itu, untuk mengetahui apakah kemampuan membaca orang tersebut adalah kemampuan seseorang, Anda membandingkan jawaban mereka dengan jawaban yang diketahui.

Sekarang, membaca di ReCaptcha, dikatakan bahwa kata-kata yang ditampilkan adalah yang tidak dapat diterjemahkan oleh OCR. Selain itu, recaptcha sedang digunakan untuk menerjemahkan gambar-gambar itu. Bagaimana ia bisa tahu apakah Anda memang benar dalam membaca atau hanya mengada-ada?

Jika tahu apa yang dikatakannya, itu tidak akan digunakan dalam recaptcha sebagai bahan terjemahan. Jika tidak tahu apa yang dikatakan teks, lalu bagaimana cara memvalidasi jawaban Anda?

Saya menduga ini mungkin beberapa analisis berbasis probabilitas dengan ukuran sampel besar sebelum menandai apa pun yang diterjemahkan.

Adakah yang tahu di mana jawabannya?

Zigu
sumber
3
Yang menarik adalah lelucon 4chan / anonim pada jajak pendapat Waktu. "Kue marmer, juga permainan", yang mengeksploitasi kelemahan dalam verifikasi crowdsourcing kata kedua.
DanBeale
2
Retas @Dan
BlueRaja - Danny Pflughoeft

Jawaban:

33

Halaman buku pada dasarnya dipindai secara fotografis, dan kemudian diubah menjadi teks menggunakan "Pengenalan Karakter Optik" (OCR) dan diumpankan ke web dalam bentuk gambar dengan satu kata yang dikenal dengan program komputer di belakang reCAPTCHA dan satu kata yang tidak belum diketahui.

Pengguna kemudian mengetik kedua kata keluar dan jika mereka memecahkan yang jawabannya diketahui, sistem menganggap jawaban mereka benar untuk yang baru. Sistem kemudian memberikan gambar baru kepada sejumlah orang lain untuk menentukan, dengan kepercayaan yang lebih tinggi, apakah jawaban aslinya benar. Oleh karena itu, sistem ini adalah layanan peningkatan diri yang semakin baik seiring berjalannya waktu.

http://www.google.com/recaptcha/learnmore

Paul
sumber
22

Inilah sebabnya mengapa reCaptcha membuat Anda memasukkan dua kata. Salah satu kata sudah dikenal, dan salah satu kata tidak dikenal. Apakah Anda lulus atau gagal captcha hanya tergantung pada bagaimana Anda menjawab kata yang dikenal. Jawaban Anda untuk kata (tidak dikenal) lainnya akan digunakan, bersama dengan tanggapan lain untuk kata yang sama, untuk mengubahnya menjadi kata yang dikenal juga.

Joel Coehoorn
sumber
4
... yang juga menjadi alasan mengapa semakin lama semakin frustasi untuk menggunakan dan meyakinkan Anda bahwa Anda adalah seorang idiot / robot ketika Anda gagal untuk kelima kalinya berturut-turut. :-(
Sirex
Aneh ... Saya tidak pernah gagal yang saya ingat, mungkin hanya keberuntungan di pihak saya.
Paul
@ Sirex saya dulu berpikir begitu, tetapi kemudian saya menyadari bahwa ini hanya benar jika ukuran teks corpus konstan atau menyusut relatif terhadap jumlah entri captcha. Yang benar adalah bahwa teks corpus sedang tumbuh ... pertanyaannya adalah apakah pertumbuhan itu sejalan dengan pertumbuhan penggunaan captcha secara keseluruhan.
Joel Coehoorn
ya saya kira. Saya telah melihat banyak reCaptcha yang sangat sulit. Di mana bahkan kata yang diketahui ambigu.
Sirex