Akhir-akhir ini, saya telah melihat bahwa scribd membuat sangat sulit bagi pengguna (pengguna gratis) untuk menelusuri dokumen yang dihosting di situs mereka. Tidak ada kemampuan untuk mencari di dalam dokumen, apalagi bisa mengunduh yang sama.
Menggunakan javascript, mereka memuat halaman sesuai permintaan di browser, sehingga fitur "save as" browser tidak banyak membantu.
Saya kagum, saya melihat bahwa bahkan menyalin / menempel salinan teks omong kosong ke clipboard! Untuk memeriksa apa yang salah, saya mematikan javascript di browser dan kemudian memuat dokumen yang sama lagi. Voila, saya memang melihat omong kosong itu. Jadi, sepertinya javascript dari scribd entah bagaimana menerjemahkan teks omong kosong dan kemudian menampilkannya di browser.
Sekarang, pertanyaan saya adalah, bahkan setelah javascript diaktifkan, dan teks ditampilkan dengan benar di browser, jika saya pergi dan melihat objek DOM yang sesuai dengan teks yang saya pilih, saya masih melihat teks omong kosong.
Jadi, sekarang, saya bingung. Teks ditampilkan baik-baik saja kepada pengguna, tetapi objek DOM masih mengandung omong kosong. Jadi pertanyaannya adalah, apa jenis kait / kode javascript yang digunakan situs, sehingga dapat mempertahankan omong kosong dalam objek DOM dan masih membuat teks yang diterjemahkan?
Apakah ada cara saya dapat mengakses teks yang diterjemahkan? Maksud saya bukan untuk merekayasa balik algoritma untuk memecahkan kode, tetapi untuk menemukan di mana teks yang diterjemahkan itu disimpan?
Contoh dokumen adalah:
Lihat apa yang terjadi ketika Anda menghidupkan / mematikan Javascript!
sumber
Jawaban:
Lihatlah
font-family
untukspan
. Mereka menggunakan font khusus (dalam hal iniff6
).Mereka harus melakukan ini agar lebih banyak dokumen PDF ditampilkan dengan benar. Seperti dalam dokumen PDF tidak ada persyaratan bahwa teks dalam dokumen harus menggunakan set karakter standar. Itu hanya perlu menggunakan satu yang memiliki kode yang memetakan ke mesin terbang di font yang tertanam.
sumber
Jika Anda melihat teks yang ditampilkan vs. "omong kosong" Anda dapat melihat bahwa beberapa huruf sama, sementara beberapa huruf diganti. Misalnya, "Mltmrprfsm Jblbemr" adalah "Enterprise Manager". Teks yang diberikan cukup, Anda harus dapat membuat tabel terjemahan cepat. Sudah, kita tahu bahwa M menerjemahkan ke E , L -> N , T , R , dan P jelas, F -> R , dll. Mengingat beberapa waktu, pekerjaan detektif, dan keterampilan pemrograman sederhana, orang dapat menerjemahkan seluruh dokumen.
Tentu saja, tidak ada jaminan bahwa dokumen berikutnya akan menggunakan
ff6
font yang sama dengan yang disebutkan Dan D. , jadi mengambil font itu untuk penggunaan lokal harus menjadi langkah Anda berikutnya jika Anda ingin menyimpan teks untuk nanti.sumber
Anda dapat mencoba mengambil tangkapan layar menggunakan alat krop browser dan kemudian menggunakan salah satu situs ocr online yang tersedia untuk mengubahnya menjadi teks. Itu seharusnya memilah Anda.
sumber