Trik Javascript? Bagaimana scribd membuatnya sulit untuk menyalin & menempelkan teks

19

Akhir-akhir ini, saya telah melihat bahwa scribd membuat sangat sulit bagi pengguna (pengguna gratis) untuk menelusuri dokumen yang dihosting di situs mereka. Tidak ada kemampuan untuk mencari di dalam dokumen, apalagi bisa mengunduh yang sama.

Menggunakan javascript, mereka memuat halaman sesuai permintaan di browser, sehingga fitur "save as" browser tidak banyak membantu.

Saya kagum, saya melihat bahwa bahkan menyalin / menempel salinan teks omong kosong ke clipboard! Untuk memeriksa apa yang salah, saya mematikan javascript di browser dan kemudian memuat dokumen yang sama lagi. Voila, saya memang melihat omong kosong itu. Jadi, sepertinya javascript dari scribd entah bagaimana menerjemahkan teks omong kosong dan kemudian menampilkannya di browser.

Sekarang, pertanyaan saya adalah, bahkan setelah javascript diaktifkan, dan teks ditampilkan dengan benar di browser, jika saya pergi dan melihat objek DOM yang sesuai dengan teks yang saya pilih, saya masih melihat teks omong kosong.

Jadi, sekarang, saya bingung. Teks ditampilkan baik-baik saja kepada pengguna, tetapi objek DOM masih mengandung omong kosong. Jadi pertanyaannya adalah, apa jenis kait / kode javascript yang digunakan situs, sehingga dapat mempertahankan omong kosong dalam objek DOM dan masih membuat teks yang diterjemahkan?

Apakah ada cara saya dapat mengakses teks yang diterjemahkan? Maksud saya bukan untuk merekayasa balik algoritma untuk memecahkan kode, tetapi untuk menemukan di mana teks yang diterjemahkan itu disimpan?

Contoh dokumen adalah:

http://www.scribd.com/doc/143886351/OCP-Upgrade-to-Oracle-Database-12c-Student-Guide-vol-1-Exam-1Z0-060

Lihat apa yang terjadi ketika Anda menghidupkan / mematikan Javascript!

pengguna2497064
sumber
Agaknya sederhana. Mereka menciptakan penampil pdf javascript. Mozilla melakukan sesuatu dengan Firefox. Karena penampil PDF Anda sebenarnya tidak digunakan untuk menampilkan konten, mereka dapat mengontrol hampir setiap aspek pengalaman menonton.
Ramhound

Jawaban:

15

Lihatlah font-familyuntuk span. Mereka menggunakan font khusus (dalam hal ini ff6).

Mereka harus melakukan ini agar lebih banyak dokumen PDF ditampilkan dengan benar. Seperti dalam dokumen PDF tidak ada persyaratan bahwa teks dalam dokumen harus menggunakan set karakter standar. Itu hanya perlu menggunakan satu yang memiliki kode yang memetakan ke mesin terbang di font yang tertanam.

Dan D.
sumber
10

Jika Anda melihat teks yang ditampilkan vs. "omong kosong" Anda dapat melihat bahwa beberapa huruf sama, sementara beberapa huruf diganti. Misalnya, "Mltmrprfsm Jblbemr" adalah "Enterprise Manager". Teks yang diberikan cukup, Anda harus dapat membuat tabel terjemahan cepat. Sudah, kita tahu bahwa M menerjemahkan ke E , L -> N , T , R , dan P jelas, F -> R , dll. Mengingat beberapa waktu, pekerjaan detektif, dan keterampilan pemrograman sederhana, orang dapat menerjemahkan seluruh dokumen.

Tentu saja, tidak ada jaminan bahwa dokumen berikutnya akan menggunakan ff6font yang sama dengan yang disebutkan Dan D. , jadi mengambil font itu untuk penggunaan lokal harus menjadi langkah Anda berikutnya jika Anda ingin menyimpan teks untuk nanti.

MattDMo
sumber
0

Anda dapat mencoba mengambil tangkapan layar menggunakan alat krop browser dan kemudian menggunakan salah satu situs ocr online yang tersedia untuk mengubahnya menjadi teks. Itu seharusnya memilah Anda.

guy841185
sumber