Tidak dapat menyalin teks dari file pdf

40

Saya menggunakan pembaca PDF foxit untuk melihat buku teks saya. Saya ingin menyalin teks dari file pdf ke dokumen kata tetapi tidak akan membiarkan saya. Saya dapat memilih teks yang bagus tetapi opsi untuk menyalin teks tidak tersedia. Saya dapat menyalin teks dari dokumen lain tetapi tidak. Apakah ada cara untuk mengatasi perlindungan ini di windows?

Jonno_FTW
sumber
Saya melihat jawaban saya tidak bekerja untuk Anda, jadi Anda telah mengirim hadiah. Jika Anda memposting suatu contoh pdf semacam itu, saya akan melihatnya.
harrymc
@harrymc: Secara khusus, saya ingin menyalin nilai-nilai dari tabel 6.15 dari acousticslab.org/papers/VassilakisP2001Dissertation.pdf
endolith
@endolith: Lihat jawaban baru saya.
harrymc

Jawaban:

29

File pdf mungkin terkunci terhadap penyalinan teks. Di bawah ini adalah dua cara untuk membukanya:

  1. Jika pdf belum dikunci terhadap pencetakan, Anda dapat mencetaknya ke printer pdf virtual untuk membuat file tidak terkunci. Lihat ini:
    "Hapus Kata Sandi dan Buka Kunci PDF yang Dilindungi yang Diizinkan Untuk Dicetak Tanpa Mengetahui Rahasia" .
  2. Jika fungsi cetak telah dikunci, lihat ini:
    "Hapus Pembatasan dan Dekripsi Kata Sandi yang Dilindungi File PDF Dengan PDF Unlocker" .
harrymc
sumber
Anda dapat melihat apakah PDF dikunci untuk disalin. Dari menu File, pilih Properties dan pada tab Security dikatakan apakah Konten Menyalin diperbolehkan.
Rob Sedgwick
Sudah mencoba mencetak PDF. File yang dicetak tidak memungkinkan untuk memilih teks, sepertinya itu dikonversi teks ke gambar.
queezz
@queezz: PDF harus berisi gambar untuk memulai.
harrymc
@harrymc Ya, ada gambar. Tetapi teks juga dikonversi menjadi gambar. Opsi Google Chrome bekerja dengan baik pada dokumen yang sama.
queezz
Tautan pertama Anda menghubungkan ke primopdf.com/installers/4.0.1/FreewarePrimo64Setup.exe yang buruk itu tidak berfungsi dan sepertinya Anda bahkan tidak pernah mengarsipkannya ke archive.org. Tautan kedua Anda baik-baik saja tetapi tautan ke situs berbagi file dfiles.eu/files/7kiqyvswk file tersebut ok, diperiksa dengan virustotal. Tetapi tidak begitu mudah ditemukan karena ada berbagai tautan di halaman mydigitallife itu. Di sinilah tertulis "PDF Unlocker adalah alat gratis namun ramah pengguna yang dapat diunduh melalui tautan di sini (versi saat ini 1.0.4)."
barlop
25
  1. Buka PDF di Google Chrome (seret dan lepas file PDF ke Chrome).
  2. Cetak halaman tertentu sebagai PDF atau cukup buka pratinjau cetak.
  3. Sekarang Anda dapat menyalin teks dari pratinjau cetak atau hasil PDF. Tapi saya tidak berpikir Anda bisa menyalin tabel secara langsung.
Khaleel
sumber
4
Ini juga bekerja untuk saya. Ini adalah metode termudah yang saya lihat di sini.
endolith
3
Sangat brilian. Oh, Anda dapat menyeret file ke bilah tab Chrome untuk membukanya dengan cepat.
iono
Tidak satu pun dari metode itu yang berfungsi untuk saya di Chrome 53. Apakah celah itu mungkin telah ditutup?
Simon East
11

Saya dapat membuat versi bebas file DRM Anda menggunakan Ghostscript (yang tersedia untuk Windows).

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=stripped.pdf VassilakisP2001Dissertation.pdf

File yang dihasilkan stripped.pdfdapat dimuat dalam Adobe Reader, dan Reader dengan senang hati akan memungkinkan Anda untuk menyalin bagian mana pun yang Anda inginkan. Itu juga mempertahankan sebagian besar format tabel.

Michael Hampton
sumber
Ini brilian. Akuntan pajak saya menolak memberi saya PDF non-DRM, atau kata sandi untuk menghapus DRM. Ini menyelesaikan masalah saya. Kerja bagus!
kevinarpe
Jika PDF memiliki kata sandi, pastikan untuk menyertakan -sPDFPasswordsakelar ( -sPDFPassword=password).
palswim
2

Saya dapat menyalin tabel dari file PDF Anda berhasil menggunakan Okular (untuk Linux; bagian dari KDE). Untuk melakukan ini, saya harus masuk ke pengaturan Okular dan hapus centang "Patuhi batasan DRM."

Saya sadar bahwa ini tidak banyak membantu Anda karena Anda menjalankan Windows, tetapi kemungkinan jika Anda memiliki mesin Linux yang praktis atau bersedia untuk menginstalnya.

Sayangnya itu adalah teks biasa tanpa pemformatan, tetapi sepertinya tidak terlalu sulit untuk membuat ulang tabel. Anda dapat melihat hasil petualangan salin dan tempel saya di sini .

Michael Hampton
sumber
Untuk itulah VirtualBox diperuntukkan. : DI juga dapat menyalin teks biasa tanpa memformat, tetapi dengan memilih satu kolom pada satu waktu cukup mudah untuk mengekspor.
endolith
Sepertinya ini yang terbaik untuk tabel angka, karena Okular memungkinkan Anda melakukan pemilihan teks segi empat dan mengekstrak satu kolom secara berurutan.
endolith
Untuk kolom tunggal, mungkin begitu. Untuk seluruh tabel, lihat jawaban saya yang lain .
Michael Hampton
Perhatikan bahwa Okular dapat berjalan di Windows. Sebenarnya banyak perangkat lunak KDE dapat berjalan di windows .
Bakuriu
1

Anda dapat menggunakan Teks GT adalah program yang menerjemahkan gambar (juga pdf snapshots = gambar) ke teks. Anda dapat memilih area dan menyalinnya ke clipboard. Gratis

Halaman beranda resmi adalah http://gttext.googlecode.com

David
sumber
1

jika salinan diklik, karena sekarang diragukan untuk Anda, maka PDFnya 'terkunci', itu dapat dibaca tetapi memang menghentikan Anda dari menyalin / menempelkan apa pun darinya.

Situs web ini akan membuka kunci PDF

https://smallpdf.com/unlock-pdf

barlop
sumber
0

Jika Anda hanya mencari potongan pendek, Anda sering dapat mengetikkan beberapa kata di google dalam tanda kutip dan menemukan kutipan yang tepat sudah dipindai dalam beberapa format lain atau diketik oleh orang lain.

Pilihan lain adalah "Dokumen dari Foto" di aplikasi Android Google Documents, yang akan menempatkan teks melalui OCR. Ini rawan kesalahan, tentu saja.

Saya berharap fungsi penguncian PDF tidak pernah ada. :(

endolith
sumber
0

Jawaban untuk endolith:

PDF Anda terlindungi dari penyalinan, tetapi tidak terlindungi dari pencetakan.

Jadi saya telah mencetak satu halaman yang berisi tabel 6.15 ke dalam PDF lain yang tidak terlindungi dari penyalinan, memilih dan menyalin tabel, lalu menempelkannya ke Word. Yang sangat mengejutkan saya, hasil dari pasta itu adalah sampah.

Saya sekarang telah melihat lebih jauh pada tabel ini dan menemukan hasil yang sangat mengejutkan: Ini bukan meja!

Ini sebenarnya adalah montase dari potongan-potongan kecil teks, diposisikan pada halaman sehingga terlihat seperti sebuah tabel. Tapi ini bukan meja nyata.

Yang terbaik yang dapat Anda lakukan adalah menulis ulang semuanya sebagai sebuah tabel, atau cukup gunakan tangkapan layar dari teks yang dirangkai seperti tabel ini.

Ini adalah screenshot saya dari tabel, seperti yang diambil dari dokumen pdf satu halaman yang dihasilkan :

gambar

harrymc
sumber
Saya mencoba mencetaknya dengan 2 program tetapi yang saya dapatkan hanyalah halaman kosong.
endolith
Menggunakan Foxit Reader , saya memposisikan diri pada halaman, lalu mencetak halaman saat ini ke printer pdf (saya menggunakan Cute Pdf Writer ). Saya akan mencoba menganalisis masalah dengan menyalin tabel malam ini,
harrymc
Saya mencoba PrimoPDF dan qvPDF (yang menggunakan GhostScript)
endolith
Lihat tambahan saya di atas.
harrymc
... Saya juga mengunggah satu halaman pdf ke sini (waktu tunggu 60 detik).
harrymc
0

Kemungkinan lain adalah Evince .

Di Windows , tampaknya mendukung penyalinan secara default.

Di Linux, penyalinan dapat diaktifkan dengan memeriksa override_restrictionspengaturan jika belum, mengikuti petunjuk ini ( dconf-editor/org/gnome/evinceoverride_restrictions).

endolith
sumber