Bagaimana cara menyalin teks dari PDF tanpa kehilangan format?

41

Ketika saya menyalin teks dari file PDF dan menjadi editor teks, itu akhirnya hancur dalam berbagai cara. Memformat seperti huruf tebal dan miring hilang; jeda baris lunak dalam paragraf teks dikonversi ke jeda garis keras; garis putus-putus untuk memecahkan kata lebih dari dua baris dipertahankan bahkan ketika mereka seharusnya tidak; dan tanda kutip tunggal dan ganda diganti dengan? tanda-tanda.

Idealnya, saya ingin dapat menyalin teks dari PDF dan memformat dikonversi ke kode HTML, "kutipan pintar" dikonversi menjadi "dan ', dan jeda baris dilakukan dengan benar. Apakah ada cara untuk melakukan ini?

Colen
sumber
2
Word 2013 dapat membuka PDF. Tidak sempurna. Tapi bisa dilakukan
pratnala
Mungkin terkait: superuser.com/a/455278/13787
Steven R. Loomis

Jawaban:

54

Pertama, Anda harus mengerti apa itu PDF. PDF dirancang untuk meniru halaman yang dicetak, dan mereka dirancang hanya sebagai format output, bukan format input. PDF pada dasarnya adalah peta yang berisi lokasi tepat karakter (huruf individu atau tanda baca, dll.) atau gambar. Dalam kebanyakan kasus , PDF bahkan tidak menyimpan informasi tentang di mana satu kata berakhir dan yang lain dimulai, apalagi hal-hal seperti istirahat ringan vs istirahat keras untuk akhir paragraf.

(Beberapa PDF terakhir memang menyimpan beberapa informasi tentang hal ini, tetapi itu adalah teknologi baru, dan Anda akan beruntung menemukan PDF seperti itu. Bahkan jika Anda melakukannya, pemirsa PDF Anda mungkin tidak mengetahuinya.)

Pokoknya, tergantung pada perangkat lunak Anda untuk menerapkan semacam "kecerdasan buatan" untuk mengekstraksi dari lokasi masing-masing karakter apa kata, apa paragraf, dan sebagainya. Perangkat lunak yang berbeda akan melakukan ini lebih baik daripada yang lain, dan itu juga akan tergantung pada bagaimana PDF dibuat. Bagaimanapun, Anda seharusnya tidak mengharapkan hasil yang sempurna. Memiliki output PDF tidak sama dengan memiliki dokumen sumber. Jauh lebih baik mencoba mendapatkannya jika Anda bisa.

Solusi standar untuk masalah Anda adalah menggunakan Adobe Acrobat Professional (yang mahal, bukan pembaca gratis) untuk mengonversi PDF ke HTML. Bahkan itu pun tidak akan mendapatkan hasil yang sempurna.

Ada perangkat lunak gratis yang dapat digunakan untuk mengekstrak teks dari PDF dengan beberapa format utuh, tetapi sekali lagi, jangan berharap hasil yang sempurna. Lihat, misalnya, kaliber (yang dapat dikonversi ke format RTF), pdftohtml / pdfreflow atau pengolah kata AbiWord (dengan semua plugin impor / ekspor diaktifkan). Ada juga plugin impor PDF untuk OpenOffice.

Tapi tolong jangan berharap kesempurnaan dengan hasil ini. Anda menentang gandum di sini. PDF tidak dimaksudkan sebagai format input yang dapat diedit.

luar biasa
sumber
2
sebuah umpan balik 5 tahun kemudian: tidak ada peningkatan besar: saya harus mengonversinya ke HTML (menggunakan acrobat x) kemudian menyisipkan setiap baris dalam tabel MSword. (Menyimpan kata atau excel atau txt hanya mengacaukan segalanya, menyalin masa lalu dari chrome juga tidak berhasil). Masih menunggu perangkat lunak (sangat) cerdas.
JinSnow
klik kanan pada tabel memilih kerja "salin dengan pemformatan" juga, dengan batas yang disebutkan di atas
JinSnow
1
Karena ini adalah jawaban yang diterima, saya sarankan Anda juga menyebutkan opsi (yang lebih baru) yang ditulis pratnala dalam komentarnya - buka pdf langsung dari Word 2013. Pada beberapa pdf saya mencoba memberikan hasil yang lebih baik daripada semua perangkat lunak di atas.
BornToCode
8

Pilihan lain adalah mengunduh dan mulai menggunakan pdf viewer gratis, Foxit (bagus). Kemudian Anda dapat 'Simpan Sebagai' dan pilih .txt untuk mengubahnya menjadi file teks. Itu akan mempertahankan semua pemformatan. Entah apakah Anda dapat melakukan hal yang sama di Adobe karena saya berhenti menggunakannya beberapa saat yang lalu ketika saya dikonversi ke Foxit.

chris
sumber
"Simpan sebagai ... Teks" berfungsi untuk saya dengan beberapa pemirsa pdf gratis.
Jeff
Saya menggunakan Foxit, dan hanya mencobanya, saya tidak akan mengatakan itu mempertahankan format. Dan yang saya inginkan adalah akhiran baris yang layak dan setiap paragraf sebagai paragraf.
pgr
Dengan menggunakan txt Anda akan kehilangan semua format: font, huruf tebal, huruf miring, warna, dan tentu saja opsi yang lebih maju
skan
Foxit Reader bekerja dengan baik untuk saya
Michael Tranchida
5

Ada alat online yang sangat bagus yang disebut Sej-da . Ini berkaitan dengan Manipulasi PDF Lanjutan. Tidak ada perangkat lunak untuk diunduh. Karena ini adalah alat online baru , saat ini masih dalam Beta. Ini memungkinkan Anda untuk mengekstrak teks dari PDF, serta menyediakan berbagai fungsi PDF lainnya

http://www.sejda.com/

Ulasan video singkat tentang fungsi-fungsi sejda dilakukan pada 14 November 2012 oleh Revision 3, dapat ditemukan di sini:

http://revision3.com/tzdaily/sejda-online-pdf

Simon
sumber
1
Orang masih dapat mengunduh alat baris perintah: sejda.org/download (Saya tidak berpikir itu memungkinkan mengekstraksi teks dengan format?)
Arjan
Saya sudah merekomendasikan Sejda di atas Arjan
Simon
1
Hah? Maksud saya: Anda mengatakan itu alat online, tetapi orang juga dapat mengunduh hal yang sama. Juga, melihat lebih jauh: Saya tidak berpikir itu akan mempertahankan format, seperti yang diminta?
Arjan
Saya sadar pelestarian format telah diminta, tetapi kecuali Anda mencobanya Anda tidak akan pernah tahu.
Simon
Sebagai alat gratis dengan banyak fitur, dan bahkan tidak keluar dari beta - tidak ada ruginya, tetapi cobalah. Dengan waktu set fitur-fiturnya mungkin akan diperpanjang, tetapi untuk saat ini cant benar-benar mengeluh.
Simon
5

Buka file PDF Anda dengan browser (Google chrome dan firefox diuji) lalu salin teks Anda di sana.

harsini
sumber
Sayangnya ini tidak bekerja untuk saya di Firefox.
Reb
dekat. FF menyimpan ukuran font setidaknya. Chrome gagal total, bahkan tidak memberi umpan garis.
nd34567s32e
Pada Oktober 2019 membuka PDF di Chrome dan menyalin / menempel ke editor teks setidaknya mempertahankan end-of-line (tapi, sayangnya, tidak ada spasi putih di baris).
DocOc
4

Anda dapat menggunakan Adobe Acrobat Pro untuk ini.

Untuk tabel: Dengan Acrobat 9/10 ada fitur tabel pilih. Dengan Acrobat X Anda cukup mengklik Save As> Spreadsheet> Excel. Bahkan menggabungkan halaman menjadi satu spreadsheet panjang. Fitur luar biasa.

Untuk teks: Ada fitur serupa untuk mengekspor ke MS Word. Save As> Word> Word Doc.

Sumber:

pengguna156787
sumber
0

Foxit akan beralih antara menampilkan file asli sebagai PDF normal atau sebagai teks dengan menekan Ctrl + 6 (Dengan sedikit mengutak-atik tingkat zoom mode teks, tidak ada banyak lompatan di posisi bolak-balik antara membaca dan menyalin)

Dengan tenang
sumber
0

Saya menemukan ini sangat berguna ( Hapus Line Breaks ):

Berikut ini adalah trik yang berguna untuk menyelesaikan ini dengan cepat tanpa harus menghapus semua jeda baris secara manual. Pada dasarnya, semua itu dilakukan secara otomatis mengganti semua jeda baris yang tidak diinginkan dengan satu spasi, membuat semua teks berjalan bersama menjadi satu paragraf:

1- menyalin teks yang Anda inginkan dari PDF.

2- tempel ke dokumen Word baru.

3- klik "edit" lalu "ganti"

4 - pastikan Anda berada di bidang "temukan apa"

5- klik "lebih" lalu "istimewa"

6- pilih "tanda paragraf" (atas daftar)

7- klik ke bidang "ganti dengan"

8 - tekan bilah spasi sekali

9 - klik "ganti semua"

10 - klik "ok" lalu tutup kotak "temukan & ganti".

cahaya langit
sumber
-1

Anda bisa menyalin dari adobe reader ke MS Excel dan memformat (tabel) seperti yang Anda inginkan dan kemudian menyalin dan menempel dari Excel. Solusi ini sangat bagus. Anda tidak perlu membeli salinan profesional batako yang mahal.

Murali Sastry
sumber
Pertanyaannya membahas teks. Apakah Anda pikir ini akan menjadi solusi umum yang baik untuk teks, termasuk mengonversi pemformatan ke kode HTML?
fixer1234
-1

Saya mencoba untuk menyimpan teks dan format pdf yang disusun dalam sebuah tabel. Di Acrobat Professional, saya menyadari ada opsi 'Simpan Sebagai' yang memungkinkan menyimpan sebagai dokumen excel. Ini bekerja dengan baik untuk kebutuhan saya. Saya juga memperhatikan ada opsi dokumen Save As Word juga. Saya tidak mencobanya.

Douglas Thompson
sumber
2
Ini menggandakan jawaban user156787.
fixer1234