Ekspor: Menyalin teks dari pdf tanpa jeda baris

12

Ada beberapa PDF di alam bebas di mana setiap baris teks tampaknya dikodekan sehingga ketika saya menyalin blok teks semuanya datang dengan itu: Line break dan bahkan "-" separator.

Pertanyaan saya adalah: Bagaimana cara membuat PDF di InDesign di mana perilaku ini tidak terjadi.

Apakah ada yang tahu lebih banyak tentang ini?

KSPR
sumber
2
Saya hanya ingin berkomentar bahwa ini adalah masalah besar dalam banyak artikel akademik dan saya tidak menemukan alasan / solusi untuk masalah ini. Berharap jawaban yang bagus!
benteh
... jadi itu mungkin beberapa fungsi ekspor kuno dalam beberapa praktik bodoh dari era prakambrium yang harus disalahkan.
benteh

Jawaban:

3

Itu karena PDF dapat dihasilkan dalam banyak cara dari sejumlah perangkat lunak dan aplikasi online. Masing-masing memperlakukan baris teks secara berbeda, jadi Anda tidak akan pernah tahu bagaimana sebenarnya teks tertutup sampai Anda mencoba menyalinnya dari PDF kembali ke InDesign.

Namun, InDesign-diekspor PDF umumnya akan menjaga spasi di akhir setiap baris sehingga Anda tidak perlu khawatir tentang pengembalian paragraf yang dimasukkan setelah setiap baris. Untuk memastikan 100%, Create Tagged PDFcentang kotak centang saat Anda mengekspor PDF dari InDesign. Secara pribadi saya akan selalu mencentang kotak ini dan memasukkannya ke dalam preset apa pun yang saya gunakan. Lebih detail tentang opsi ini di sini .

Jika Anda menemukan PDF yang diekspor dengan buruk dan perlu membersihkan paragraf tambahan setelah setiap baris teks, opsi tercepat adalah Temukan / Ganti. Ketik ^pdi Find whatlapangan dan menempatkan ruang kosong di Change tolapangan. Pilih salah satu Storyatau di Selectionbawah ini tergantung pada situasi Anda dan ini harus membersihkan teks Anda.

temukan kotak dialog perubahan

Lucian
sumber
2

Salah satu cara yang berhasil adalah mengekspor PDF sebagai HTML dari Acrobat Pro , buka file itu di browser web Anda dan kemudian salin teks dari sana.

Tidak seperti mengekspor sebagai format teks, html biasanya tidak memecah baris.

Sepengetahuan saya, Anda tidak dapat mencegah hal ini dari InDesign, sepertinya ini adalah perilaku yang berasal dari PDF atau perangkat lunak PDF. Mungkin saja perangkat lunak penerbitan yang menggunakan "bingkai / kotak teks" akan membuat teks semacam itu dalam PDF.

go-junta
sumber
-2

Itu karena beginilah cara pdf mengenali teks - setiap baris sebenarnya adalah paragraf (karenanya dikembalikan di akhir). Tidak ada jalan lain, Anda harus mengubahnya secara global dalam dokumen, setelah menyalin, menggunakan opsi Temukan / Ganti dan karakter tersembunyi.

Agnieszka Szuba
sumber
1
Tetapi ada pdf yang tidak memiliki perilaku ini. PDF di mana Anda dapat menyalin semuanya tanpa kerumitan. Saya hanya ingin tahu bagaimana ini bisa dicapai selama ekspor.
KSPR