Bagaimana cara mengkonversi file pdf ke file odt?

32

Saya ingin mengonversi .pdffile ke .odtfile sehingga saya dapat lebih lanjut mengonversinya menjadi .docfile. Apakah ada perangkat lunak / skrip yang dapat melakukan ini. Saya telah mencoba untuk menyalin konten .pdffile dan menempelkannya di penulis liberoffice format tidak terpelihara.

Dokumen ini bersifat rahasia sehingga saya lebih suka tidak menggunakan layanan online untuk konversi.

Bantuan apa pun sangat dihargai.

Ankit
sumber
Terkait (tetapi bukan duplikat!): Bagaimana cara mengubah odt ke pdf?
Eliah Kagan
1
Untuk pertanyaan khusus LIBREOFFICE / OpenOffice, saya sarankan ask.libreoffice.org
Bucic

Jawaban:

15

Saya terganggu oleh kurangnya konverter PDF ke ODT gratis juga. Aku bahkan tidak butuh sesuatu yang rumit. Hanya alat yang menghasilkan file ODT yang kemudian dapat saya anotasi di LibreOffice (misalnya untuk mengisi formulir).

Saya tahu bagaimana melakukan ini secara manual, dengan mengubah dokumen PDF menjadi file grafik dan kemudian mengimpornya ke LibreOffice, tetapi itu membosankan cukup cepat.

Jadi, saya akhirnya menulis skrip shell kecil cepat yang melakukan semua langkah yang diperlukan secara otomatis. Anda dapat menemukannya di https://github.com/gutschke/pdf2odt

Ini dapat mengambil sejumlah file PDF dan gambar sebagai input dan menghasilkan file ODT yang dapat dibuka dan diedit di LibreOffice. Gambar ditampilkan sebagai latar belakang halaman, sehingga Anda dapat menuliskannya dengan bebas. Setiap gambar dikaitkan dengan gaya halamannya sendiri. Ingatlah hal itu, saat menyisipkan page break dan sesuaikan gaya halaman seperlunya.

Saya menguji skrip pada Linux dan Mac. Mengingat bahwa itu hanya membutuhkan beberapa alat yang cukup standar, itu harus cukup portabel.

keberanian
sumber
Script ini membuat screenshot dari setiap halaman dan memplotnya ke dalam format target, Terima kasih untuk script Gutschke
Oliver
Saya telah menggunakan pdf2oobeberapa tahun yang lalu, tetapi sekarang sepertinya menghasilkan file yang korup untuk LibreOffice. Script ini melakukan itu dan banyak lagi - terima kasih!
eacousineau
3
Skrip pdf2odt, sayangnya, dikonversi ke format gambar yang digunakan sebagai latar belakang ODT. Jangan berharap dapat "mengedit" teks asli apa pun.
Richard Elkins
13

Anda bisa melihatnya PDF Utilities(poppler-utils via Synaptic atau apt-get) yang mencakup pdftotext :

Poppler adalah perpustakaan rendering PDF berdasarkan penampil PDF Xpdf.

Paket ini berisi utilitas baris perintah (berdasarkan Poppler) untuk mendapatkan informasi dokumen PDF, mengonversinya ke format lain, atau memanipulasinya:
* pdfdetach - daftar atau ekstrak file yang disematkan (lampiran)
* pdffonts - penganalisa font
* pdfimages - image extractor
* pdfinfo - informasi dokumen
* pdfseparate - alat ekstraksi halaman
* pdftocairo - PDF ke PNG / JPEG / PDF / PS / EPS / SVG converter menggunakan Kairo
* pdftohtml - Konverter PDF ke HTML
* pdftoppm - PDF ke PPM / PNG / JPEG konverter gambar
* pdftops - Konverter PDF ke PostScript (PS)
* pdftotext - ekstraksi teks
* pdfunite - alat penggabungan dokumen

Tentu saja, kesuksesan akan tergantung pada bagaimana file pdf dihasilkan. Jika Anda mendapatkan apa yang Anda inginkan sebagai file teks, Anda kemudian bisa menyimpan bahwa sebagai file odt.

Sunting: Saya lupa memberikan sumber untuk kutipan. Itu dari tab deskripsi di Synaptic forPDF Utilities (based on Poppler).


sumber
3
Dari daftar ini, pdftohtmlharus paling cocok untuk tugas itu, karena HTML dapat membawa format. Kemudian HTML dapat dikonversi ke ODT atau DOC.
imz - Ivan Zakharyaschev
10

LibreOffice mampu mengimpor .pdffile. Cukup buka di versi LibreOffice saat ini untuk hasil terbaik. Namun, itu akan membuka dokumen sebagai gambar, dan Anda akan dapat mengonversinya hanya ke salah satu format gambar yang didukung, bukan sebagai dokumen Writer.

Secara alami, tidak semua pemformatan dipertahankan, tetapi setidaknya sebagian.

bender
sumber
1
Saya mencobanya baru-baru ini, dan itu hanya mengerikan, tidak menyimpan format bahkan sedikit. Terlebih lagi, itu membuat teks tidak dapat dibaca sama sekali.
Hi-Angel
3

Jika paket poppler-utils diinstal, skrip Nautilus di bawah ini (untuk ditempatkan di folder ~ / .gnome2 / nautilus-scripts sebagai file yang dapat dieksekusi) akan membantu mengonversi file PDF ke HTML (opsi "-i" dapat dihapus untuk menyertakan gambar juga), yang kemudian dapat dibuka dengan LibreOffice Writer dan disimpan sebagai ODT meskipun keberhasilan konversi format sangat tergantung pada bagaimana PDF dibuat.

http://ubuntuone.com/6xI1afyu6QdQvgdCGn0kym

Sadi
sumber
Terima kasih atas skrip yang bermanfaat ini. Hanya sebuah komentar kecil (dari man pdftohtml): -noframes : generate no frames. Not supported in complex output mode.Jadi -noframestidak akan berpengaruh dengan -cset.
Glutanimate
2
Terima kasih, saya telah menghapus opsi mubazir ini dari skrip saya sekarang. Skrip bash yang diberdayakan dengan mudah untuk memberikan gui untuk semua opsi ini akan sangat menyenangkan ;-)
Sadi
#MHC, sepertinya info ini salah; jika kita tidak memasukkan -noframes kita mendapatkan file html terpisah untuk halaman pdf; jadi saya memasukkannya lagi ke skrip saya.
Sadi
Itu aneh. Pasti ada kesalahan dalam dokumentasi itu. Saya akan mengubah salinan skrip saya sesuai. Terimakasih atas peringatannya!
Glutanimate
3

Coba Kaliber. Itu dikonversi ke html dan kemudian ke format lain. Itu melakukan pekerjaan yang cukup baik pada file besar (183 halaman) yang seharusnya saya cetak.

Dalam kasus saya, saya mengubahnya menjadi sebuah epub, tetapi untuk bersenang-senang hanya mengubahnya menjadi .docx yang ternyata sangat baik.

Christopher
sumber