Saya membuat parser untuk .one
ekstensi file, yang ketika selesai saya akan tambahkan ke proyek Apache Tika.
Inilah proyek Open Source berlisensi APL 2.0 yang saya buat: https://github.com/nddipiazza/onenote-parser-java
Saya menggunakan dokumen spesifikasi di sini: https://docs.microsoft.com/en-us/openspecs/office_file_formats/ms-one/73d22548-a613-4350-8c23-07d15576be50
Sebagai titik awal, saya melakukan porting pada kode dari proyek C ++ open source ini: https://github.com/dropbox/onenote-parser
Saya sudah lama menguraikan dokumen-dokumen itu, tetapi saya telah menemukan jalan.
Ini adalah file OneNote yang saya gunakan untuk mem-parsing: https://drive.google.com/file/d/1uROTEnKeBKU08CG_K5zdDTGHa178LgBK/view?usp=sharing
Saya tidak dapat melihat Section1TextArea1 dan Section1TextArea2 di hasil parsing saya. Jadi saya kehilangan beberapa elemen parsing data kunci atau sesuatu.
Sudah pasti dalam file OneNote itu sendiri. Saya bisa melihatnya di Hex viewer:
Berikut ini adalah keluaran parse JSON: https://gist.github.com/nddipiazza/02d2252d357b3b02a6b9ab1050474267
Saya merasa seperti dokumen spesifikasi kehilangan beberapa informasi yang sangat penting yang diperlukan untuk mem-parsing format berpemilik ini.
Elemen utama apa yang saya lewatkan sehingga saya tidak mendapatkan konten teks yang sebenarnya?
sumber