我希望能够阅读PDF文件的内容。 我需要在Linux上使用C来做到这一点。
我能接近这个在这里,但我认为Haru只能创buildpdf,不能读取它们(不是100%肯定)。
PS:我只需要PDF格式的纯文本
检查libpoppler 。 我从来没有用它来提取文本,只是查询PDF属性。 这很容易使用。
你需要解析它们多好? 只是提取字符串应该是相对容易的,完全准确的渲染是困难的。 看看evince或ghostscript的源代码?
这是为C ++,但可能是理解PDF结构的一个很好的起点http://www.codeproject.com/KB/cpp/ExtractPDFText.aspx (对不起,错误的链接之前)
另一个可能的,但我从来没有使用它是VersyPDF。 它声称允许你编辑PDF文件… http://versypdf.sybrex-systems-ltd.qarchive.org/