在Linux下转换为PDF / A并检查合规性

我正在研究一个在线门户,研究人员可以上传他们的研究论文。 一个要求是,所有PDF都以PDF / A格式存储。 由于我不能依赖用户生成符合PDF / A的文档,因此我需要一个工具来检查标准PDF并将其转换为PDF / A格式。

什么是你知道的最好的工具?

  • 价钱
  • 质量
  • 速度
  • 可用的API

开源工具将是首选,但search没有透露。 iText可以创buildPDF / a,但是转换并不容易,因为您必须阅读每个页面并将其复制到新文档,在此过程中会丢失所有书签和注释。 (至less据我所知,如果你知道一个简单的解决scheme,让我知道)。

API应该可用于PHP,Java或者应该提供一个命令行工具。 请不要列出仅GUI或仅在线解决scheme。

Solutions Collecting From Web of "在Linux下转换为PDF / A并检查合规性"

我不确定你所有的目标能否得到满足。 PDF / A的故事要比像tiff到png这样的格式转换复杂得多。

  • 基本格式是PDF 1.4:如何处理更高版本的文档,使用那些更高版本的功能? 信息可能会丢失。
  • 在PDF / A-1a和1b中,XMP / RDF格式的元数据是强制性的。 如果原始文档没有元数据,则必须从某个地方获取并添加它。 至少iText可以做到这一点。
  • 从嵌入字体到确保空间存在,而不是只有水平移动命令,有很多小细节才能正确使用。

总结一下:我认为你最好把合规的部分或全部责任放在PDF的制作者身上。 当然,这并不意味着你不能帮助他们:如果你找出大多数用来创建论文的工具,你可以指向关于PDF / A和特定工具的文档。 (作为这样的文档的一个极端的例子,看看这个 )

祝你好运。

我曾经为法国国家图书馆工作,建立一个档案系统,做这种事情。 作为世界十大图书馆中的大多数,我们使用JHOVE来识别文件格式。

JHOVE 可以判断文件是否为PDF / A,甚至可以验证它们。 它也知道其他7种PDF,看到细节 。

JHOVE是开源的,由JSTOR和哈佛大学图书馆维护。 这是相当简单的使用 。

对于识别部分,您可以尝试使用Droid工具 (数字记录对象识别),该工具提供对Pronom技术注册表 (包含PDF / A )的访问。

Open Office API项目可能就是您要查找的内容。 截至2.4 Open Office支持PDF / a文档。 这里是一个关于如何转换文档的网站的代码示例 ,这个例子是在Java中。

我不确定PDF /一个文件,但你已经看了jodconverter? 它可以为你转换许多不同的格式,它是开源的。 我们在项目中使用相当广泛。

http://www.artofsolving.com/opensource/jodconverter