我正在研究一个在线门户,研究人员可以上传他们的研究论文。 一个要求是,所有PDF都以PDF / A格式存储。 由于我不能依赖用户生成符合PDF / A的文档,因此我需要一个工具来检查标准PDF并将其转换为PDF / A格式。
什么是你知道的最好的工具?
开源工具将是首选,但search没有透露。 iText可以创buildPDF / a,但是转换并不容易,因为您必须阅读每个页面并将其复制到新文档,在此过程中会丢失所有书签和注释。 (至less据我所知,如果你知道一个简单的解决scheme,让我知道)。
API应该可用于PHP,Java或者应该提供一个命令行工具。 请不要列出仅GUI或仅在线解决scheme。
我不确定你所有的目标能否得到满足。 PDF / A的故事要比像tiff到png这样的格式转换复杂得多。
总结一下:我认为你最好把合规的部分或全部责任放在PDF的制作者身上。 当然,这并不意味着你不能帮助他们:如果你找出大多数用来创建论文的工具,你可以指向关于PDF / A和特定工具的文档。 (作为这样的文档的一个极端的例子,看看这个 )
祝你好运。
我曾经为法国国家图书馆工作,建立一个档案系统,做这种事情。 作为世界十大图书馆中的大多数,我们使用JHOVE来识别文件格式。
JHOVE 可以判断文件是否为PDF / A,甚至可以验证它们。 它也知道其他7种PDF,看到细节 。
JHOVE是开源的,由JSTOR和哈佛大学图书馆维护。 这是相当简单的使用 。
对于识别部分,您可以尝试使用Droid工具 (数字记录对象识别),该工具提供对Pronom技术注册表 (包含PDF / A )的访问。
Open Office API项目可能就是您要查找的内容。 截至2.4 Open Office支持PDF / a文档。 这里是一个关于如何转换文档的网站的代码示例 ,这个例子是在Java中。
我不确定PDF /一个文件,但你已经看了jodconverter? 它可以为你转换许多不同的格式,它是开源的。 我们在项目中使用相当广泛。