我正在寻找一体化的解决scheme,通过单一步骤从纯图像PDF文件(扫描文档)创build可search的PDF文件(通过OCR)(例如,从另一个程序调用命令行)
我发现了一些软件包:
我玩的是白色的tesseract,但它只支持单个TIFF图像作为input,然后我必须将OCR结果与图像结合起来,将所有组合的页面绑定到一个新的PDF文档。
我正在编写一个基于Java的程序,检查PDF文件,如果有必要,它应该将它们转换为可search的pdf(带有文本层的pdf,通过OCR识别的图像)
如果有任何想法可以简化所有这些步骤,并将Tesseract用于以下工作stream程,那将是非常好的:
带有扫描图像的PDF =====>input(处理)输出====>带有可search文本的已识别PDF
首先十分感谢
最好的祝福
香农
在Tesseract的3rdParty页面中列出了一些基于Java的hOCR到PDF解决方案。 您必须首先将PDF转换为图像(例如,使用Ghostscript),然后将它们发送到Tesseract以转换为hOCR格式。
.Net Project NAPS2以图像文件为输入,生成可搜索的文本pdf文件,并提供了自动化的命令行功能
如果一个在线的 OCR解决方案是可以接受的,那么就有免费的ocr.space api,它包括一个可以搜索PDF的选项。
这是一个单步解决方案。 您将图像或PDF发送到api,并返回到可搜索的pdf的下载链接。