有什么开源解决scheme在Windows上创build可search的PDF?

我正在寻找一体化的解决scheme,通过单一步骤从纯图像PDF文件(扫描文档)创build可search的PDF文件(通过OCR)(例如,从另一个程序调用命令行)

我发现了一些软件包:

  • pdfsandwich(很难在Windows系统上移植)
  • watchOCR(已停产:-()

我玩的是白色的tesseract,但它只支持单个TIFF图像作为input,然后我必须将OCR结果与图像结合起来,将所有组合的页面绑定到一个新的PDF文档。

我正在编写一个基于Java的程序,检查PDF文件,如果有必要,它应该将它们转换为可search的pdf(带有文本层的pdf,通过OCR识别的图像)

如果有任何想法可以简化所有这些步骤,并将Tesseract用于以下工作stream程,那将是非常好的:

带有扫描图像的PDF =====>input(处理)输出====>带有可search文本的已识别PDF

首先十分感谢

最好的祝福

香农

Solutions Collecting From Web of "有什么开源解决scheme在Windows上创build可search的PDF?"

在Tesseract的3rdParty页面中列出了一些基于Java的hOCR到PDF解决方案。 您必须首先将PDF转换为图像(例如,使用Ghostscript),然后将它们发送到Tesseract以转换为hOCR格式。

.Net Project NAPS2以图像文件为输入,生成可搜索的文本pdf文件,并提供了自动化的命令行功能

如果一个在线的 OCR解决方案是可以接受的,那么就有免费的ocr.space api,它包括一个可以搜索PDF的选项。

这是一个单步解决方案。 您将图像或PDF发送到api,并返回到可搜索的pdf的下载链接。