开源OCR

我正在寻找在Linux上运行的开源OCR库。 我需要这个工作PNG和PDF。 大多数情况下,我想从Java或ruby接口这个库。 任何想法,如果有什么可用的?

问候。

Solutions Collecting From Web of "开源OCR"

Tesseract是一个非常好的OCR引擎: https : //github.com/tesseract-ocr/tesseract

该项目已经由惠普实验室推出,现在继续由Google(Google图书馆!)赞助。 它是在Apache许可下发布的,它在Linux上运行。 它使用Tiff或PNG文件; 对于PDF,您将需要转换为这些格式之一。 我想没有绑定,所以你应该调用这个软件作为一个子程序…

楔形文字是免费的,做一个体面的工作。 你可以调用它作为子程序,但是没有我知道的语言绑定。 它不会直接读取PDF文件,但是您可以轻松拆分PDF文件,这些PDF文件是扫描图像的序列,将其输入到楔形文字。 还有脚本将图像和文本重新组合成可搜索的PDF。

尝试tesjeract ,它使用JNI调用Tesseract OCR API。

对于PDF,您需要先将它们转换为图像,例如使用GhostScript。