我和一个朋友对培训CV项目的tesseract-OCR引擎感兴趣。 我们尝试使用PyTesser和Pyocr等一些包装,但是结果目前并不像我们需要的那样精确。 因此,我们希望尝试培训tesseract以更好地执行我们的目的(即识别食品标签上的文本),但在安装培训工具时遇到一些麻烦。
我们已经尝试过了:
在google代码网站上,tesseract的google代码维基上的“编译”页面说,培训工具只在版本3.03上可用。 但是,tesseract-ocr的google代码“下载”页面只有3.02的材料。 “编译”页面底部也有一些关于在Windows和OSX上安装3.03版本的评论,但是对于Linux用户还没有评论。
Ubuntu似乎还有一些3.03的源码包,但我们不确定如何在我们的电脑上访问它,而“编译”页面则说我们需要运行这些命令:
make training sudo make training-install
我们还发现了一个关于tesseract 3.03的谷歌小组,但是似乎这些post不包括Linux用户的build议(除非我们在最初的阅读过程中遗漏了某些东西)。
这实际上是一个非常简单的命令行安装问题? 或者,有没有一种方法火车tesseract 3.02(我们目前已经安装)? 我们一直在看错信息的地方吗?
任何意见或指导安装tesseract-ocr 3.03的Linux发行版将不胜感激! 谢谢。
Tesseract可以直接安装在Ubuntu 14.04上
sudo apt-get install tesseract-ocr
我不知道你是否可以在旧版本的Ubuntu中使用它,因为repo可能会在更高版本的Ubuntu中更新。
我有一个aws的Ubuntu 14.04实例。 当我尝试安装Tesseract
sudo apt-get install tesseract-ocr
它没有找到包裹
但是这对我有效。
sudo apt-get update sudo apt-get install tesseract-ocr
Ubuntu是一个基于Debian的Linux发行版。 您发现的tesseract软件包很可能是一个debian软件包,其中将包含tesseract和所需的默认语言文件,以允许您运行/培训tesseract。 你不需要源代码包 – 除非你只是想自己编译它 – 没有必要。 你将不必建立tesseract,你只需要安装包。 首先,看起来你是Ubuntu的新手,所以请安装InstallingSoftware 。 它可以像打开x-term一样简单,并发出命令apt-get install tesseract-pkgname
(注意:这意味着无论包名是什么)。
没有捷径,花点时间了解是否在需要安装的盒子上有.deb软件包,或者是否从远程存储库进行安装。 上面的链接解释了如何处理两者。
这里是一个特定的Ubuntu线程处理安装tesseract Tesseract 3.0 + Ubuntu 10.04安装指南希望有所帮助。 Tesseract是非常好的软件。
我没有任何关于专门为Linux构建Tesseract 3.03的指示(我在Mac上),但是这里有一个链接,用于下载3.03候选版本的源代码: https : //tesseract-ocr.googlecode.com/archive /3.03-rc1.tar.gz