Articles of tesseract

Tesseract使用字母子集

我在Ubuntu Linux上使用tesseract–ocr包,我已经使用了一段时间,我认为,为了提高OCR的准确性,我只需要从字母表中的一个字母的子集。 我需要的信件是: 0123456789abcdefghijklmnopqrstuvwxyz 只有这些,甚至连大写字母,都没有人给我一个指示tesseract只能匹配一个字母子集的手吗? 谢谢,

CMake为Tesseract和OpenCV

我是Linux编程的新手,我正在尝试使用Tesseract和OpenCV在Ubuntu 12.10上创build一个OCR应用程序。 到目前为止,我已经在Linux上设置了tesseract和OpenCV ,我也按照这个教程 ,在本教程中,我发现创build一个文件CMakeList.txt并链接OpenCV非常简单。 现在我正在尝试使用此代码编译tesseract-ocr库。 据我所知,我没有在tesseract-ocr和我的代码之间build立链接,这就是为什么我有错误。 所有我想要和search的是,如果我可以在一个文件中使用CMake链接Tesseract和OpenCV ,如果可能的话。 一个教程将是好的,因为我是完全新的Linux。 提前致谢

Tesseract错误。 非法的最小或最大规格

试图从这里运行示例代码http://tess4j.sourceforge.net/codesample.html我有一个错误说 Error: Illegal min or max specification! signal_termination_handler:Error:Signal_termination_handler called:Code 5002 我find了解决scheme,例如https://code.google.com/p/tesseract-ocr/issues/detail?id=228 ppl说设置区域设置足以摆脱错误。 我的问题是,我用Java编写而不是C ++,而且我无法find任何地方如何在代码中设置区域设置,就像他们那样做的那样 #include <locale.h> setlocale (LC_NUMERIC, "C"); 我试图使用setTessVariable(String, String)方法,但它没有工作。 我会提到,我的PDF文件,这是input,是在波兰语言,所以如果有人知道我应该如何设置这些地区,我将不胜感激。 我尝试在Linux x64平台上运行它。

如何在Ubuntu / Linux发行版中安装Tesseract-OCR 3.03?

我和一个朋友对培训CV项目的tesseract-OCR引擎感兴趣。 我们尝试使用PyTesser和Pyocr等一些包装,但是结果目前并不像我们需要的那样精确。 因此,我们希望尝试培训tesseract以更好地执行我们的目的(即识别食品标签上的文本),但在安装培训工具时遇到一些麻烦。 我们已经尝试过了: 在google代码网站上,tesseract的google代码维基上的“编译”页面说,培训工具只在版本3.03上可用。 但是,tesseract-ocr的google代码“下载”页面只有3.02的材料。 “编译”页面底部也有一些关于在Windows和OSX上安装3.03版本的评论,但是对于Linux用户还没有评论。 Ubuntu似乎还有一些3.03的源码包,但我们不确定如何在我们的电脑上访问它,而“编译”页面则说我们需要运行这些命令: make training sudo make training-install 我们还发现了一个关于tesseract 3.03的谷歌小组,但是似乎这些post不包括Linux用户的build议(除非我们在最初的阅读过程中遗漏了某些东西)。 这实际上是一个非常简单的命令行安装问题? 或者,有没有一种方法火车tesseract 3.02(我们目前已经安装)? 我们一直在看错信息的地方吗? 任何意见或指导安装tesseract-ocr 3.03的Linux发行版将不胜感激! 谢谢。

OCR – 使用tesseract 3.0和imagemagick 6.6.5从图像中获取文本

我正在尝试构build一个shell脚本,允许我在图像中search文本。 基于文本,脚本将尽力从图像中获取文本。 我想要你的input,因为这个脚本似乎适用于大多数图像,但不是那些文本字体颜色与文本周围较小环境相似的图像。 # !/bin/bash # # imt-ocr.sh is image magick tessearc OCR tool that is used for finding out text in image # # Arguments: # 1 — image filename (with path) # 2 — text to search in image (default to '') # 3 — occurence of text (default to 1) # Usage: […]

mftraining给出警告:CreateIntTemplates()中没有protos / configs for F

编辑: mftraining在unicharset中的所有字符(所以不只是F,但a,b,c,d等)标题中给出的警告如何创build这些原型/configuration? 我正在学习这个教程 上一个问题现在已经解决了: – 错误:断言失败警告:在文件…. \分类\ trainingsampleset.cpp,行622没有原型/分段错误 这是整个命令+输出: C:\ training> mftraining -F font_properties -U unicharset -O eng.unicharset eng.impact.box.tr警告:没有形状表格文件present:shapetable读取eng.impact.box.tr … Font id = -1 / 0,class id = 1/103 on sample 0 font_id> = 0 && font_id <font_id_map_.SparseSize():Error:Assert failed:in file …. \ classify \ trainingsampleset.cpp,line 622 在unicharset中的所有angular色的标题中,我已经查看了所有可以find的警告,所以不仅仅是F,还有a,b,c,d等)。我不知道问题是什么,什么使它工作。 创build这些原型/configuration? 我也尝试了shapeclustering命令,但是这给了我同样的错误。 另外,当我在cygwin上运行这些时,它显示Segmentation Fault而不是断言错误。

Tesseract + opencv 3.0 + windows,文本模块体积小,链接错误

前两天我在answers.opencv.org发布了这个文本,现在我也在这里发布。 http://answers.opencv.org/question/68634/text-contrib-module-and-tesseract/ 大家下午好。 首先,对不起我的英文呵呵。 我一直在尝试构buildopencv contrib模块的“文本”,但是我还没有成功。 注意:像xfeatures2d的其他模块从来没有给我一个问题。 我的平台是Windows 7 x64,我使用VS2013作为编译器,我已经按照这个教程( http://vorba.ch/2014/tesseract-3.03-vs2013.html )来build立Tesseract 3.04作为LIB,但编译后它成功,我想用cmake生成vproj,问题如下: 在CMake GUI中,之前select了opencv源码,EXTRAS目录等,我没有得到'Tesseract'组设置正确(INCLUDE AND LIBS)下的variables。 我知道它,因为当我点击configuration时,日志说“Tesseract:NO”。 我已经检查了FindTesseract cmake脚本,我认为它不工作…. 请任何人都可以给我一些关于发生什么的线索? 我如何构buildopencv文本模块以使用Tesseract函数? 此外,我试图编译文本模块添加到Tesseract的链接path,但是当我想在我的程序中使用我得到关于未定义符号的链接错误… 这种情况让我困扰了我几天。 有谁在Windows下使用文本模块? 没人能帮助我? 我已经取得了一些进展,现在cmake GUI,我说Tesseract:是的。 问题是我没有find连接leptonica lib的条目,它不在同一Tesseract组中,而是在“未分组条目”中。 好吧,现在问题仍然是一样的,cmake创build的VS解决scheme不能正确地构build文本模块,因为我可以看到Lept lib约为9Mb,而TesseractLib是128Mb(在/ MT和debugging),但是opencv_text300d.lib只有12Mb 。 有些事情是错误的…. 我不确定我必须使用什么tesseract版本。 我有两种组合的traid:liblept168-static-mtdll-debug.lib + libtesseract302-static-debug.lib和liblept171-static-mtdll-debug.lib + libtesseract304-static-debug.lib 当然,当我链接文本模块到我的程序,它给我链接错误。 链接错误如下所示:opencv_text300d.lib(ocr_tesseract.obj):错误LNK2019: unresolved external symbol "public: bool __cdecl tesseract::PageIterator::BoundingBox(enum tesseract::PageIteratorLevel,int *,int *,int *,int *)const […]

在Windows中Tesseract OCR Android

我已阅读所有关于它的问题论坛和博客,但我仍然有一个问题。 首先,我把tess-two作为一个图书馆,我的项目也使用tess-two作为一个图书馆。 我下载了Android-NDK,并从我的项目属性中单击了构build器,然后新build – >程序,然后selectndk的ndk-build文件。 顺便说一下,我的项目是Gautam Gupta的项目。 他给了项目。 链接: https : //github.com/GautamGupta/Simple-Android-OCR 。 当我在手机中运行该项目,应用程序启动并捕获照片,但是当我按下保存然后应用程序给出下面的错误。 http://img.zgserver.com/android&usg=ALkJrhiyVHNyOx5UHzilFjaENe0g_PsdZA/qg0rl.png

如何在没有Visual Studio的Windows上安装leptonica + tesseract以在Anaconda中使用?

我想从图像执行文本识别,我想使用Python。 我安装了Anaconda。 现在我想安装Tesseract,但我也需要安装Leptonica。 我没有find任何明确的指示如何在Windows中做到这一点。 对于Leptonica我不想安装Visual Studio。 那么有没有人可以提供清晰的说明如何安装leptonica和tesseract在没有Visual Studio的Windows在anaconda中使用? 谢谢。

断言失败 – 训练Tesseract

我试图用Serak Tesseract Trainer训练tesseract: https : //code.google.com/p/serak-tesseract-trainer/我不知道为什么在执行Train Tesseract时CMD中发生了下面的错误。 任何帮助? Reading a.tr … Font id = -1/0, class id = 1/46 on sample 0 font_id >= 0 && font_id < font_id_map_.SparseSize():Error:Assert failed:in file ..\classify\trainingsampleset.cpp, line 622