编辑: mftraining在unicharset中的所有字符(所以不只是F,但a,b,c,d等)标题中给出的警告如何创build这些原型/configuration?
我正在学习这个教程
上一个问题现在已经解决了: –
错误:断言失败警告:在文件…. \分类\ trainingsampleset.cpp,行622没有原型/分段错误
这是整个命令+输出:
C:\ training> mftraining -F font_properties -U unicharset -O eng.unicharset eng.impact.box.tr警告:没有形状表格文件present:shapetable读取eng.impact.box.tr … Font id = -1 / 0,class id = 1/103 on sample 0 font_id> = 0 && font_id <font_id_map_.SparseSize():Error:Assert failed:in file …. \ classify \ trainingsampleset.cpp,line 622
在unicharset中的所有angular色的标题中,我已经查看了所有可以find的警告,所以不仅仅是F,还有a,b,c,d等)。我不知道问题是什么,什么使它工作。 创build这些原型/configuration?
我也尝试了shapeclustering命令,但是这给了我同样的错误。 另外,当我在cygwin上运行这些时,它显示Segmentation Fault而不是断言错误。
我和你有同样的问题。 这是因为font_properties格式不正确。
font_properties文件的每一行格式如下:fontname italic bold fixed serif fraktur
这里只需要fontname。 当我将文件从lang.fontname.exp0 0 0 0 0 0更改为fontname 0 0 0 0 0,我的问题修复
我遇到了同样的问题,这确实是一个font_properties的问题。 但是,就我而言,通过确保font_properties中的字体完全匹配.tr文件中的字体名称来解决此问题。 在我的情况下,这是[fontname] .exp0。
我发现了这个问题的两个可能的原因。
font_properties文件应该包含以下内容:
并且文件编码应该满足以下要求:
这是互联网上最常见的答案。
(还要确保在font_properties中指定字体,而不是语言。)
然而,我发现试图修复font_properties不适合我,并发现另一个原因,在我的情况下给出了相同的错误。
文件.tr文件必须包含以下格式:
<language>.<fontname>.exp<num>.tr
并不是:
<language>.<fontname>.exp<num>.box.tr
(如在一些教程中看到的)
所以在我的情况下,这是行不通的:
tesseract eng.unknown.exp1.png eng.unknown.exp1.box nobatch box.train unicharset_extractor eng.unknown.exp1.box mftraining -F font_properties -U unicharset -O eng.unicharset eng.unknown.exp1.box.tr
而这个小小的变化确实有效:
tesseract eng.unknown.exp1.png eng.unknown.exp1 nobatch box.train unicharset_extractor eng.unknown.exp1.box mftraining -F font_properties -U unicharset -O eng.unicharset eng.unknown.exp1.tr
您错过了在Tesseract 3.02培训中新增的Shapeclustering步骤。
我有同样的问题和变化
fontname 0 0 0 0 0
至
fontname.exp0 0 0 0 0 0
根据.tr文件中的字体名修复它
我有同样的问题,并更改font_properties
如下修复它:
来自 – batangche 1 0 0 0 0
to – batangche.exp0 1 0 0 0 0
在我的情况下,font_properties文件中的字体名称是大写字母,.tr文件中的字体名称是小写字母。 改变他们到同一个案件解决了问题。