mftraining给出警告:CreateIntTemplates()中没有protos / configs for F

编辑: mftraining在unicharset中的所有字符(所以不只是F,但a,b,c,d等)标题中给出的警告如何创build这些原型/configuration?

我正在学习这个教程


上一个问题现在已经解决了: –
错误:断言失败警告:在文件…. \分类\ trainingsampleset.cpp,行622没有原型/分段错误
这是整个命令+输出:

C:\ training> mftraining -F font_properties -U unicharset -O eng.unicharset eng.impact.box.tr警告:没有形状表格文件present:shapetable读取eng.impact.box.tr … Font id = -1 / 0,class id = 1/103 on sample 0 font_id> = 0 && font_id <font_id_map_.SparseSize():Error:Assert failed:in file …. \ classify \ trainingsampleset.cpp,line 622

在unicharset中的所有angular色的标题中,我已经查看了所有可以find的警告,所以不仅仅是F,还有a,b,c,d等)。我不知道问题是什么,什么使它工作。 创build这些原型/configuration?

我也尝试了shapeclustering命令,但是这给了我同样的错误。 另外,当我在cygwin上运行这些时,它显示Segmentation Fault而不是断言错误。

我和你有同样的问题。 这是因为font_properties格式不正确。

font_properties文件的每一行格式如下:fontname italic bold fixed serif fraktur

这里只需要fontname。 当我将文件从lang.fontname.exp0 0 0 0 0 0更改为fontname 0 0 0 0 0,我的问题修复

我遇到了同样的问题,这确实是一个font_properties的问题。 但是,就我而言,通过确保font_properties中的字体完全匹配.tr文件中的字体名称来解决此问题。 在我的情况下,这是[fontname] .exp0。

我发现了这个问题的两个可能的原因。

可能的原因1:不正确的font_properties

font_properties文件应该包含以下内容:

https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02#font_properties-new-in-301

并且文件编码应该满足以下要求:

https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02#requirements-for-text-input-files

这是互联网上最常见的答案。

(还要确保在font_properties中指定字体,而不是语言。)

可能的原因2:错误的训练文件名称

然而,我发现试图修复font_properties不适合我,并发现另一个原因,在我的情况下给出了相同的错误。

文件.tr文件必须包含以下格式:

 <language>.<fontname>.exp<num>.tr 

并不是:

 <language>.<fontname>.exp<num>.box.tr 

(如在一些教程中看到的)

所以在我的情况下,这是行不通的:

 tesseract eng.unknown.exp1.png eng.unknown.exp1.box nobatch box.train unicharset_extractor eng.unknown.exp1.box mftraining -F font_properties -U unicharset -O eng.unicharset eng.unknown.exp1.box.tr 

而这个小小的变化确实有效:

 tesseract eng.unknown.exp1.png eng.unknown.exp1 nobatch box.train unicharset_extractor eng.unknown.exp1.box mftraining -F font_properties -U unicharset -O eng.unicharset eng.unknown.exp1.tr 

您错过了在Tesseract 3.02培训中新增的Shapeclustering步骤。

我有同样的问题和变化

  fontname 0 0 0 0 0 

  fontname.exp0 0 0 0 0 0 

根据.tr文件中的字体名修复它

我有同样的问题,并更改font_properties如下修复它:

来自 – batangche 1 0 0 0 0

to – batangche.exp0 1 0 0 0 0

在我的情况下,font_properties文件中的字体名称是大写字母,.tr文件中的字体名称是小写字母。 改变他们到同一个案件解决了问题。