首页 技术 正文
技术 2022年11月20日
0 收藏 585 点赞 3,630 浏览 1225 个字

最近用OCR识别身份证,用的tesseract引擎。但是google自带的中文库是在太慢了,尤其是对于性别、民族这样结果可以穷举的特征信息而言,完全可以自己训练字库。自己训练字库不仅可以提高识别速度,而且可以提高识别精度!

在训练过程中,常见的error有以下几种:

1)index >= 0 && index<size_used_:Error:Assert failed in genericvector.h, line 512

原因:检查一下训练后type 13的数值。如果为0,说明shapetable没有配置进去。 2)empty page原因:版面分析没有做好,没有找到字符。最好手动设置以下版面格式。如:

-psm 7 单行模式-psm 10 单字符模式 3)用的时候找不到语言包

原因:自己训练完的语言数据要放在../tessdata中,因为tesseract源码里把这个文件路径写进环境变量里了! 4)fail to load font_properties原因:有些教程没有加.txt。需要写成font_properties.txt这样的格式。 ——————————训练——————————————————————-1、图片命名规则:lang.fond.exp0.jpg 2、生成box文件:tesseract chi.test.exp0.jpg chi.test.exp0 batch.nochop makebox 3、用jTessBoxEditor校正文字 4、生成tr文件:tesseract chi.test.exp0.jpg chi.test.exp0 box.train 5、生成unicharset文件:unicharset_extractor chi.test.exp0.box 6、新建字体特征文件font_properties不含有BOM头,文件内容格式如<fontname> <italic> <bold> <fixed> <serif> <fraktur>  font_properties 文件内容为test 0 0 0 0 0 7、生成shapetable文件shapeclustering -F font_properties -U unicharset chi.test.exp0.tr 8、生成chi.unicharset inttemp文件mftraining -F font_properties -U unicharset -O chi.unicharset chi.test.exp0.tr 9、生成normproto文件cntraining chi.test.exp0.tr 10、合并文件在inttemp normproto pffmtable shapetable加上前缀chi.运行combine_tessdata chi.

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:8,997
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,511
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,356
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,139
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,770
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,848