首页 技术 正文
技术 2022年11月20日
0 收藏 347 点赞 3,973 浏览 1880 个字

刚接触,啥子都不会,按着教程走

需求:识别图片中的文字信息
环境:windows系统

开发语言:python3.5

使用工具类:1.pyocr
      2.PIL
      3.tesseract-ocr

步骤:

1.pyocr

网络通直接使用命令:
pip install pyocr

网络不通,转至https://pypi.python.org/pypi/pyocr/0.4.1下载安装

2.安装pil(一直没安装成功,好像没有对应的3.5的版本,要2.X的才行,不过这个可以跳过,不安装)
网络通直接使用命令:
pip install PIL

网络不通,转至http://www.pythonware.com/products/pil/index.htm下载安装

3.安装tesseract-ocr

http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe

exe文件,下载后直接安装,建议默认安装过程中的选项,安装目录默认C:\Program Files
(x86)\Tesseract-OCR

# coding=utf-8
__author__ = 'yjj'#https://github.com/tesseract-ocr
import sys
import importlib
#reload(sys)
importlib.reload(sys);
#sys.setdefaultencoding('utf-8')import os;
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'
try:
from pyocr import pyocr
from PIL import Image
except ImportError:
print('模块导入错误,请使用pip安装,pytesseract依赖以下库:')
print('http://www.lfd.uci.edu/~gohlke/pythonlibs/#pil')
print('http://code.google.com/p/tesseract-ocr/')
raise SystemExit
tools = pyocr.get_available_tools()[:]
if len(tools) == 0:
print("No OCR tool found")
sys.exit(1)
print("Using '%s'" % (tools[0].get_name()))
print(tools[0].image_to_string(Image.open('D:\\123.png'),lang='eng'))
print(tools[0].image_to_string(Image.open('D:\\3434.png'),lang='chi_sim'))
#print tools[0].image_to_string(Image.open('D:\\3535.png'),lang='chi_sim')

文件内容:(把图片放在D盘)

123.png

OCR识别-python3.5版

3434.png

OCR识别-python3.5版

输出:

Using ‘Tesseract (sh)’
7364
求i只另U眈R第 1代

在整个过程中可能会遇到的问题

1.(有时候重新启动编译软件,错都不算什么了,奇怪的是没有错了,我就是这样)如果控制台直接输出:“No OCR tool found”,说明未成功安装tesseract-ocr,debug查看get_available_tools,在该方法中回去查看本机已经安装有的ocr识别库,有三种,

libtesseract,
tesseract,
cuneiform,

本文使用的是第二种tesseract,

tesseract具体安装请转至。

2.在识别带中文的图片,会遇到报“allow_blob_division”的错误,

需要下载tesseract-ocr的中文库,地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-3.02.chi_sim.tar.gz/download,里面包含tesseract多有的文字库,chi_sim.traineddata为简体中文库,将该文件放至C:\Program
Files
(x86)\Tesseract-OCR\tessdata目录下接下来的具体处理方法,转至:https://www.cnblogs.com/syqlp/p/5462459.html

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,104
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,580
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,428
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,200
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,835
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,918