博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python:tesserocr 在 windows 下的安装及简单使用
阅读量:5458 次
发布时间:2019-06-15

本文共 849 字,大约阅读时间需要 2 分钟。

tesserocr 是 python 的一个 OCR 库,它是对 tesseract 做的一层 Python API 封装,所以他的核心是tesseract。

tesseract 的安装见 

 

windows 下安装 tesserocr 是一个坑爹的事情,直接用 pip 安装是不可以的,会报错,只能用 .whl 的方式安装。据说 pip 的方式只能用于 Linux 系统,没验证过。

whl 下载地址:

网站中列出了 tesserocr 和 tesseract 版本的对应关系,选择对应的版本,否则会出现非预期字符。

 

安装 whl 时要注意几个问题。

1、报如下错误:

报这个错误的原因是改动了python 的目录名称或位置。我用 pycharm 每个项目都是单独的配置,并且我改动过了项目名称导致了这个问题。

解决办法:找到修改 python 所在的目录,打开 scripts 目录,找到 pip-script.py 文件,将第一行的路径改正确了就可以了。

2、python3.6 默认自带的 pip 版本是9.0.1,版本太低,需要升级。升级后,pip-script.py 文件中的版本号也要更改,否则依然认为你没更新。

3、当路径中包含中文时,可能会出现编码问题。

这个问题比较奇怪,中文路径可以肯定的是允许的,实际验证过,应该是 pip-script.py 的文件编码问题,但是我尝试了更改编码方式,也不行。这问题目前有两个解决方案,一是把路径改成英文的,二是从别的可以包含中文路径的地方把 pip-script.py 拷过来改。

 

安装完成后就可以使用了,示例如下:

import tesserocrfrom PIL import Imageimg = Image.open('1.png')result = tesserocr.image_to_text(img)print(result)

 

 

 

转载于:https://www.cnblogs.com/gl1573/p/9894401.html

你可能感兴趣的文章
Liunx Shell入门
查看>>
C++ 总结
查看>>
poj2593 Max Sequence(两个不相交字段的最大总和与)
查看>>
Mustache 使用心得总结
查看>>
BZOJ 3224: Tyvj 1728 普通平衡树
查看>>
基于PCA的人脸识别步骤
查看>>
perl学习(2) 基本数据类型等
查看>>
组队练习赛(Regionals 2012, North America - East Central NA)
查看>>
libevent源码剖析
查看>>
第24条:将类的实现代码分散到便于管理的数个分类之中
查看>>
LINQ-进行数据转换
查看>>
Yii 事件行为的过程详解(未完待续。。)
查看>>
Solr与MongoDB集成,实时增量索引[转]
查看>>
最长不下降子序列的O(n*logn)算法
查看>>
设计模式(十七)——模板方法模式
查看>>
uva 10954 Add All
查看>>
如何让你的 Asp.Net Web Api 接口,拥抱支持跨域访问。
查看>>
ArcGIS Server 10.1 错误 service failed to start,
查看>>
MYSQL中case when then else end 用法
查看>>
C语言::模拟实现strlen函数
查看>>