Tesseract的安装测试使用

ocr开源项目很多，给大家一个链接，这个链接列出了现有的比较出名的ocr开源项目，链接如下：
https://en.wikipedia.org/wiki/comparison_of_optical_character_recognition_software
从上面的排名可以看到，tesseract是排在第一名的！所以下面就认真学习一下tesseract。首先介绍一下tesseract，然后安装，测试，了解其不足等等。
tesseract的ocr引擎目前已作为开源项目发布在google project，
其项目主页在这里查看https://github.com/tesseract-ocr，
它支持中文ocr，并提供了一个命令行工具。python中对应的包是
pytesseract. 通过这个工具我们可以识别图片上的文字。
一 tesseract的安装测试使用
首先下载tesseract在windows下的安装版。(因为在国外访问不了谷歌，所以别人翻墙下载了下来，这里给大家百度网盘链接)
http://pan.baidu.com/s/1i56uxlr
根据https://github.com/tesseract-ocr/tesseract/wiki，找到非官方的安装包，好像只看到64位的安装包http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe，下载后直接安装即可，但是要记得你的安装目录，我们等会配置环境变量要用。
如果不是做英文的图文识别，还需要下载其他语言的识别包https://github.com/tesseract-ocr/tesseract/wiki/data-files。
简体字识别包：https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata
繁体字识别包：https://github.com/tesseract-ocr/tessdata/raw/4.0/chi_tra.traineddata
1.3 安装tesseract
下载tesseract-ocr引擎，注意要3.0以上才支持中文哦，按照提示安装就行。（此处附上windows 4.0的安装过程）
既然是要训练中文，记得勾选 additional language data
找到中文简体和中文繁体，按需勾选，然后点下一步
可以先不勾选，因为这样直接下载语言的包实在太慢。可以从网页上直接下载语言包,然后等程序安装好后，放入安装目录下tessdata目录下面
下载下来之后一路next安装好，然后在开始菜单找到其控制台引导程序，如下图所示
1.4 测试英文字符识别
上面的安装包里自带了已经训练好的英文-拉丁文识别数据~所以我们先来测试一下英文字符的识别吧~识别图像如下：
1.4.1把上面的图片放到tesseract的安装目录下，如下图所示：
1.4.2打开上面提到的控制台窗口，如下图所示：
1.4.3在窗口中输入命令：“tesseract.exe 0.jpg 1”，并回车，如下图所示：
01.jpg代表待识别的源文件，1代表输出文件名，默认输出格式是txt文件格式！
注意，上面的 lang之前是-l 而不是-1！
1.4.4让我们先查看一下01.jpg照片，如下图：
1.4.5在安装目录下生成了1.txt文件，识别结果如下图所示：

ADI推出业界最快的18位SAR模数转换器AD7960
数码印像机的控制面板/存储卡
物联网原型开发，如何能够“快”起来？
稳压二极管的重难点分析
苹果新专利：可穿戴计算设备类似谷歌眼镜
Tesseract的安装测试使用
酷派Legacy 5G正式亮相该机搭载骁龙765G处理器和4000mAh电池
手机电池正确使用方法及注意事项详解
简要介绍汽油机缸内直喷技术的功能和作用
基于S3C2410A和nRF401芯片实现多床位遥测心电监护仪的设计
当ToF像素遇到摩尔定律如何发展？
AI科技嘉年华在上海世博展览馆中厅舞台区精彩上演
[组图]直流电机控制电路专辑—6
高压平流泵控制系统的设计与实现
两款激光二极管恒功率驱动电路
缺芯之殇：小米6或将推迟发布
酒精传感器可以防止酒后驾驶造成不必要的交通事故
中国铁塔通过IPO融资100亿美元将对IPO的投资者需求进行评估
目前的智能家居是否是人们所需求的
意法半导体智能工业产品组合资料手册