/ 中存储网

Ubuntu环境下安装使用tesseract-ocr的方法及命令

2014-12-20 00:00:00 来源:中存储网

tesseract-ocr是开源的光学字符识别引擎,有Google的支持,支持很多种语言的识别,接下来说一下中存储在Ubuntu下安装步骤。

其实官方文档上说的很细,接下来列出其中的命令,

sudo apt-get install autoconf automake libtool 
sudo apt-get install libpng12-dev 
sudo apt-get install libjpeg62-dev 
sudo apt-get install libtiff4-dev 
sudo apt-get install zlib1g-dev 

注意最后一个zlib1g-dev中的1g是数字1,而不是小写字母l,

sudo apt-get install libleptonica-dev

下载源文件包解压(当前是3.0),进入目录

./runautoconf 
./configure 
make 
sudo make install 

下载语言数据包解压:你可以在这找到更多的语言包

gzip -d eng.traineddata.gz 

移动到数据包安装目录下,默认为 /usr/local/share/tessdata

mv eng.traineddata /usr/local/share/tessdata 
     
export TESSDATA_PREFIX=/usr/local/share/ 

安装图片格式转换工具,因为tesseract只识别tif格式的图片。

apt-get install imagemagick 

你可以使用接下来的Linux命令转换图片

convert a.jpg a.tif 

好了,测试一下吧

tesseract <image> <outputbasename> [-l lang] [configs] 
     
tesseract a.tif a 

默认为英语,一旦你要识别其它语言请使用-l 参数指定,如

tesseract a.tif a -l chi_sim 
     
cat a.txt

你将会看到识别出的文字,太棒了。好了,接下来就可以用程序去调用识别文字了,
对于java你也可以使用tess4j封装的API,对于PHP你可以使用exec调用再对文件进行处理,

一旦你遇到 lib **.so 找不到请运行

sudo ldconfig