Ubuntu环境下安装使用tesseract-ocr的方法及命令-Ubuntu-中存储网

2014-12-20 00:00:00

来源
中存储网

Ubuntu

tesseract-ocr是开源的光学字符识别引擎，有Google的支持，支持很多种语言的识别，下面说一下我在Ubuntu下安装步骤。其实官方文档上说的很细，下面列出其中的命令， sudo apt-get install autoconf automake libtool sudo apt-get install libpng12-dev sud

tesseract-ocr是开源的光学字符识别引擎，有Google的支持，支持很多种语言的识别，接下来说一下中存储在Ubuntu下安装步骤。

其实官方文档上说的很细，接下来列出其中的命令，

sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev

注意最后一个zlib1g-dev中的1g是数字1，而不是小写字母l,

sudo apt-get install libleptonica-dev

下载源文件包解压（当前是3.0），进入目录

./runautoconf
./configure
make
sudo make install

下载语言数据包解压：你可以在这找到更多的语言包

gzip -d eng.traineddata.gz

移动到数据包安装目录下，默认为 /usr/local/share/tessdata

mv eng.traineddata /usr/local/share/tessdata

export TESSDATA_PREFIX=/usr/local/share/

安装图片格式转换工具，因为tesseract只识别tif格式的图片。

apt-get install imagemagick

你可以使用接下来的Linux命令转换图片

convert a.jpg a.tif

好了，测试一下吧

tesseract <image> <outputbasename> [-l lang] [configs]

tesseract a.tif a

默认为英语，一旦你要识别其它语言请使用-l 参数指定，如

tesseract a.tif a -l chi_sim

cat a.txt

你将会看到识别出的文字，太棒了。好了，接下来就可以用程序去调用识别文字了，
对于java你也可以使用tess4j封装的API，对于PHP你可以使用exec调用再对文件进行处理，

一旦你遇到 lib **.so 找不到请运行

sudo ldconfig

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

Ubuntu环境下安装使用tesseract-ocr的方法及命令

实战Ubuntu完美文件备份（11.04测试通过）的安装和配置过程

如何在Ubuntu安装MeeGo开发环境SDK？

Ubuntu 11.04下设置支持DVD播放的方法及命令

Ubuntu 11.04 Natty升级到11.10 Oneiric Alpha 1的方法及命令

分享Ubuntu11.04下安装VirtualBox 4.0.1虚拟Windows 7系统

科技要闻

甲骨文副总裁撰文痛批拜登政府即将推出的AI扩散禁令

2025 年量子计算 — 是否正在转折？

中信重工：公司自主研发建设了矿山装备工业互联网平台

江西：工业互联网平台赋能中小企业数字化转型倡议

走向全球！“重庆造”将亮相CES 2025

Ubuntu环境下安装使用tesseract-ocr的方法及命令

相关推荐

科技要闻