告诉你Ubuntu下的ocr文字识别（pdf、tif等）的方法及命令-Ubuntu-中存储网

2015-04-22 12:19:27

来源
中存储网

Ubuntu

平时使用扫描件或者pdf查看文档，但是在ipad上当文字比较小的时候不能有效放大，过着每次阅读需要移动屏幕，十分不方便，为此想将pdf或者图片中的文字截取出来，可以有效处理，当然需要ocr技术了，现在我们就来考虑和解决这个问题。 1、技术准备 os为 linux

平时使用扫描件或者pdf查看文档，但是在ipad上当文字比较小的时候不能有效放大，过着每次阅读需要移动屏幕，十分不方便，为此想将pdf或者图片中的文字截取出来，可以有效处理，当然需要ocr技术了，现在大家就来考虑和解决这个问题。

1、技术准备

os为 linux mint 13(基于Ubuntu 12.04的）

ocr软件：tesseract，执行文件为tesseract

gocr

pdf处理软件：pdftoxxx，比如pdftotext等

tiff处理如案件：比如tiff2pdf等等

2、安装软件

sudo apt-get install gocr

sudo apt-get install tesseract-ocr

sudo apt-get install libtiff-tools

对于tesseract需要设置语言包，可以在观望上下载具体中文语言包，比如简体的就是chi_sim,然后加入到一个环境变量中

mv chi_sim.traineddata /usr/local/share/tessdata

export TESSDATA_PREFIX=/usr/local/share/

3、tif文件转文字 tif-->text

直接使用tesseract即可，如下：

tesseract a.tif a.txt -l chi_sim

以上支持多页单文件tif

4、pdf文件转文字 pdf-->text

一旦pdf本来就是文字格式的，那么很简单，直接转换即可

pdftotext a.pdf a.txt

一旦pdf内部内容是图片，则无法通过以上方法去的内容，首相将pdf转换成为ppm，然后从ppm装换为文字：pdf-->多个ppm-->多个txt

pdf2ppm a.pdf a

产生a1.ppm，a2.ppm.....

然后通过tesseract转换

tesseract a1.tif a1.txt -l chi_sim

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

告诉你Ubuntu下的ocr文字识别（pdf、tif等）的方法及命令