Saber 酱的抱枕

Fly me to the moon

01/20
2016
软件

使用OCR软件复制图片上的文字

今天早上一同事拿了一本书过来,说是主任要他把整本书上的文字打出来做成word文档。16开的书,600张页面,给他10天时间。好吧这不是槽点,槽点是我们这里根本没有人是打字员,也没有文员,你让一普通员工去打一本书出来,是不是脑子进水了——不过这还真是主任的一贯风格。

这时我打算用ocr软件来帮他解脱。首先我用手机拍了书中的一页,然后把照片用在线ocr工具和OneNote都试了试,但是由于照片质量较差,转换结果不能令人满意。后来去搜这本书的电子书版,只找到了pdf版——如果找到了txt版,你懂得。

不过有pdf已经很好了,等于别人帮我们拍好照片了,我们只需要转换成文字就行了。把pdf导出为png图片,然后用OneNote转换(OneNote也只能一张一张转换,不能多选转换)。

截取一张图片的局部如下:

OneNote的ocr识别图片上的文字

粘贴到OneNote里,右键复制图片上的文字:

OneNote的ocr识别图片上的文字

然后粘贴到word里面:

OneNote的ocr识别图片上的文字

此时工作并没有结束,首先是段落问题,OneNote会把图片上每一行字当做一个段落,所以段落格式我们需要自己调整。然后是错别字的问题,比较模糊的字、特殊符号等可能识别错误,需要校对。

之后文字怎么整理就看自己的需要了。

图片上的文字越清晰越好,如果用word里那样清晰的文字再去转换,基本上不会出错。

最后推荐一个在线ocr识别工具,可将图片上的文字识别并保存为pdf或word文档下载。它有一个好,就是对段落的识别是正确的。但是在线转换工具效率普遍不高。这个工具提供了批量转换功能,但是要付费,而且它的转换也是一张张分开转换的,不知道最后能不能合并到一起。

使用OCR软件复制图片上的文字