01/20
2016
今天早上一同事拿了一本书过来,说是主任要他把整本书上的文字打出来做成word文档。16开的书,600张页面,给他10天时间。好吧这不是槽点,槽点是我们这里根本没有人是打字员,也没有文员,你让一普通员工去打一本书出来,是不是脑子进水了——不过这还真是主任的一贯风格。
这时我打算用ocr软件来帮他解脱。首先我用手机拍了书中的一页,然后把照片用在线ocr工具和OneNote都试了试,但是由于照片质量较差,转换结果不能令人满意。后来去搜这本书的电子书版,只找到了pdf版——如果找到了txt版,你懂得。
不过有pdf已经很好了,等于别人帮我们拍好照片了,我们只需要转换成文字就行了。把pdf导出为png图片,然后用OneNote转换(OneNote也只能一张一张转换,不能多选转换)。
截取一张图片的局部如下: