将扫描版PDF转换成文本文档
前段时间发表过一篇:免费将PDF转成Word,对于绝大多数PDF文档而言,该方法都是非常适用的。但最近Striver在写毕业论文,绝大多数参考资料都是将杂志上面的文章扫描后制成PDF。对于这种文档,即使用以前的方法将其转换成了Word,结果还是图片格式,根本无法编辑。
经过一番折腾,找到了比较好的解决方案–OCR识别。
什么是OCR?
OCR是英文Optical Character Recognition的缩写,意思是光学字符识别,也可简单地称为文字识别,是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取纸张上的文字图像信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,所以,OCR是一种非常快捷、省力的文字输入方式,也是在文字量比较大的今天,很受人们欢迎的一种输入方式。
Striver对OCR的形象理解
将一张纸扫描成图片,然后OCR可以读懂这张纸上的文字内容,并将内容以文本的形式输出。OCR方便的地方在于,省略了咱们将纸上文字输入电脑的辛苦过程。
怎样利用OCR来实现PDF转换成文本?
首先要下载并安装OCR工具
我用过的还比较可以的是汉王PDF OCR V8.1,免费的软件,在各大下载站都可以下载。
然后将扫描版的PDF导入到该软件,进行转换即可。
PS:最近新发现ADOBE ACROBAT 9 PRO版同样也具有OCR识别功能,而且识别效果非常地好,个人试用后认为比汉王PDF OCR V8.1强。不过它是商业软件,有兴趣的朋友自己百度下载。
OCR应用与不足
不得不说,OCR是极大的方便了我们,减少了向电脑输入文字的痛苦。但同时OCR也存在着有时不能正确识别的问题,尤其是扫描的文档清晰度不高时,这种情况非常严重。———————————————————————————————————————
本作品采用知识共享署名-非商业性使用-相同方式共享 2.5中国大陆许可协议进行许可。
原创文章,转载请注明:转载自Idealand
本文链接地址:将扫描版PDF转换成文本文档
———————————————————————————————————————
相关日志
您可以RSS 2.0订阅。 留言,或者引用 Trackback。
