PDF的无缝OCR

Fri 07 December 2007
By lewix

::: {#msgcns!BAC70107D054E892!307 .bvMsg} 今天打开一个图形形式的PDF(估计是扫描版的)时,习惯性的用Select Tool,发现选取不了,突然感觉很不习惯……

其实我是知道这一点的,但是,就好像是被洗脑了一样:

前几天,开了一个风格很类似这种扫描版,从eMule下载的PDF,有黑边,字体很模糊,排版甚至也是斜的,但这个PDF却可以用select tool选取,可以Ctrl-C、Ctrl-V,还可以金山词霸选词。这倒也没什么,顶多算是做该PDF的那个哥们有自己的个人习惯吧。

可是貌似当天晚上,迷迷糊糊的有个梦,给了我这样一个解释。说是那个PDF实际上就是扫描版的,AcroBat7有了新功能,可以无缝的对PDF进行OCR,然后可以提供文本形式的信息,方便提取和处理。

恩,不错,很好的功能,记住了。。。

然后回到现实世界……

就这么回事。但是,要有牛人开发一个可以OCR的PDF软件就好了。。。

ps:再次打开那个“伪”扫描版,突然有了个真正的解释:难道这是从传说中的Google Books上提取的?

可惜Google Books在这边很不稳定啊,时不时的被“和谐”。(?但愿只是我个人网络问题,)

再PS:发现自己可能想错了,Acrobat貌似已经有OCR功能,而且挺好用的,只是,唯一的,也是最大的问题是,没有中文OCR支持。。。 :::