购买了扫描仪,你一定会发现,附赠的软件中有中英文OCR识别软件,当然一般都是基础版.很多人认为此类OCR的识别率不是很高,甚至怀疑只有那些正版的数千元的OCR软件其识别率才很高.其实,你只要注意使用技巧,此类OCR的识别率完全可达实用化水平.
1.处理原稿扫描图像,使之清晰可”辨”.在其它因素都满足的前提下,对一般的印刷稿,打印稿(包括清晰的针打稿)等质量较好的文稿进行识别,其识别率一般可达到98%以上.而对报纸,复印件等不太清晰的文稿进行识别,无论哪种OCR都难以达到较高的识别率.对那些原稿不太清晰的,要注意识别前对图像加以处理,除去其上的污迹.并注意将偏斜的版面”改斜归正”,OCR一般都设有自动纠偏和手动纠偏,作版面分析和倾斜校正。
以尚书OCR为例,其版面分析把文稿分为横排正文、竖排正文、表格和图形图像四种类型。在版面上按住鼠标左键沿对角线拖出一块矩形区域,并选择相应的类型。尚书OCR只对前三种类型作文字识别,对第四种类型和划定区域以外不作识别。尚书OCR允许文稿有细微的倾斜,但倾斜得太厉害了就要作倾斜校正。校正的方法是,按住鼠标右键拖出直线使之平行于倾斜的文本,这样,识别软件会自动地将文本放正。标准版的尚书OCR 提供了自动的版面分析和倾斜校正,但笔者发现,它对复杂的版面的分析往往不太准确,需要再作人工的矫正。
2.分辨率应选择适宜.一般选择300dpi较合适,分辨率选小了会使识别率降低,选得太大了并不能有效提高识别率,还会大幅度加长文件长度,浪费处理时间.有的扫描软件设备上有一项”OCR扫描”,干脆将分辨率锁定为300dpi,这是很有道理的.
3.调整好亮度值和对比度值.这条非常关键,对识别率的影响很大.选择合适的扫描分辨率:不求最“高”,只求最“佳”。
亮度值的调整是在识别前,先看看扫描得到的图像中文字质量如何,如果文字线条凹凸不平,甚至有断线,说明亮度值太大了,应减小亮度值;当文字线条很黑很粗,甚至挤成了黑疙瘩,分不清笔划时,则说明亮度值太小了,应增加亮度值;对比度的调节要视原稿确定。
根据经验,普通五号印刷体采用250~300dpi比较合适;若字号比较大(四号以上),用150~200dpi就足够了;如果是六号或七号字,就要考虑使用400~600dpi了。当然,这也不是绝对的,如果印刷字迹比较模煳,或者笔划较多的识别文本,应适当提高扫描的分辨率。提供一个公式供参考:文件长度(字节)=(水平尺寸×垂直尺寸×扫描分辨率)/8 。
4.利用OCR的自学习功能.有时OCR对某些字总是难以识别,比如OCR开始对”的”和”二”等字总是搞错,这时可以利用OCR软件的自学习功能,”引导”它正确识别一次(有些不同的字体各需一次),它以后就对这些字”熟识”了.具体操作极易,上机看一下菜单即可明白.另外,若原稿全是英文或其中中文很少,最好用附赠的英文OCR软件.还有,现在已有一些很好的文字校对软件,其中一般都设置了OCR校对,利用这些软件先行处理一下所得文本文件,则可大大减轻人工校对负担.