下面详细介绍如何用尚书七号OCR软件做好文字识别工作:
一、获取图像
有两种方式获取图像,扫描图像或打开计算机中已经存在的图像文件。本系统支持24位彩色、256级灰度和二值黑白图像。
1.扫描图像之前应设置好保存扫描图像文件的路径、图像文件名、图像文件名后缀。设置图像路径,可以直接单击“扫描到”按钮,在浏览路径窗口中选定存放图像的文件夹。
2.单击工具栏上的 按钮或单击“文件”菜单中的“扫描”命令,通过扫描仪开始批量扫描文件;单击工具栏上的 按钮(如果已经扫描好的图像文件,可以点击按钮直接打开图像),此时就会自动调出默认的扫描软件,设置好参数(建议分辨率在300以上)后开始扫描。
二、图像预处理
为提高识别率,对扫描后的图像进行图像反白,自动倾斜校正,调整边框,去噪音(如麻点、下划线等),表格画线等处理。
在进行“倾斜校正”时,可按下工具栏的最下面的一个“图像倾斜校正”工具按钮。系统会自动弹出一个对话框,提示需要校正的角度,此时按下“是”按钮,系统就给予图片做水平的倾斜校正。在此需要特别注意,“自动倾斜校正功能”只能对原稿做±2.8度的倾角的校正,如果原稿的倾斜角度大于2.8度,系统会建议用户重新扫描稿件,以提高识别率。
三、版面分析
1.自动分析:单击工具栏中的按钮,或单击“识别”菜单中的“版面分析”命令,自动对图像的版面布局、内容进行分析理解,切分图像页,判别图像框的版面属性(横栏、竖栏、表格、图像),并以不同颜色的线框标识图像框属性。对分析错误的版面可以手动调整,方法为,先以鼠标选中需要调整的版面块,再调整版面块的边框改变大小,或单击工具栏上的属性按钮(横栏、竖栏、表格、图像)改变该版面块属性。
2.手动分析:手动分析时,只要在图像中的文字块按照文章的先后,分别拖出选择框,如下图的文章,实际是分成两个栏目进行阅读的,所以在设定识别区域的时候,注意需要将这个两个栏目分别圈定,也就是设定两个识别区域(如图所示)。同时,对于一些文字稿件,如果在中间插有图片的时候,建议采用绕开的方式,对所环绕的文字分别进行识别区域的设定。此外,对于表格类的图片,为了将标题栏也能识别进去,建议将表格部分整个框选,同时标题作为一个单独的框选区域。
四、识别图像
单击按钮或单击“识别”菜单中的“开始识别”命令,按照版面属性(横栏、竖栏、表格、图像),自动对图像文件管理器选择的图像进行批量识别,识别后的文字会显示在窗口的上方。
五、文字校对
通过对比识别结果文本和原图像,以发现识别错误的文字。可信度不高的文字软件会用醒目的颜色标出的,此时点击这些文字,窗口中的图像会自动移动至相应位置,就可方便地进行校对,要修正时,直接输入正确的字就可以了。
六、文件存盘
单击“输出”菜单中的“到指定格式文件”命令,将识别并修改好的文本输出、可以保存成可供计算机阅读和查询检索的RTF、HTML、XLS、TXT 格式的电子文档。
建议用户一般可选择Text(纯文本)格式保存,因为这种格式可以用几乎所有文档编辑器打开;如果用户进行表格识别,识别结果可以选择保存为V格式,这样用EXCEL就能够直接打开;而HTML格式是针对网页设计使用的,用IE等网络浏览器或网页编辑器可以打开。
七、一些使用技巧
1.如果用户从光盘上复制图像及数据进行进行处理,务必先将这些文件的只读属性去掉。
2.处理纯英文文档时,识别语言选项设定为“简体”、“简繁”、“英文”都可以,但设定为“英文”识别效果最好;当处理含有繁体字的文档时,语言选项应设定为“简繁”。
3.如果表格结构因为断线而识别错误,可以先用工具按钮中的画笔在图像上弥补断线再重新版面分析。
4.识别效果不佳的主要原因
(1) 扫描设置不当,扫描图像时的扫描分辨率(Resolution)一般应设为300dpi,如果文档字体较小则需要将扫描分辨率设定为更高值如400dpi或600dpi。缩放比例(Scaling)设为100%,亮度阀值(Threshold,Brightness)需根据纸张和印刷的质量调节,避免扫描图像过黑或过淡。
(2) 如自动版面分析有错误,这时请用户用鼠标自己划分出正确的版面块;版面块的版式设置错误,如将横版的设置为竖版,竖版的设置为横版等,这时请用户自行将块的版式修改正确。
(3) 原稿印刷质量太差,笔画断裂严重、油墨太浓、字与字之间粘连严重等也可能使识别率显着降低。
(4) 识别语言选项选择不当,应根据原稿正确选择“简体”、“简繁”或“英文”。
5.建议系统使用IE5.0以上版本,否则可能影响正确浏览联机帮助文档。