如何用尚书七号OCR软件做好文字识别工作-坚果智云扫描

下面详细介绍如何用尚书七号OCR软件做好文字识别工作：

一、获取图像

有两种方式获取图像，扫描图像或打开计算机中已经存在的图像文件。本系统支持24位彩色、256级灰度和二值黑白图像。

1．扫描图像之前应设置好保存扫描图像文件的路径、图像文件名、图像文件名后缀。设置图像路径，可以直接单击“扫描到”按钮，在浏览路径窗口中选定存放图像的文件夹。

2．单击工具栏上的按钮或单击“文件”菜单中的“扫描”命令，通过扫描仪开始批量扫描文件；单击工具栏上的按钮（如果已经扫描好的图像文件，可以点击按钮直接打开图像），此时就会自动调出默认的扫描软件，设置好参数（建议分辨率在300以上）后开始扫描。

二、图像预处理

为提高识别率，对扫描后的图像进行图像反白，自动倾斜校正，调整边框，去噪音（如麻点、下划线等），表格画线等处理。

在进行“倾斜校正”时，可按下工具栏的最下面的一个“图像倾斜校正”工具按钮。系统会自动弹出一个对话框，提示需要校正的角度，此时按下“是”按钮，系统就给予图片做水平的倾斜校正。在此需要特别注意，“自动倾斜校正功能”只能对原稿做±2.8度的倾角的校正，如果原稿的倾斜角度大于2.8度，系统会建议用户重新扫描稿件，以提高识别率。

三、版面分析

1．自动分析：单击工具栏中的按钮，或单击“识别”菜单中的“版面分析”命令，自动对图像的版面布局、内容进行分析理解，切分图像页，判别图像框的版面属性（横栏、竖栏、表格、图像），并以不同颜色的线框标识图像框属性。对分析错误的版面可以手动调整，方法为，先以鼠标选中需要调整的版面块，再调整版面块的边框改变大小，或单击工具栏上的属性按钮（横栏、竖栏、表格、图像）改变该版面块属性。

2．手动分析：手动分析时，只要在图像中的文字块按照文章的先后，分别拖出选择框，如下图的文章，实际是分成两个栏目进行阅读的，所以在设定识别区域的时候，注意需要将这个两个栏目分别圈定，也就是设定两个识别区域（如图所示）。同时，对于一些文字稿件，如果在中间插有图片的时候，建议采用绕开的方式，对所环绕的文字分别进行识别区域的设定。此外，对于表格类的图片，为了将标题栏也能识别进去，建议将表格部分整个框选，同时标题作为一个单独的框选区域。

四、识别图像

单击按钮或单击“识别”菜单中的“开始识别”命令，按照版面属性（横栏、竖栏、表格、图像），自动对图像文件管理器选择的图像进行批量识别，识别后的文字会显示在窗口的上方。

五、文字校对

通过对比识别结果文本和原图像，以发现识别错误的文字。可信度不高的文字软件会用醒目的颜色标出的，此时点击这些文字，窗口中的图像会自动移动至相应位置，就可方便地进行校对，要修正时，直接输入正确的字就可以了。

六、文件存盘

单击“输出”菜单中的“到指定格式文件”命令，将识别并修改好的文本输出、可以保存成可供计算机阅读和查询检索的RTF、HTML、XLS、TXT 格式的电子文档。

建议用户一般可选择Text（纯文本）格式保存，因为这种格式可以用几乎所有文档编辑器打开；如果用户进行表格识别，识别结果可以选择保存为V格式，这样用EXCEL就能够直接打开；而HTML格式是针对网页设计使用的，用IE等网络浏览器或网页编辑器可以打开。

七、一些使用技巧

1．如果用户从光盘上复制图像及数据进行进行处理，务必先将这些文件的只读属性去掉。

2．处理纯英文文档时，识别语言选项设定为“简体”、“简繁”、“英文”都可以，但设定为“英文”识别效果最好；当处理含有繁体字的文档时，语言选项应设定为“简繁”。

3．如果表格结构因为断线而识别错误，可以先用工具按钮中的画笔在图像上弥补断线再重新版面分析。

4．识别效果不佳的主要原因

(1) 扫描设置不当，扫描图像时的扫描分辨率(Resolution)一般应设为300dpi，如果文档字体较小则需要将扫描分辨率设定为更高值如400dpi或600dpi。缩放比例(Scaling)设为100％，亮度阀值(Threshold,Brightness)需根据纸张和印刷的质量调节，避免扫描图像过黑或过淡。

(2) 如自动版面分析有错误，这时请用户用鼠标自己划分出正确的版面块；版面块的版式设置错误，如将横版的设置为竖版，竖版的设置为横版等，这时请用户自行将块的版式修改正确。

(3) 原稿印刷质量太差，笔画断裂严重、油墨太浓、字与字之间粘连严重等也可能使识别率显着降低。

(4) 识别语言选项选择不当，应根据原稿正确选择“简体”、“简繁”或“英文”。

5．建议系统使用IE5.0以上版本，否则可能影响正确浏览联机帮助文档。

如何用尚书七号OCR软件做好文字识别工作

相关推荐

热门标签

分类

功能

免费扫描软件无广告无水印

相关推荐

热门标签

分类

功能

免费扫描软件 无广告 无水印

免费扫描软件无广告无水印