OCR技术在档案数字化中的运用研究
(上海大学档案馆徐忠勇)
一、OCR技术发展历程和工作原理
1、OCR技术的定义
OCR是英文Optical Character Recognition的缩写,中文含义为光学字符识别,也称为文字识别,是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取纸张上的文字、图像信息,利用各种模式识别算法分析文字形态特征,与汉字的标准编码相比较从而判别不同的字符,并按通用格式存储在文本文件中,实现文本的编辑、检索和存储。所以,OCR技术是一种快捷、省力的文字输入方式,实践证明其在档案信息数字化工程中的作用愈来愈显着。其运用过程一般使用扫描等光学输入设备读取纸张上的文字、图像信息到计算机能识别的格式,如JPG、FDF、TIF、BMP等,再通过OCR软件自动分析比较生成可编辑的文本文件。
2、OCR技术的发展历程
OCR的概念是由德国科学家Tausheck在1929年率先提出来,后来美国科学家Handel也提出了利用计算机扫描等技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第一篇关于汉字识别的文章,采用了模板匹配法识别了1000个印刷体汉字。可以说是第一次把OCR从理论概念到实际运用的实现。经过四十年各领域专家和学者的运用和研究,以及计算机技术和光学扫描技术的不断发展,OCR技术已经从原来的字符识别率低于50%到现在针对印刷体字符识别正确率达到了99%以上,并可以识别宋体、黑体、楷体等多种字体的简、繁体;也可对多种字体、不同字号的混排进行识别;有的OCR技术识别速度很快,1000字符控制在一二分钟之内,而且可以识别图像、表格、文字混排的版面。所以从技术角度分析当前的OCR技术完全可以运用到档案信息数字化工程中,从应用层面分析OCR技术也已完全适合在档案数字化中发挥其识别率高、速度快捷、批量处理等作用。
3、OCR软件工作原理
OCR软件一般是由图像处理模块、版面划分模块、文字识别模块和文字编辑模块等四部分组成。图像处理模块主要具有文稿扫描、图像缩放、图像旋转等功能。通过扫描仪输入后,文稿形成图像文件,图像处理模块可对图像进行放大,去除污点和划痕等处理,目的是为文字识别创造更好的条件,使识别率更高。版面划分模块主要包括版面划分、更改划分,即对版面的理解、字切分、归一化等,目的是使OCR软件将同一版面的文章、表格等分开,以便分别处理,并按照一定的顺序进行识别。文字识别模块是OCR软件的核心部分,主要对输入的汉字进行”阅读”,对于汉字通常是一个字、一个字地辨认,即单字识别,再进行统一归类。文字识别模块通过对不同样本汉字的特征进行提取,完成识别,自动查找可疑字,具有前后联想等功能。文字编辑模块主要对OCR识别后的文字进行修改、编辑,如系统识别认为有误,则文字会以醒目的红色或蓝色显示,并提供相似的文字供选择,选择编辑器供输出等。所以随之OCR软件的不断完善和发展,越来越被图书、档案管理单位等需要成GB和TB容量的数据录入行业所倚重和青睐。
OCR技术的发展得益于扫描仪和计算机硬件的迅速发展。尽管汉字量大、字形复杂,但随着OCR技术逐渐趋向成熟。许多OCR软件不仅能识别黑白印刷体汉字,还能识别灰度和彩色印刷体汉字,同时,对于手写体汉字识别的研究也取得了很大进展,正确识别率已达到了70%以上。现在中文OCR软件主要有清华紫光、清华文通、汉、中晶尚书、丹青、蒙恬OCR等,
二、OCR技术与档案数字化的关系
1、档案数字化发展历程
回顾档案现代化管理发展历程,经历过两次实质性的跨越式发展:第一次,二十世纪八十年代开始,档案目录实现计算机检索,建立可供计算机检索的档案信息目录数据库(包括案卷级和文件级目录)。第二次,从二十一世纪初开始,档案信息数字化的管理与利用,即通过对档案信息的电子扫描,建立档案信息图像文件以及全文信息数据库,使用户可以做到在授权范围内实现档案信息任意关键词的全文检索和查阅。第一次的跨越式发展实际是从传统的手工管理向计算机数据库管理的转变,也就是机读档案目录替换纸质档案目录检索,其关键技术是依托计算机数据库技术。由于计算机扫描技术和存储技术应用费用昂贵、工序繁杂,以及档案形成部门的电子文件还没有完全普及,所以在此过程中很少涉及到全文检索和利用。而第二次跨越式发展实质是彻底改变了传统档案信息管理中目录级检索和调卷的方法,真正把纸质档案信息通过数据录入或计算机扫描技术以及OCR技术把档案信息以数据库和图像格式保存在计算机存储设备上,实现档案信息的全文检索和阅读。其关键技术就是把文本类电子文件中档案信息提纯出来,以数据库形式存放,提供检索和利用,或者在案件级和文件级目录下挂接电子文件,如图像格式(TIF、JPG、PDF)等,实现不进库房,不调案卷,不翻实体,而利用相当于原始纸质档案的信息,缩短了利用时间、拓展了利用人群、增加了利用效果、提高了工作效率。
2、OCR技术与档案数字化的关系
从当前流行的档案数字化技术层面分析,档案的存储技术、载体性质、计算机运行和检索速度都在发生着日新月异的变化,但档案的检索技术从本质上还是没有改变,与传统手工目录检索一样依赖于档案案卷和卷内目录。随着OCR技术的不断完善,OCR软件的识别正确率趋向完美以及办公自动化软件的推广,档案检索技术得以突破目录检索的瓶颈,可以实现全文任何字符的检索。这是自计算机数据库技术、网络技术以及存储技术运用于档案管理后又一个里程碑式的发展,使档案信息检索技术实现了跨越式的发展,从更本上解决了档案用户面对浩瀚档案目录无所适从、束手无策的局面。从OCR技术的发明到实际应用一直没有脱离计算机数据库技术和文字输入背景,也就是OCR技术的产生是为了减轻批量文字输入、打印工作量、提高工作效率,而档案信息数字化的关键技术和工作也是海量文字的输入和检索,所以可以断定OCR技术的产生和发展是档案现代化管理或类似档案管理行业在发展过程中,存在批量文字输入计算机数据库时,代替人工单字或词组输入的最适合的方法之一。从技术层面讲两者的关系是相互依赖、相互发展、相互促进。
三、OCR技术在档案数字化中的运用研究
1、OCR技术在档案数字化中的使用方法
OCR技术在档案数字化中运用,主要过程是把纸质载体档案的信息内容利用高速扫描仪转换成计算机能识别的图像文件,如JPG、TIF或合成多页的PDF文件,再利用OCR软件的字符识别功能把不能编辑的图像文件和PDF文件中每个字符与标准的汉字数据库中字符对比,截取相同形状的字符并保存在文本编辑软件中,保持能编辑的状态,并可以进行自动标引或运用各类数据库软件的搜索引擎针对字符搜索,以达到档案信息的全文检索。
在实际档案全文数字化过程中一般先把一份文件扫描成多页JPG、TIF或PDF文件,再运用OCR软件识别并判断识别效果,并进行必要的调整和修复就可以到达全文数字化的要求。如图一所示,以MICROTEK中晶科技公司研制的尚书7号OCR软件为例说明全文扫描数字化过程。
在扫描生成页面后,OCR技术针对印刷体的页面文件一般识别率可达98%以上,在自动纠错、人工校对后,基本符合档案数字化的要求。从扫描和识别的速度分析,一般中档扫描仪每分钟扫描在40-60页面左右,配合主流OCR识别软件以及处理、分析、校对每页档案全文数字化用时在1分钟以内,装订50个页面的案卷数字化时间在30分钟左右。与人工单字符输入法相比,工作效率提高近十倍,工作强度成倍减少。运用OCR识别技术进行档案全文数字化,工作人员可以长时间连续工作,而纯人工输入连续工作的后果是差错率的居高不下,从而影响档案信息全文的检索和使用。
2、OCR技术在档案全文信息输入中作用
OCR技术在档案全文检索技术中的运用主要在于实现档案全文数据库的输入工作。如针对一卷50页的案卷,案卷和卷内目录一般不超过51个,而全部目录在数据库着录时,对于熟悉计算机输入的人来讲不费吹灰之力,几分钟或更长点时间就可以完成,但是如需做到全文任何关键词检索,必须把每个页面上的汉字字符(可能超过500个)输入计算机数据库,50页的文件可能有汉字字符25000个左右,以1分钟输入100中文字符计算,连续不断地输入也需要4个多小时。所以面对浩瀚如海的馆藏档案案卷以及每日俱增的新归档案卷,依赖单个字符的输入法和数量相对较少的档案工作人员是无法完成如此巨大的全文输入工作量。在档案管理工作中馆藏量和增量档案一般很难缩小和控制,工作人员数量很难大幅度增加,所以唯有改变数据的输入方式,提高输入效率。OCR技术正是弥补了单字符输入速度慢的不足,OCR识别率的大幅提高更是填补单字符输入差错率高的缺陷。因此从当前档案全文数字的工作量以及计算机输入和各种文字识别技术的功效来判定,OCR技术是比较适应档案全文数字化的一种技术,是实现档案全文数字化的技术基础和实现途径之一。
3、OCR技术在档案数字化中的缺陷和弥补方法
经过OCR技术在档案数字化过程中的实际运用,其扫描高速、识别快捷、高效等优势显而易见,但是这毕竟是依赖于计算机和人工智能等技术,也存在一些先天缺陷,如针对手写字迹,特别是保存时间较长的历史档案,其识别率往往教低,甚至识别成一堆乱码,使人无法阅读。针对这种OCR技术的缺陷,第一种弥补方法是进行扫描和OCR识别后,实行人工校对识别文字,尽量保持OCR文字与原始页面内容一致,虽然所需时间、精力较多,但毕竟可以实现档案全文检索,值得尝试和运用;第二种弥补方法是从OCR识别率极低考虑,从现在的OCR技术以及相关技术的局限性出发,只能考虑手工全文输入或扫描成图像文件后,放弃全文检索功能直接挂接到文件目录中,做到文件级目录检索。在针对一些陈旧纸质档案,页面泛黄、局部生有霉斑或受污染的档案,在OCR过程中也经常把其识别成文字或乱码。其弥补方法是在扫描成多页JPG或TIF或PDF文件后进行人工修复,把原来是文字部分以外的页面进行清洁处理(删除或复制成空白)。也可以对整个页面进行补光或柔化处理,使没有文字部分页面接近白色,识别过程中OCR软件不会把其当成文字或图像处理,从而达到档案信息数字化的要求。
随着信息化社会的不断发展,计算机网络技术的不断普及,档案利用人群对档案信息的检索准确率、查全率的要求越来越高,而传统的案卷级和文件级目录检索技术已经无法适应当前网络时代的搜索要求,在网络中“人肉搜索”“人立方”越来越受到民众的关注和追捧,网络搜索的越来越细化和精致,迫使档案检索对象及其技术的发展,所以档案全文数字化是档案管理发展的必然趋势。在现有计算机技术以及OCR技术上,和档案管理经费有限的条件下,采用高性价比的数字化方法,在最短的时间内把档案全文进行数字化是档案管理者必须考虑的发展战略,纵观并比较当前的各类档案数字化技术,使用高速扫描和OCR技术以及计算机全文数据库技术是实现档案信息数字化比较适合的方法。
安装扫描仪、尚书OCR7.0等软件
↓
扫描精度、图像类型设置(300DPI,RGB彩色或灰阶)
↓
纠正倾斜度、进行版面分析(自动修正、选择文字部分)
↓
选择栏属性、进行识别(栏属性分横栏、竖栏、表格和图像)
↓
文字校对,输出到指定格式文件或复制到档案全文信息数据库
↓
档案管理软件或计算机网络中实现全文档案信息检索