免费扫描软件
无广告、无水印

OCR文字识别原理

刘, 博文阅读(1237)

OCR文字识别原理

首先介绍一个名词OCR(Optical Character Recognition,光学字符识别)。是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

OCR的应用领域:

文字识别OCR通常应用在证件识别(身份证,驾驶证,护照,名片)、文档检索、截图识别(猿题库,作业帮)

OCR对图片都做了什么:

实际上我们预期的结果是把只有包含单个文字的图片交给计算机去翻译。

机器是怎么看到纸质或者电子文档或是图片上的文字的呢?接下来看一下他的工作流程:

首先要去掉杂质,这样程序就可以集中注意到文字上面。

预处理

预处理主要包括灰度化,二值化,噪声去除,倾斜矫正等。

灰度化:

灰度图是只含亮度信息,不含色彩信息的图片。

在RGB模型中,如果R=G=B时,则彩色表示一种灰度颜色,其中R=G=B的值叫灰度值。

一般满足下面这个公式:

Gray=0.299R+0.587G+0.114B 这种参数考虑到了人眼的生理特点

原图.jpg

灰度图.jpg

二值化:非黑即白

对摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的,更好的识别文字,我们需要先对彩色图进行处理,使图片只前景信息与背景信息,可以简单的定义前景信息为黑色,背景信息为白色,这就是二值化图了。

经过灰度处理的彩色图像还需经过二值化处理将文字与背景进一步分离开。

二值化的过程中涉及到“阈值”的概念,简单来说就是想找到一个合适的值来作为一个界限,大于或小于这个界限的值变为白色或黑色即0或255。“阈值”是怎么选出来的?

有很多方法,这里只介绍下面两种?

方法1:

取阀值为127(相当于0~255的中数,(0+255)/2=127),让灰度值小于等于127的变为0(黑色),灰度值大于127的变为255(白色),这样做的好处是计算量小速度快,但是缺点也是很明显的,因为这个阀值在不同的图片中均为127,但是不同的图片,他们的颜色 分布差别很大,所以用127做阀值,这种一刀切,效果肯定是不好的。

二值化效果图.GIF方法2:

使用直方图方法(也叫双峰法)来寻找二值化阀值,直方图是图像的重要特质。直方图方法认为图像由前景和背景组成,在灰度直方图上,前景和背景都形成高峰,在双峰之间的最低谷处就是阀值所在。

下就可以将小于T的视为全部为黑色,大于T的为白色。

图片来自网络.png

图像降噪:

现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,称为含噪图像或噪声图像。减少数字图像中噪声的过程称为图像降噪(Image Denoising)。

在演示的过程中可以看到当二值化之后的图片会显示很多小黑点 ,这些都是不需要的信息,会对后面进行图片的轮廓切割识别造成极大的影响,降噪是一个非常重要的阶段,降噪处理的好坏直接影响了图片识别的准确率。

最简单的叫做数据结构中学到的DFS或者BFS(深度和广度搜索)。我们对w*h

的位

图先搜索所有联通的区域(值为1的,我们看起来是黑色的,连接起来的区域)。所有联通区域算一个平均的像素值,如果某些联通区域的像素值远远低于这个平均值,我们就认为是噪点。然后用0代替他。

倾斜矫正:

拍照或者选取的图片不可能完全是水平的,倾斜会影响后面切出来的图片,所以要对图片进行旋转

倾斜矫正最常用的方法是霍夫变换,其原理是将图片进行膨胀处理,将断续的文字连成一条直线,便于直线检测。计算出直线的角度后就可以利用旋转算法,将倾斜图片矫正到水平位置。

图片分割:

对于一段多行文本来讲,文字切分包含了行切分与字符切分两个步骤,倾斜矫正是文字切分的前提。我们将倾斜矫正后的文字投影到 Y轴,并将所有值累加,这样就能得到一个在y轴上的直方图

OCR文字识别技术是什么?

刘, 博文阅读(1459)

光学字符识别,简称OCR,是一种可以使你转换不同文档的技术,比如将扫描纸质文档,PDF文件或者数码相机拍摄的图片转换成可以编辑的文档。

假设你获得了一个纸质文件-比如,杂志、彩页或者你合作伙伴发给你的PDF合同。很明显,光是一台扫描仪是不足以让这些文档转变成可以编辑的文档,也就是Microsoft wps。扫描仪可以做的只是创建图片或者一张黑白或者彩色的图像文档。为了从扫描文档、PDF或者数码图片中提取文字和数据,你需要OCR软件识别图片上的信息,从单词到句子,然后变成整个可以编辑的文档。

OCR作为最早实用化的人工智能技术之一,已在产业中得到广泛应用。中安未来OCR技术经过多年的市场应用和技术积累,已推出文档识别、证照识别、票据识别、名片识别等全方位文字识别产品与服务,广泛服务于各行业。

近日,中安OCR技术再次升级,在原有中文、英文、日文、韩语、法文等十多种语言文字的识别基础之上,重磅推出维吾尔文、藏文等多语种印刷体文字识别能力,高效助力维族、藏族等少数民族产业发展。

OCR快速识别火车票行程单助力企业建立财务共享系统

刘, 博文阅读(947)

随着企业的进步和科技的发展,企业在财务管理上需要结构化、智能化,财务共享系统和移动报销的建立已然成为了企业财务管理的发展趋势。然而不管是财务共享系统还是企业移动报销App,都存在着大量的火车票、行程单信息需要录入,传统手工录入费时费力,易出错。

针对以上信息的录入难点,研发火车票/行程单OCR扫描识别软件,是基于OCR识别技术,运用先进的图片处理技术和数学算法,达到对图像的精准识别。

火车票/行程单COR识别软件采用视频流识别方式,用手机摄像头“扫一扫”即可快速读取并录入火车票/行程单信息,可以集成到手机app上做离线识别,支持移动端android和IOS两大操作系统,同时也可支持服务器(私有云)部署,可以在保障企业财务票据安全下,让信息采集效率产生质的飞跃。而且火车票/行程单COR识别软件结合译图智讯的增值税发票OCR扫描识别软件完美解决财务管理上的票据录入难点,助力企业建立财力共享和移动报销系统。

OCR光学字符识别发票扫描识别技术SDK

刘, 博文阅读(1082)

随着营改增的全面实施,企事业单位利用现代信息技术手段进行OCR光学字符识别发票扫描识别技术自动录入的工作,已然势在必行。基于多年的OCR文字识别经验推出的OCR光学字符识别发票扫描识别技术系统,极大的提高了企事业单位的业务处理时效,降低了企业运营成本,目前OCR光学字符识别发票扫描识别技术在企业财务共享FSSC、汽车经销商DMS系统、集团公司的票据验审系统、财务管理系统中得到广泛的应用。

(OCR光学字符识别发票扫描识别技术-软硬一体扫描识别)

OCR光学字符识别发票扫描识别技术SDK由发票专用扫描仪、发票OCR识别核心、客户端软件三部分组成,通过客户端软件一键扫描识别;扫描仪采集发票图像并进行相应技术处理,利用OCR识别技术对票面关键信息进行自动识别提取,并输出到业务系统归档以供后续查询利用。 OCR光学字符识别发票扫描识别技术SDK具有强大的扩展性,其发票OCR识别核心是基于发票特征的固定版式字符识别的一种。通过系统开放的模板编辑工具进行发票模版定制,实现输入发票的自动分类,然后通过设定的识别区域,识别要素字段,调用专用字符识别核心,进行区域识别,并根据识别结果进行识别后处理,最后输出结构化的识别结果。

(OCR光学字符识别发票扫描识别技术-技术支持)

OCR光学字符识别发票扫描识别技术在对增值税发票票面信息进行识别提取的同时,系统可生成300dpi的高清晰发票影像,满足发票电子化管理的存档需求,实现发票的查询和共享。 OCR光学字符识别发票扫描识别技术SDK提供开发的系统接口,可与银行金融业、汽车经销商、工商、保险等多个行业的业务流程系统无缝结合,辅助办公人员进行增值税发票等单据的信息录入,提高资料电子化、数据格式化的效率。

ocr图片文字识别技术正在改变你的生活

刘, 博文阅读(874)

中华民族文化上下五千年,留给后人史书资料无数,这些珍贵的资料既需要好好保存,又需要为后人提供宝贵的知识,为了减少对史料的损坏,大都是把史料以图片的形势保存下来供参考,但是图片中的文字存在不可编辑、不好查找、不方便检索的问题。图片文字识别则可以解决这个问题,中来未来慧视ocr文字识别把史料上的知识完整准确的转为可编辑、可保存、可搜索的文字,图片转文字中安未来慧视ocr文字识别的强项。

在日常的工作生活中还有很多把图片文字识别的需求,图书馆中有大量的珍贵的史料资料、企业发展过程中也有很多珍贵的资料需要留存登记、以及翻译公司也需要图片文字识别技术,更重要的是这些资料不仅仅需要保存还需要是必要的时候对资料进行检索,采用ocr文字识别技术实现资料的随时调用和检索,图片文字识别可以减少对史料的损坏以及增加资料的利用率等。

上传图片即可立刻识别,将图片转化为可编辑可检索的文字

中安OCR文字识别软件支持PDF,BMP ,JPG,PNG等多种格式图像的读取,支持多种外语识别,识别率世界领先。并且世界独家支持中国国内少数民族语言识别技术:藏文识别、维吾尔文识别、维文识别、哈萨克文识别、阿拉伯文识别、柯尔克孜文识别等。自动裁切校正图片,识别速度快,识别率达99%以上,图片文字识别完美的解决了史料保存、图书馆检索、办公室OA 等麻烦。

OCR文字识别软件支持iOS、Android两大平台,可以集成在翻译APP中、办公软件中、扫描笔中、手机文档扫描仪中等等,集成方便,应用广泛。图片文字识别,让图片中的文字为你所用。

MFC7340打印机怎么扫描文件?

刘, 博文阅读(4269)

一、开始扫描前做好准备

1、首先,用手往上掀开兄弟打印机扫描的机顶盖。 。

2、然后,准备好需要扫描的证件或者文件, ,我以下面这张A4纸张为例,上面的内容为待扫描成图像。

3、将需要被扫描纸张有内容一面朝下,放到扫描面板上面。对齐放正。

4、然后盖上兄弟打印机机顶盖。 。这样扫描准备工作就完成了。

二、打印机扫描成图像

1、然后双击我的电脑,双击运行其中的 [Brother MFC 7340图像扫描仪],这是安装好了扫描驱动之后才能进行扫描工作。

2、然后,扫描仪就开始工作了。显示[正从多功能一体机读入]。 。

3、读取完毕,读取扫描的图像会自动打开windows画图显示, 。

4、然后,点击[文件]——[另存为],保存扫描出来的图像。

5、选择保存格式为jpg,减小存储空间,单击[保存]。

6、然后打开保存以后的图像, 。扫描效果还是不错滴!

OCR 图片文字识别,你也可以制作自己的文字识别API

刘, 博文阅读(1030)

遥想当年,图片文字识别不是很牛的时代,小编都是边看图片,边码字,那个年代还有专门的人负责打字,堪称打字员。随着技术的不断进步,图片 文字识别的精度越来越高,很多课本都可以扫描,然后使用图片识别工具进行文字的提取工作。

当然你可以完全使用腾讯,或者百度的API 进行图片文字的识别,它们都有自己的接口。作为新型一代的科技人员的小编,怎么会直接使用API,自己动手搞起来

OCR 文字识别

OCR (Optical Character Recognition,光学字符识别)是指电子设备检查图片上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

OCR的原理:

图像输入、预处理:

二值化:对摄像头拍摄的图片,大多数是彩色图像,为了让计算机更快的,更好的识别文字,可以简单的定义前景信息为黑色,背景信息为白色,这就是二值化图了。

噪声去除:根据噪声的特征进行去噪,就叫做噪声去除

倾斜较正:拍照出来的图片不可避免的产生倾斜,这就需要文字识别软件进行较正。

版面分析:将文档图片分段落,分行的过程就叫做版面分析,由于实际文档的多样性,复杂性,因此,目前还没有一个固定的,最优的切割模型。

字符切割、字符识别、版面恢复、后处理、校对等等

OCR:如何把扫描版pdf转变成文字版?

刘, 博文阅读(1656)

我经常在阅读扫描格式pdf的时候,把它们抓取为文字格式,当然得是好书。可能有朋友不清楚ocr,它就是把文字从图像中识别抓取出来。文字版pdf的好处就的是便于传播、引用,视觉上清晰,具有更大的处理空间,乃至可以二次制作,比如出于手机什么的阅读需要。但是,ocr过程中的文字识别率不会是100%,需要进一步校对,所以在这个意义上粗制滥造的文字版pdf还不如扫描原版的价值。 我分享自己的一点ocr经验,也是想更多的朋友制作文字版好书,也因为很多的朋友不熟悉ocr。 ocr软件很多,这里只根据自己的经验进行推荐,而忽略其他。 首先说单页pdf的ocr 这种单张图片式的文字抓取我强烈推荐JOCR。JOCR的优点是免费绿色轻量(绿色就是不需要安装),体积小到几乎不可思议的不到100kb。然后不可想象的是,这么小的软件其识别率还非常高,而且可以抓取20多种语言,包括中文繁体,夫复何求。 JOCR(原版、汉化版、使用说明、MODI及“繁体中文识别”文件)下载: http://vdisk.weibo.com/s/uImX 网路上有汉化版,其实不必。它常用功能很简单,一般就是第一步“Capture Region(选取需要ocr的区域)”,然后在语言框选择语言,最后“Recognize(识别)”,于是就为你蹦出一个txt文本,接下去你还可以就着这文本进行校对。 注意: 1、要成功使用JOCR,首先得保证在安装office时选择了“完整”安装选项,因为JOCR的运转是依托于Microsoft Office Document Imaging (MODI,中文OCR辨识引擎)的。Office 2003的缺省安装是第一次使用MODI时安装,Office 2007的缺省安装是不装,都需要自己主动安装一下。如果你没有完整安装office,也可以只是再安装一下MODI,微软官方有下载。 2、如果需要抓取繁体,而你使用的是简体windows系统(即比如安装的是简体中文Office 2003),那么请将下列“繁体中文识别”文件复制到C:\Program Files\Common Files\Microsoft Shared\MODI\11.0 TCCODE.UNI TCPRINT.DAT TCPRINT2.DAT TERHT.DAT TCTREE.DAT TW_BU.DAT TW_UB.DAT TWBIG532.DLL 然后双击reg文件导入注册表,ok。注意,导入注册表时必须先关闭所有MODI窗口。 此时,在MODI的OCR选项卡里,“OCR语言”中即可看到“中文(繁体)”,也就是说依托MODI运作的ocr软件具有了繁体识别功能。 或许你要问,JOCR的使用特别是繁体不免麻烦了一点点。我的回答是,推荐JOCR正是因为它要利用到MODI及其繁体识别功能。一般的ocr软件往往对繁体无措或者效果不如意,而微软MODI的效果非常的理想,我上一篇日记《马克思——披上科学外衣的诗人革命家》用的就是它,几乎就没有改正几个字(原文是竖排的)。所以说磨刀不误砍柴工,而且是微软自带的,省事省心。

然后说pdf批量ocr 一本pdf格式的书籍有很多页,自然要用批量才行。一般认为最强大的专业ocr软件是ABBYY FineReader,“世界排名第一的OCR文字识别工具”是也。ABBYY FineReader不依托MODI运作,不免费体积也很庞大,不过微软免费的MODI才5M多一点点。一个好状况是,热心的网友已经制作了中文绿色版,见“最好的OCR识别软件:ABBYY FineReader中文绿色版”http://www.portablesoft.org/abbyy-finereader/。我自己比较ABBYY FineReader与MODI的效果,个人觉得MODI略胜一筹(主要在文字识别率上),至少难分上下。MODI抓取的结果只是文字,没有字体版式啥的,而ABBYY FineReader貌似有还原版面的追求,所以可能反而把问题复杂化(特别是在word中作修改可能叫你崩溃,当然你需要版面什么的另当别论)。 所以有鉴于此而推荐采用微软自带的MODI。 MODI的一般使用方法是:在打开的pdf文档“文件”-“打印”-“名称”中选择“microsoft office document imaging writer”,打印你需要的(所有)页面(这个乃至后边生成的文件地址最好在桌面一类,不然找起来费神)。于是,它生成一个后缀名为mdi的文件。你打开这个mdi文件,在“工具”中选择“使用OCR识别文本”,然后开始可能是很漫长的识别过程,电脑不给力的话一本数百页的书可能漫长到两三个小时。识别结束后,你再在“工具”中选择“将文本发送到wps”,然后它为你生成一个后缀名为htm的文件,里头就有你想要的文字了。 关于ocr繁体中文,就需要用到上边“繁体中文识别”的方法。在复制拷贝那几个文件后,你打开mdi文件,在“工具”-“选项”-“OCR”中就能看到“中文(繁体)”选项,需要时选中即可。

也许,把一本扫描版的pdf转换成文字版的pdf,最核心的部分其实是校对。如果那个文字版内容错误如毛毛,可真叫人纠结。只是对于大部头书籍校对的工程很有些浩大,当然也可以叫你静心精读,何乐不为。分享会让你心情愉快。朋友如果校对也好了,要分享,那还得把版面排好,至少得比我强一点点(比如那个《马克思——披上科学外衣的诗人革命家》pdf),否则又是一块油炸鸡肋。一般地,排版的工具手头的word就够用,况且很多pdf制作软件是从word直接转pdf,很方便实在。 对于word转pdf,一般都采用pdf打印软件,就是在word打印中选择相应的打印机直接就打印成pdf, 。我用过的wps to PDF Converter效果很不错,但是它不免费,而且上次碰到一个字的字体嵌入错误(?)。wps to PDF Converter安装后会在word工具栏生成图标,见下。pdfFactory Pro的功能和效果也不错(对DFKai-SB字体不支持,那可是我的大爱),而TinyPDF这种在视觉效果上就差强人意了。这里分享一下wps to PDF Converter v3.0及其破解与配套驱动,pdfFactory Pro 4.10 简体注册中文版及其破解(对杀软可能报毒,或者还需要从杀软中排除)。 下载地址:http://vdisk.weibo.com/s/uIPu 如果你使用的是word2010,恭喜你,它已经能够直接另存为pdf(2007弄个加载项Save As PDF and XPS也可以)。好久得去用用,看看能不能解决上边遇到的两个问题,如果能,其他的pdf打印软件就要抛弃之。

最后,在具体的使用过程中你可能还会遇到别的什么问题,我就是这样,比如在word“帮助”-“关于Microsoft Office wps”-“禁用项目”中发现wps to PDF Converter是被禁用了。

OCR技术在档案数字化中的运用研究

刘, 博文阅读(1064)

OCR技术在档案数字化中的运用研究

(上海大学档案馆徐忠勇)

一、OCR技术发展历程和工作原理

1、OCR技术的定义

OCR是英文Optical Character Recognition的缩写,中文含义为光学字符识别,也称为文字识别,是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取纸张上的文字、图像信息,利用各种模式识别算法分析文字形态特征,与汉字的标准编码相比较从而判别不同的字符,并按通用格式存储在文本文件中,实现文本的编辑、检索和存储。所以,OCR技术是一种快捷、省力的文字输入方式,实践证明其在档案信息数字化工程中的作用愈来愈显着。其运用过程一般使用扫描等光学输入设备读取纸张上的文字、图像信息到计算机能识别的格式,如JPG、FDF、TIF、BMP等,再通过OCR软件自动分析比较生成可编辑的文本文件。

2、OCR技术的发展历程

OCR的概念是由德国科学家Tausheck在1929年率先提出来,后来美国科学家Handel也提出了利用计算机扫描等技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第一篇关于汉字识别的文章,采用了模板匹配法识别了1000个印刷体汉字。可以说是第一次把OCR从理论概念到实际运用的实现。经过四十年各领域专家和学者的运用和研究,以及计算机技术和光学扫描技术的不断发展,OCR技术已经从原来的字符识别率低于50%到现在针对印刷体字符识别正确率达到了99%以上,并可以识别宋体、黑体、楷体等多种字体的简、繁体;也可对多种字体、不同字号的混排进行识别;有的OCR技术识别速度很快,1000字符控制在一二分钟之内,而且可以识别图像、表格、文字混排的版面。所以从技术角度分析当前的OCR技术完全可以运用到档案信息数字化工程中,从应用层面分析OCR技术也已完全适合在档案数字化中发挥其识别率高、速度快捷、批量处理等作用。

3、OCR软件工作原理

OCR软件一般是由图像处理模块、版面划分模块、文字识别模块和文字编辑模块等四部分组成。图像处理模块主要具有文稿扫描、图像缩放、图像旋转等功能。通过扫描仪输入后,文稿形成图像文件,图像处理模块可对图像进行放大,去除污点和划痕等处理,目的是为文字识别创造更好的条件,使识别率更高。版面划分模块主要包括版面划分、更改划分,即对版面的理解、字切分、归一化等,目的是使OCR软件将同一版面的文章、表格等分开,以便分别处理,并按照一定的顺序进行识别。文字识别模块是OCR软件的核心部分,主要对输入的汉字进行”阅读”,对于汉字通常是一个字、一个字地辨认,即单字识别,再进行统一归类。文字识别模块通过对不同样本汉字的特征进行提取,完成识别,自动查找可疑字,具有前后联想等功能。文字编辑模块主要对OCR识别后的文字进行修改、编辑,如系统识别认为有误,则文字会以醒目的红色或蓝色显示,并提供相似的文字供选择,选择编辑器供输出等。所以随之OCR软件的不断完善和发展,越来越被图书、档案管理单位等需要成GB和TB容量的数据录入行业所倚重和青睐。

OCR技术的发展得益于扫描仪和计算机硬件的迅速发展。尽管汉字量大、字形复杂,但随着OCR技术逐渐趋向成熟。许多OCR软件不仅能识别黑白印刷体汉字,还能识别灰度和彩色印刷体汉字,同时,对于手写体汉字识别的研究也取得了很大进展,正确识别率已达到了70%以上。现在中文OCR软件主要有清华紫光、清华文通、汉、中晶尚书、丹青、蒙恬OCR等,

二、OCR技术与档案数字化的关系

1、档案数字化发展历程

回顾档案现代化管理发展历程,经历过两次实质性的跨越式发展:第一次,二十世纪八十年代开始,档案目录实现计算机检索,建立可供计算机检索的档案信息目录数据库(包括案卷级和文件级目录)。第二次,从二十一世纪初开始,档案信息数字化的管理与利用,即通过对档案信息的电子扫描,建立档案信息图像文件以及全文信息数据库,使用户可以做到在授权范围内实现档案信息任意关键词的全文检索和查阅。第一次的跨越式发展实际是从传统的手工管理向计算机数据库管理的转变,也就是机读档案目录替换纸质档案目录检索,其关键技术是依托计算机数据库技术。由于计算机扫描技术和存储技术应用费用昂贵、工序繁杂,以及档案形成部门的电子文件还没有完全普及,所以在此过程中很少涉及到全文检索和利用。而第二次跨越式发展实质是彻底改变了传统档案信息管理中目录级检索和调卷的方法,真正把纸质档案信息通过数据录入或计算机扫描技术以及OCR技术把档案信息以数据库和图像格式保存在计算机存储设备上,实现档案信息的全文检索和阅读。其关键技术就是把文本类电子文件中档案信息提纯出来,以数据库形式存放,提供检索和利用,或者在案件级和文件级目录下挂接电子文件,如图像格式(TIF、JPG、PDF)等,实现不进库房,不调案卷,不翻实体,而利用相当于原始纸质档案的信息,缩短了利用时间、拓展了利用人群、增加了利用效果、提高了工作效率。

2、OCR技术与档案数字化的关系

从当前流行的档案数字化技术层面分析,档案的存储技术、载体性质、计算机运行和检索速度都在发生着日新月异的变化,但档案的检索技术从本质上还是没有改变,与传统手工目录检索一样依赖于档案案卷和卷内目录。随着OCR技术的不断完善,OCR软件的识别正确率趋向完美以及办公自动化软件的推广,档案检索技术得以突破目录检索的瓶颈,可以实现全文任何字符的检索。这是自计算机数据库技术、网络技术以及存储技术运用于档案管理后又一个里程碑式的发展,使档案信息检索技术实现了跨越式的发展,从更本上解决了档案用户面对浩瀚档案目录无所适从、束手无策的局面。从OCR技术的发明到实际应用一直没有脱离计算机数据库技术和文字输入背景,也就是OCR技术的产生是为了减轻批量文字输入、打印工作量、提高工作效率,而档案信息数字化的关键技术和工作也是海量文字的输入和检索,所以可以断定OCR技术的产生和发展是档案现代化管理或类似档案管理行业在发展过程中,存在批量文字输入计算机数据库时,代替人工单字或词组输入的最适合的方法之一。从技术层面讲两者的关系是相互依赖、相互发展、相互促进。

三、OCR技术在档案数字化中的运用研究

1、OCR技术在档案数字化中的使用方法

OCR技术在档案数字化中运用,主要过程是把纸质载体档案的信息内容利用高速扫描仪转换成计算机能识别的图像文件,如JPG、TIF或合成多页的PDF文件,再利用OCR软件的字符识别功能把不能编辑的图像文件和PDF文件中每个字符与标准的汉字数据库中字符对比,截取相同形状的字符并保存在文本编辑软件中,保持能编辑的状态,并可以进行自动标引或运用各类数据库软件的搜索引擎针对字符搜索,以达到档案信息的全文检索。

在实际档案全文数字化过程中一般先把一份文件扫描成多页JPG、TIF或PDF文件,再运用OCR软件识别并判断识别效果,并进行必要的调整和修复就可以到达全文数字化的要求。如图一所示,以MICROTEK中晶科技公司研制的尚书7号OCR软件为例说明全文扫描数字化过程。

在扫描生成页面后,OCR技术针对印刷体的页面文件一般识别率可达98%以上,在自动纠错、人工校对后,基本符合档案数字化的要求。从扫描和识别的速度分析,一般中档扫描仪每分钟扫描在40-60页面左右,配合主流OCR识别软件以及处理、分析、校对每页档案全文数字化用时在1分钟以内,装订50个页面的案卷数字化时间在30分钟左右。与人工单字符输入法相比,工作效率提高近十倍,工作强度成倍减少。运用OCR识别技术进行档案全文数字化,工作人员可以长时间连续工作,而纯人工输入连续工作的后果是差错率的居高不下,从而影响档案信息全文的检索和使用。

2、OCR技术在档案全文信息输入中作用

OCR技术在档案全文检索技术中的运用主要在于实现档案全文数据库的输入工作。如针对一卷50页的案卷,案卷和卷内目录一般不超过51个,而全部目录在数据库着录时,对于熟悉计算机输入的人来讲不费吹灰之力,几分钟或更长点时间就可以完成,但是如需做到全文任何关键词检索,必须把每个页面上的汉字字符(可能超过500个)输入计算机数据库,50页的文件可能有汉字字符25000个左右,以1分钟输入100中文字符计算,连续不断地输入也需要4个多小时。所以面对浩瀚如海的馆藏档案案卷以及每日俱增的新归档案卷,依赖单个字符的输入法和数量相对较少的档案工作人员是无法完成如此巨大的全文输入工作量。在档案管理工作中馆藏量和增量档案一般很难缩小和控制,工作人员数量很难大幅度增加,所以唯有改变数据的输入方式,提高输入效率。OCR技术正是弥补了单字符输入速度慢的不足,OCR识别率的大幅提高更是填补单字符输入差错率高的缺陷。因此从当前档案全文数字的工作量以及计算机输入和各种文字识别技术的功效来判定,OCR技术是比较适应档案全文数字化的一种技术,是实现档案全文数字化的技术基础和实现途径之一。

3、OCR技术在档案数字化中的缺陷和弥补方法

经过OCR技术在档案数字化过程中的实际运用,其扫描高速、识别快捷、高效等优势显而易见,但是这毕竟是依赖于计算机和人工智能等技术,也存在一些先天缺陷,如针对手写字迹,特别是保存时间较长的历史档案,其识别率往往教低,甚至识别成一堆乱码,使人无法阅读。针对这种OCR技术的缺陷,第一种弥补方法是进行扫描和OCR识别后,实行人工校对识别文字,尽量保持OCR文字与原始页面内容一致,虽然所需时间、精力较多,但毕竟可以实现档案全文检索,值得尝试和运用;第二种弥补方法是从OCR识别率极低考虑,从现在的OCR技术以及相关技术的局限性出发,只能考虑手工全文输入或扫描成图像文件后,放弃全文检索功能直接挂接到文件目录中,做到文件级目录检索。在针对一些陈旧纸质档案,页面泛黄、局部生有霉斑或受污染的档案,在OCR过程中也经常把其识别成文字或乱码。其弥补方法是在扫描成多页JPG或TIF或PDF文件后进行人工修复,把原来是文字部分以外的页面进行清洁处理(删除或复制成空白)。也可以对整个页面进行补光或柔化处理,使没有文字部分页面接近白色,识别过程中OCR软件不会把其当成文字或图像处理,从而达到档案信息数字化的要求。

随着信息化社会的不断发展,计算机网络技术的不断普及,档案利用人群对档案信息的检索准确率、查全率的要求越来越高,而传统的案卷级和文件级目录检索技术已经无法适应当前网络时代的搜索要求,在网络中“人肉搜索”“人立方”越来越受到民众的关注和追捧,网络搜索的越来越细化和精致,迫使档案检索对象及其技术的发展,所以档案全文数字化是档案管理发展的必然趋势。在现有计算机技术以及OCR技术上,和档案管理经费有限的条件下,采用高性价比的数字化方法,在最短的时间内把档案全文进行数字化是档案管理者必须考虑的发展战略,纵观并比较当前的各类档案数字化技术,使用高速扫描和OCR技术以及计算机全文数据库技术是实现档案信息数字化比较适合的方法。

安装扫描仪、尚书OCR7.0等软件

扫描精度、图像类型设置(300DPI,RGB彩色或灰阶)

纠正倾斜度、进行版面分析(自动修正、选择文字部分)

选择栏属性、进行识别(栏属性分横栏、竖栏、表格和图像)

文字校对,输出到指定格式文件或复制到档案全文信息数据库

档案管理软件或计算机网络中实现全文档案信息检索

JPG图片文字转换成Word需这样做

刘, 博文阅读(1333)

JPG图片文字怎么转换成wps?没有接触过这类问题的话确实会觉得比较难,但其实一个小工具就能帮助我们解决这个问题。跟着小编一起,将JPG图片文字转换成wps需这样做:

1、软件下载是前提,我们双击运行安装在电脑上的 OCR文字识别软件,打开软件界面之后,我们可以看到软件界面有“从图片读文件”和“从PDF读文件”两个功能,我们选择“从图片读文件”添加我们需要进行转换的JPG图片。

2、图片添加完成之后,我们点击“纸面解析”选项,软件就会对我们图片里的文字进行解析。

3、解析完成后,我们点击“识别”选项,那么软件所识别的文字就会显示在原文件右侧,软件偶尔会有个别文字识别错误,我们可以对识别的内容进行查看,如果有错误,我们就可以在右侧识别的内容里进行修改。

4、修改完成后,我们再点击软件上方的“保存为wps”按钮,这样就把图片转换成可编辑wps文档啦。

以上就是JPG图片文字转换成wps的过程了,整个过程还是比较简单的,大家可以自己是试试看。

免费扫描软件 无广告 无水印

坚果云扫描下载坚果云扫描介绍