免费扫描软件
无广告、无水印

秒杀其他OCR软件的ABBYY

刘, 博文阅读(901)

相对于我一直在用的FineReader10, FR11有很多新功能:

1.支持生成epub和发送到kindle选项,方便了电子书的使用。

2.识别速度大大加快,至少比过去快了50%,官方的说法是中文识别提高了70%

3.识别率略有提高,随机对比了几页,发现错别字还是有减少的

4.默认输出的PDF是双层PDF(参见文末注解),方便了在电脑上和Kindle上的阅读(kindle在多看系统下测试标注和智能重排成功,原生系统未测试)

之前一直没留意到FineReader有双层PDF这个功能,这次用了11才真正开始使用。

双层PDF太方便了,可以直接取词、查找,即使OCR有个别错误也不会影响阅读观感。

但将双层PDF导入到kindle后,载入、翻页、标注速度都比普通的PDF要慢很多,但是考虑到系统可以预载当前页面的下一页,这个缺点也算可以忍受。

双层PDF的设置在工具-选项-保存-PDF-保存方式-页面图像下方的文本。

一开始导出的PDF在kindle上打开的实在太慢,我盯上了PDF保存方式里的几个选项,<使用混合式光栅>,图像设置中的色彩控制。

首先比较出有无光栅时PDF的打开速度,发现无光栅完胜,翻页速度相差10多秒…(无光栅3秒,有光栅15秒-20秒)

再比较出色彩控制中的<自动>和<彩色图像转为灰度图像>,发现后者还是要稍快一些。

色彩控制中的其他选项对图片清晰度有很大影响,不便修改。

结论:kindle使用的PDF应设置为<不使用混合光栅>,<图像设置>选择<自定义>,<原始分辨率>,<将彩色图像转为灰度图像>,<质量>选择<不允许质量损失>,这样得到的双层PDF在kindle上的打开速度在3秒左右,翻页速度也在2-3秒

用Pdg2Pic、TextForever实现批量OCR

刘, 博文阅读(1993)

一、FAQ

Q:什么是OCR?

A:OCR是Optical Character Recognition(光学字符识别)的缩写,简单点说,就是将扫描出来的书籍图像文件,转换成可以编辑、查找的文本文件。

Q:为什么要OCR?

A:理由如下(不是全集,您还可以想象其它的理由):

以目前的技术,图像文件还不能进行全文检索,但是转换成文本后想怎么检索都好说。

图像文件上的文字很难被引用,但是复制、粘贴文本谁不会?

与文本文件的尺寸相比,图像文件显得大了点。

图像文件的浏览比较受限制,看多了容易疲劳,文本文件相对好一点。当然也有人对此持相反观点。

不可否认,目前网上文本格式的书源要比图像格式的贫乏许多,在OCR的门槛降低到人人都能参予后,相信会有助于丰富文本格式的书源。

Q:OCR的好处已经明白了,那么它有没有什么短处?

A:世间不如意,常十之八九:

以目前的OCR技术,还不能保证准确率达到100%,因此OCR出来的结果可能会包含大量的错字、别字,需要进行校对。

以目前的技术,想完整再现原文版式是一件很有难度的工作,因此OCR出来的结果通常还需要重新排版。

OCR需要进行复杂的内部运算,消耗大量的CPU时间。

最关键的一点:以目前能够达到的技术,OCR用来识别以文字为主的文史类书籍还凑合,要想识别图文混排、中英文混排、包含复杂表格、字体应用比较丰富(尤其是斜体)的理工类书籍,识别出来的结果多半有点哭笑不得。

如果看了上面的说明后您已经对OCR心灰意冷,可以不必浪费时间往下看了。

Q:为什么要用Pdg2Pic、TextForever来做OCR?

A:目前市面上有很多成熟的OCR产品,包括清华、汉、丹青等。从我使用的情况看,这些产品的识别率基本上已经接近技术的极限, 只是在使用方便性上还有一些不足,尤其是在批量识别方面。而Pdg2Pic、TextForever(以下简称PT)则是专门为了批量OCR而设计的。如果您觉得批量识别用处不大,建议您还是选择这些专业OCR软件。

Q:PT在技术上有什么特点?

A:PT基于微软Office 2003提供的Microsoft Office Document Imaging (MODI)所带的OCR引擎。这个引擎的中文识别(包括简体和繁体)采用的是清华的技术,因此具有下列特点:

在简体中文环境下识别简体,或在繁体中文环境下识别繁体都没有问题,但是想在简体环境下识别繁体,或在繁体下识别简体,则需要对软件进行配置或安装,详见后面的叙述。

识别率比上不足,比下有余,毕竟清华也不会傻到自断财路。但是在所有商业级OCR软件中,微软MODI是唯一公开编程接口的,因此才能被PT所调用。如果您能够提供识别率更高,并且没有法律后患的其它OCR引擎的编程接口,我很愿意对PT进行更改。

OCR引擎本身提供了对字符的识别,但是没有提供版式恢复功能。MODI将识别结果发送到wps里的版式校正是微软自己做的,我自认做不到那个水平,所以OCR出来的结果在排版方面需要多花点功夫。

Q:为什么其它OCR软件都很大,而MODI的尺寸这么小(简体中文版安装包才5MB多一点)?

A:在历史上,针对印刷体OCR的技术路线,国内OCR界曾经爆发过一场争议,主要观点分成两派:

一派认为为了提高识别率,应该先识别出印刷(打印)时采用的字体,然后针对字体特征进行识别。国外OCR界在识别字母文字时也有人持相同的观点。这种路线的好处是显而易见的:

1、在识别出字体后,字符特征相对固定,识别率能够得到提高。

2、得到原文的字体后,便于恢复原文版式。

当然缺点也是明摆着的:需要针对每一种可能遇到的字体建立特征库,如果需要识别的字体不在事先建立的特征库范围内,则识别率急剧下降。但是众多的特征库不仅占用存储空间,对OCR的运行效率也有影响。

另一派认为事物是有区别的,但又是普遍联系的,如果割裂这些联系,就会……(以下省略高中《辨正唯物主义》教材中的若干着名论断)。总之,在他们看来,字体会变,但是汉字的笔画是不会变的,中文的“文”字那一横在宋体中是平的,在楷书中是斜的,但是一横就是一横,绝对不会变成一竖。因此该派认为没有必要为所有字体建立特征库,大家共用一个就可以了。这种路线的好处是:

1、特征库比较单纯,库的体积相对较小,识别速度也相对较快。

2、即使需要识别的字体比较少见,识别率也不会差到离谱。

这种路线的缺点是:

1、需要针对大量字体进行特征归纳,并在机器归纳基础上手工调整,开发的时候比较累。

2、由于大量字体之间的平均效果,识别率会比采用第一种路线的差上那么一点点,不过做好了感觉就不是那么明显了。

3、由于没有字体信息,很难恢复原文版式。

在开始的时候,由于硬盘资源对于用户来说是一种比较昂贵的资源,因此清华是第二条路线的坚定支持者和倡导者。但是随着OCR引擎的竞争逐渐转移到对原文版式的恢复上,而硬盘价格直线下降,清华开始全线转移到第一条技术路线上。从MODI安装的文件来看,微软购买的显然是清华采用第二条技术路线时的产品,所有字体共用一个特征库,尺寸当然就下来了。

与此形成对照的是某些人喜欢用的CAJViewer。从文件上看,它采用的也是清华的OCR引擎,而且是按第一条路线实现的,附带庞大的字体特征库,安装包几乎是MODI的10倍大小,速度也比MODI慢。但是从应用功能上看,CAJViewer仅仅识别出纯文本,没有字体信息,至少没有将识别出来的字体信息展现出来。用一个形象但不一定恰当的比喻,相当于花钱买了一整只烤鸭,结果只吃了一个鸭PP就算了,总给人一点冤大头的感觉。

Q:如果我对OCR出来的结果不满意,怎么办?

A:OCR效果和下列因素有关:

OCR引擎。这个不行就只能换一个。不过如前所述,我能用的就只有MODI一个。

图像质量。这个其实是决定OCR质量最为关键的因素。好的图像应该黑白分明、页面端正、字迹清楚,无笔画间断、粘连,或污迹干扰。如果原始图像较差,可以先手工进行修正,包括纠斜、去除污迹、调整图像明暗等。处理时推荐使用专业图像处理软件,如果用不了也可以用简单点的ComicEnhancer Pro。

语言选择。中文简体和繁体的识别是不同的,英文和中文的识别也不同,因此针对图像中的文字,选择合适的语言,有助于提高识别率。

二、开始转换

1、为在简体中文环境下OCR繁体中文所做的准备

如果您不需要在简体环境下识别繁体,或在繁体环境下识别简体,可以跳过本节。

让繁体Office 2003支持中文简体OCR非常简单:到下面的页面去下载一个简体OCR安装包,运行即可安装:

http://www.microsoft.com/downloads/details.aspx?familyid=dd172063-9517-41d8-82af-29c38f7437b6&displaylang=zh-tw

简体中文Office 2003想支持繁体OCR则没有这么简单,至少在我写这篇文章的时候,微软尚未发布繁体OCR的安装包。不过变通的方法也不是没有:找一台安装了繁体中文Office 2003的机器,进入下面的文件夹:

C:\Program Files\Common Files\Microsoft Shared\MODI\11.0

将下面的文件复制到安装了简体中文Office 2003的相同文件夹下:

TCCODE.UNI

TCPRINT.DAT

TCPRINT2.DAT

TERHT.DAT

TCTREE.DAT

TW_BU.DAT

TW_UB.DAT

TWBIG532.DLL

这样改造后,直接用Office 2003的MODI还不能OCR繁体,因为在MODI的“工具->选项”中,在“OCR”这一页的“OCR语言”项里就没有“中文(繁体)”选择。不过对于直接调用MODI的编程接口的PT来说,这样处理后就已经可以识别繁体中文了。

我比较了一下,似乎在繁体中文Office 2003环境下安装简体OCR包后,并没有改变MODI的EXE文件,所以我猜测可以通过更改配置的方法让简体中文MODI出现“中文(繁体)”选项,不过我试了一下没有试出来,如果有哪位高人愿意指点,还请不吝指教。

另外在简体中文环境下,按照上述步骤设置后,用PT识别出来的繁体中文是GBK编码的繁体字,可以用TextForever的“编码转换功能”批量转换成GB编码的简体字。

2、OCR前的图像准备

想要OCR,当然首先就要有OCR所需的图像文件。对于Pdg2Pic,只需准备PDG文件即可。对于TextForever,由于它只认单色(黑白)TIFF文件,因此如果原始图像文件不是单色TIFF,需要先对图像进行转换,转换的时候如果能顺手对图像进行一下清理、纠斜当然更好。

转换、清理、纠斜都可以使用专业图像处理软件完成,不过对于一般用户,建议使用简单点的免费软件ComicEnhancer Pro 。 这个软件不仅能够批量将图像转换成单色TIFF(“色彩”选项选“单色”),而且能够对图像进行处理,以改善页面效果。所有处理功能都能实时预览到处理效果,便于修改。

需要注意的是,对于PDG文件,建议不要转成图像后再用TextForever识别,而是直接用Pdg2Pic识别,以避免某些多层PDG转来转去损失质量。

3、开始OCR

Pdg2Pic和TextForever的操作都差不多,先选择需要OCR的文件夹,然后选择结果文件,即可开始转换。对OCR选项的解释如下:

自动旋转:选中此复选框可检测页面中文本的方向,并旋转倒置或倾斜的页面图像。

自动拉伸:选中此复选框可检测页面中文本的方向,并对正稍未对齐的页面。

语言:选择OCR语言。可供选择的有英文、中文简体、中文繁体。缺省为中文简体。

注意:自动旋转、自动拉伸均需要时间,考虑到多数文件不需要进行校正,因此这两个选项缺省不选中。如果页面确实变形比较厉害,可以选中后重新OCR。不过有时“自动旋转”出来的结果偏差比较大,所以建议只选“自动拉伸”即可。

4、OCR之后的麻烦事

OCR过程很简单,点几下鼠标就完事了,但是要想真正将结果实用化,还至少需要做两件事:校对和排版。当然这两件事也可以合二为一。

对于有条件的人来说,校对可以用软件自动进行,但是自动校对软件不是一般人愿意装或能够装的,那就只能靠人工校对。人工校对的时候建议用ComiViewer,它能同时显示图像和文本,便于对照。对于真正对电子书比较投入、对校对要求较高的人,建议还是仿照一般电子书网站的作法,找几个同道,成立一个校对组做校对,一个人做太枯燥了。

排版也是一个比较麻烦的过程,各人喜好不同。我比较喜欢用TextForever的“段落合并”功能,通过调整“上一行行长比平均行长短少1/x”参数来改变效果(这个选项缺省不选,需要手工打开)。

用手机就可以扫描文件 ,你知道吗?

刘, 博文阅读(979)

扫描文件又没有扫描仪,怎么办?

其实手机就可以变成扫描利器。

今天,又分享一款好用的手机APP,

这就是坚果云扫描。

它的主要功能是扫描纸质文件,

左图是拍照,右图是处理后文件。

扫描文件

步骤1.选择光线良好的环境,将文件平铺于桌面,尽可能将文件展平。

步骤2.进入坚果云扫描APP,点击拍摄,即可自动去除杂乱的背景,切边,生成高清JPG或PDF文件。

如果觉得切边不合适,还可以手动调整边缘,直到符合要求。

切边后,还可以选择原图、增亮、增亮并锐化、黑白、灰度等图像处理模式,并决定是否锐化,增加对比度、亮度,调节细节。

用坚果云扫描完全可以制作

和扫描仪一样的电子版文件。

除了直接对文件拍照处理外,

还可以从手机导入图片进行处理。

我在工作和生活中,

长期使用这个APP,

还利用它保存证件,重要文件等资料。

电脑上怎样扫描文件转换成word?

刘, 博文阅读(932)

前几天朋友问我会不会在电脑上扫描文件转换成word文档?其实这是个很简单的操作,借助一下我们电脑上的OCR文字识别软件就可以了。相关具体操作大家来看一下吧。

第一步:首先我们需要借助一种辅助工具——迅捷OCR文字识别软件,如果我们的电脑里没有的话,可以在百度或者软件管家搜索并下载安装到我们的电脑里。

第二步:打开安装好的工具,使OCR文字识别软件进入到后台运行的状态。

第三步:当我们进入到OCR文字识别软件的界面后,可以在左侧版块看到该软件的几种功能,在OCR文字识别功能中点击“图片局部识别”功能。

第四步:进入到图片局部识别的页面,首先就是要为该功能添加图片文件内容,可点击页面中的“上传图片”。

第五步:成功把文件添加完成,在页面的下方有导出格式和导出目录需要我们修改一下。

第六步:看我们需要修改成什么格式,就可以改成什么格式了,最后点击“开始识别”,这样就完成扫描文件转换成word的操作了。

大家学会了吗?很简单的几个操作,有需要的可以收藏学习一下。希望对大家有所帮助呀!

票据扫描OCR识别,增值税发票OCR识别、机动车发票识别、火车票识别、行程单识别

刘, 博文阅读(978)

出差回来报销的时候最烦的是不是各种票据的整理、贴票?财务人员在整理的时候是不是经常遇到报销事项和发票对不上号的?每个月财务人员是不是为大量票据信息录入而头痛不已?

针对以上难点,北京译图智讯科技有限公司制定出票据OCR扫描识别解决方案,通过OCR识别技术,1秒获取票面信息,票据OCR扫描识别解决方案主要包含增值税发票OCR识别,机动车发票OCR识别、火车票OCR识别、行程单OCR识别,运用智能化扫描识别系统自动录入替代传统手工录入,大幅度提升票据信息录入效率。

增值税发票OCR识别

可支持识别增值税专用发票、增值税普通发票、电子发票图像版、电子发票打印版

机动车发票OCR识别

可支持识别机动车发票原件、机动车发票复印件、机动车发票图像版

火车票OCR识别

票据OCR扫描识别解决方案的特点:

支持移动端Android、IOS系统,同时也支持服务器(私有云)进行票据识别,兼容Linux系统、Windows系统

移动端支持视频流识别(扫一扫)、拍照识别、图片导入识别模式

支持识别多种格式的图片票据,有JPG、PDF、TIF、BMP等格式

添加打印机或扫描设备

刘, 博文阅读(1278)

如果打印机为有线连接,请将其插入你的设备。 它将自动连接,你的电脑将下载正确的驱动程序,你可以立即使用它。 若要连接无线打印机,请按照下列步骤操作:

选择 “开始   ” 按钮,然后选择 “设置”  >设备>打印机 & 扫描仪“>”添加打印机或扫描仪“。

等待它找到附近的打印机,然后选择想要使用的打印机并选择“添加设备”。 如果稍后你想要删除该打印机,只需将其突出显示并选择“删除”。

如果看不到你的打印机,请尝试使用 Windows 10 中修复打印机问题中的步骤解决此问题。

用OCR文字识别软件,轻松扫描转换文件格式

刘, 博文阅读(1025)

作为受大众喜爱的OCR文字识别软件,ABBYY FineReader 15有着强大的扫描和保存文档功能,用户可使用扫描仪或数码照相机获得图像文档,然后再转换为各种数字格式文档。

在“新任务窗口”中选项“扫描”选项卡,用户可将文件扫描保存成以下格式:

● 扫描至OCR编辑器

● 扫描至PDF

● 扫描至Microsoft wps

● 扫描至Microsoft Excel

● 扫描至图像文件

● 扫描至其他格式,从通过扫描仪或数码相机获得的图像拆个那就常见格式的文档,比如:odt、*.pptx、*.epub、*.html。

图-1 扫描保存文档

一、扫描至OCR编辑器

ABBYY FineReader软件的OCR编辑器允许用户:

● 手动绘制和编辑识别区域

● 检查识别出的文本

● 训练ABBYY FineReader识别非标准字符和字体

● 使用其他高级工具确保获得可能的最佳OCR结果

文档扫描完成后,扫描的图像将添加到OCR项目中,并使用之前用户指定的预处理和自动化设置进行处理,以获得更为准确的文档输出。

图-2 扫描至OCR编辑器

二、扫描至PDF

用户可通过扫描仪或数码相机获得图像后创建PDF文档,并可指定转换设置,决定输出文档的外观和属性。其中设置的“图像品质”决定了图像与图片的质量,进而影响输出文件的大小。

图-3 扫描至PDF

三、扫描至Microsoft wps

用户可通过扫描仪或数码相机获得图像后创建Microsoft wps文档,并可指定转换设置,决定输出文档的外观与属性。其中设置的“保留格式”决定了文档的格式以及可编辑程度。

图-4 扫描至Microsoft wps

四、扫描至Microsoft Excel

用户通过扫描仪或数码相机获得图像后创建Microsoft Excel文档,并可指定转换设置,决定输出文档的外观和属性,用户为文档的输出设置“为每页创建单独的表”。

图-5 扫描至Microsoft Excel

五、扫描至图像文件

用户可通过扫描仪或数码相机创建图像文件,并可指定转换设置,决定输出文档的外观与属性。用户可选择输出的图像文件格式以及压缩程度。

图-6 扫描至图像文件

通过使用扫描、保存文档功能,用户可将图像文件转换为各种数字文档格式,并可转换为可编辑的格式,供进一步的文件编辑,有助于提高文档的利用率,以及减少重复输入文本的繁琐工作。

电脑怎么扫描身份证件

刘, 博文阅读(2440)

以Win10系统为例,具体操作如下:

1、首先,需要有一台扫描仪或者带扫描功能的打印机,将其和电脑连接起来;

2、然后,将身份证件放在扫描仪中,盖好盖子;

3、接着打开“控制面板”,点击“查看设备和打印机”;

4、右键点击连接好的打印机,点击“Microsoft扫描仪和照相机导向”并点击“确定”;

5、最后,等待扫描文件显示出来,保存即可。

如果没有扫描仪,可以在手机上下载坚果云扫描等第三方软件,用手机拍照制作出扫描件;或者也可以将证件放在一张白纸上,用手机拍照,上传到电脑上,将多余的部分截图,然后把截图粘贴在wps里,同时调整合适的图片位置和拉动调节大小,最后保存制作好的文件,用的时候直接打印就行了。

电脑怎么提供电子扫描件

刘, 博文阅读(1054)

日常办公中经常使用打印机打印,有时候需要将文件扫描成电子版保存在电脑。

电脑扫描件制作方式:

1、在电脑桌面的左下角图标单击,选择“设备和打印机”;

2、在设备和打印机的框中的设备中双击即将使用的扫描仪;

3、在显示新扫描的界面中,调好设置之后,将左下角的对勾去掉;

4、单击扫描,这时就会显示扫描的进程;

5、当扫描完成的时候回弹出导入对话框,这时输入要导入的名字,输入文件名字,选择导入;

6、保存成功后,会自动回弹出扫描文件所在的位置,电脑电子扫描件就完成了。

电子扫描件是用扫描仪或者照相机将纸质的文件资料扫描后生成的电子图片。扫描件便于携带,只需要放在手机里或者U盘里,直接交给别人,避免了纸质笨重和不易携带的缺点。

简单3步帮你实现纸质文档快速转成电子版

刘, 博文阅读(1228)

对于有办公需求的用户来说,需要把纸质文档快速转成电子版是他们工作中经常会遇到的问题。那么,有什么办法可以快速地实现纸质文档快速转成电子版呢?今天,小编就教大家一招,使用坚果云扫描轻松实现纸质文档快速转成电子版的方法,快来一起看看吧。

1. 打开坚果云扫描,点击拍摄按钮,对准文件进行拍摄;

2. 拍摄好的文件会进行自动切边,也支持手动调整边缘;

3. 拍摄好的文件可以添加滤镜,调整亮度对比度等;

点击保存,即可生成高清扫描件。

好了,关于纸质文档快速转成电子版的方法今天就说到这里,相信大家应该都已经get到如何使用坚果云扫描实现纸质文档快速转成电子版了吧?希望今天的教程对你有帮助。

免费扫描软件 无广告 无水印

坚果云扫描下载坚果云扫描介绍