扫描OCR心得-坚果智云扫描

以比较实惠普遍的紫光扫描仪为例。不要用扫描仪默认简化扫描程序，默认的简化扫描扫出来的图很大不算，还没法压缩。如果是用扫描软件，不但可以根据需求设置各种参数，扫出来的tif不要看着大，真压缩成rar，可压缩率极高……不舍得拆书的，就尽量用力把书压平（还是伤书，最好的办法就是借“微不足道”的书来扫）。

启动清华TH-OCR XP专业版。

文件——扫描设置——黑白，分辨率400，亮度自选或50——扫描。

预览——选择扫描范围（无用的纸边，页码都可以在选择框外，节省空间和ocr识别时的工作效率，电脑很笨，你扫下什么它都给你识别出来，好好地文档我要那么多书名、作者名、页码……干嘛。）

不要用简化设置。

高级选项——亮度选自动（要不页中会出现大范围的黑条）。

色彩——阙值调到100。

默认是128，如你扫描的是发黄的旧书（比如二手英文口袋本），扫出来的字会模煳。如书有水渍（口水？眼泪？%%液？），还可以适当把阙值降低。

扫描默认为tif文件。

扫好后，如果是简体，直接用TiffToy合并成一个大的tif文件。用ABBYY FineReader 9.0 识别。

ABBYY FineReader 9.0 选择简体中文

可添加成简体中文；英语

文档语言——更多语言——手动指定语言——分号；后打上英语——确定

其他细化设置

工具——选项

【保存】——【保存布局】——纯文本。

【高级】——【更多】——突出显示不确定的字符。

识别完毕，另存为doc，ABBYY会自动帮去软回车和排版。对照原书把识别错误修订（数字，拉丁符号识别不出；句号。会识别成0；”会识别成’，……）。反正傻电脑识别不出的会突出显示（字背景有颜色，我设置的颜色是绿，默认的记得是伤眼睛的亮黄色）。

如果是繁体，用ComicEnhancerPro把图片由tif转换成png格式，再用cutterV2.0把图片一切为二（可批量处理）。

cutterV2.0——添加图片（可批量添加，如果默认000是最后一幅图，先删掉再添加一次该图就好）——纵向切刀——分割文件名反向——储存路径（注意转换后图片保存格式也选是png，要不默认的jpg损失图片质量）——开始分割。

分割完后再用ComicEnhancerPro把图片由png转换成tif格式（如果不是tif，ABBYY FineReader识别起来范围会不完全）。

用TiffToy合并成一个大的tif文件。用ABBYY FineReader 9.0 识别。

ABBYY FineReader 9.0 选择繁体中文（可添加成繁体中文；英语）

识别完毕，另存为doc，ABBYY不自动帮去软回车和排版。

繁体转化成简体，「替换成引号“，」替换成引号”。注意替换的时候选择的格式是英文的引号”，如果你是用默认的中文“”，」替换成引号”不会有问题；但「替换成引号“时会出现引号“”交替出现的现象，而不是你所要求的全变上引号“。

用wps打开doc，工具——文字工具——段落重排（去掉不必要的每行硬回车）。对照原书把识别错误修订。至此一本国内不会引进的繁体书就成了你的电脑私人收藏了。

扫描OCR心得