以比较实惠普遍的紫光扫描仪为例。不要用扫描仪默认简化扫描程序,默认的简化扫描扫出来的图很大不算,还没法压缩。如果是用扫描软件,不但可以根据需求设置各种参数,扫出来的tif不要看着大,真压缩成rar,可压缩率极高……不舍得拆书的,就尽量用力把书压平(还是伤书,最好的办法就是借“微不足道”的书来扫)。
启动清华TH-OCR XP专业版。
文件——扫描设置——黑白,分辨率400,亮度自选或50——扫描。
预览——选择扫描范围(无用的纸边,页码都可以在选择框外,节省空间和ocr识别时的工作效率,电脑很笨,你扫下什么它都给你识别出来,好好地文档我要那么多书名、作者名、页码……干嘛。)
不要用简化设置。
高级选项——亮度选自动(要不页中会出现大范围的黑条)。
色彩——阙值调到100。
默认是128,如你扫描的是发黄的旧书(比如二手英文口袋本),扫出来的字会模煳。如书有水渍(口水?眼泪?%%液?),还可以适当把阙值降低。
扫描默认为tif文件。
扫好后,如果是简体,直接用TiffToy合并成一个大的tif文件。用ABBYY FineReader 9.0 识别。
ABBYY FineReader 9.0 选择 简体中文
可添加成 简体中文;英语
文档语言——更多语言——手动指定语言——分号;后打上 英语——确定
其他细化设置
工具——选项
【保存】——【保存布局】——纯文本。
【高级】——【更多】——突出显示不确定的字符。
识别完毕,另存为doc,ABBYY会自动帮去软回车和排版。对照原书把识别错误修订(数字,拉丁符号识别不出;句号。会识别成0;”会识别成’,……)。反正傻电脑识别不出的会突出显示(字背景有颜色,我设置的颜色是绿,默认的记得是伤眼睛的亮黄色)。
如果是繁体,用ComicEnhancerPro把图片由tif转换成png格式,再用cutterV2.0把图片一切为二(可批量处理)。
cutterV2.0——添加图片(可批量添加,如果默认000是最后一幅图,先删掉再添加一次该图就好)——纵向切刀——分割文件名反向——储存路径(注意转换后图片保存格式也选是png,要不默认的jpg损失图片质量)——开始分割。
分割完后再用ComicEnhancerPro把图片由png转换成tif格式(如果不是tif,ABBYY FineReader识别起来范围会不完全)。
用TiffToy合并成一个大的tif文件。用ABBYY FineReader 9.0 识别。
ABBYY FineReader 9.0 选择 繁体中文(可添加成 繁体中文;英语)
识别完毕,另存为doc,ABBYY不自动帮去软回车和排版。
繁体转化成简体,「替换成引号“,」替换成引号”。注意替换的时候选择的格式是英文的引号”,如果你是用默认的中文“”,」替换成引号”不会有问题;但「替换成引号“时会出现引号“”交替出现的现象,而不是你所要求的全变上引号“。
用wps打开doc,工具——文字工具——段落重排(去掉不必要的每行硬回车)。对照原书把识别错误修订。至此一本国内不会引进的繁体书就成了你的电脑私人收藏了。