识别扫描文档中的文本
您可使用 Acrobat 识别以前已转换为 PDF 扫描文档的文本。光学字符识别(OCR)软件允许您搜索、更正和复制扫描的 PDF 中的文本。要将 OCR 应用于 PDF,必须已经将原始扫描仪分辨率设置为 72 dpi 或更高。
注意:
以 300 dpi 扫描会生成最适合转换的文本。以 150 dpi 扫描时,OCR 精度会略有降低。
识别单个文档中的文本
打开扫描的 PDF。
选择工具 > 扫描和 OCR > 识别文本 > 在本文件中。
“识别文本”选项显示在辅助工具栏中。
在辅助工具栏中,选择文本识别的页面范围和语言。
视情况单击“设置”以打开“识别文本”对话框,然后根据需要指定选项。
单击“识别文本”。Acrobat 将在您的 PDF 中创建一个可进行搜索或者可复制并粘贴到新文档中的文本图层。
识别多个文档中的文本
选择工具 > 扫描和 OCR > 识别文本 > 在多个文件中。
在“识别文本”对话框中,单击“添加文件”,然后选择“添加文件”、“添加文件夹”或“添加打开的文件”。然后选择相应的文件或文件夹。
在“输出选项”对话框中,指定输出文件的目标文件夹以及文件名首选项。
在“识别文本 – 一般设置”对话框中,指定选项,然后单击“确定”。
Acrobat 将在您的 PDF 中创建一个可进行搜索或者可复制并粘贴到新文档中的文本图层。
“识别文本 – 一般设置”对话框
文档语言为 OCR 引擎指定用于识别字符的语言。
输出(PDF 输出样式)确定要生成的 PDF 的类型。所有选项都需要 72 dpi 或更高(建议)的输入分辨率。所有的格式应用 OCR 和字体和页面识别于文本图像并将其转换为正常文本。
可搜索的图像确保文本是可搜索和可选择的。本选项保持原始图像,根据需要抗扭斜和将不可见文本层放在其上方。在同一对话框中选择“对图像缩减像素采样”可确定是否对图像缩减像素采样以及缩减的程度。
可搜索的图像(精确)确保文本是可搜索和可选择的。本选项保持原始图像,根据需要抗扭斜和将不可见文本层放在其上方。建议用于要求原始图像最大保真度的情况。
可编辑的文本和图像合成一个与原始字体非常接近的新的自定义字体,并使用低分辨率副本保留页面背景。
缩减像素采样至在 OCR 完成后减少彩色、灰度和单色图像的像素数。选择要应用的缩减像素采样的程度。更高的选项使用较少的缩减像素采样,产生更高分辨率的 PDF。
更正 PDF 中的 OCR 文本
在扫描输出中运行 OCR 时,Acrobat 会对文本位图进行分析,并使用单词和字符替代这些位图区域。如果不确定最佳替代方案,Acrobat 会将单词标记为 可疑 。可疑单词会以原始位图形式显示在 PDF 中,但会将相应文本包含 在 单词位图后的不可见图层上。这使得单词可以搜索,即使它显示为位图。
注意:如果您试图在未应用 OCR 的扫描 PDF 中选择文本,或者试图在图像文件中执行“朗读”操作,Acrobat 会询问您是否希望运行 OCR。如果单击“确定”,将会打开“文本识别”对话框,您可以在其中选择相关选项,这些选项在上一个主题中有详细说明。
选择工具 > 扫描和 OCR > 识别文本 > 更正识别的文本。
Acrobat 将识别可疑的文本错误,并在辅助工具栏中并排显示图像和文本。(它会框出页面中所有可疑的字词。)
单击文档中突出显示的对象或框,然后在辅助工具栏的“识别为”框中更正该内容。单击“接受”。
这将会突出显示下一个可疑错误。根据需要,更正错误。每次更正后单击“接受”。
任务完成时,单击辅助工具栏中的“关闭”。