大型文档、扫描件、PDF 和照片可以转换为可复制的文本或 Word。 请参阅文章末尾的下载链接。
第一步:首先打开需要转换的图片或者PDF文件,看看有哪些语言可用;
第二步:运行软件,在“文档语言”下拉列表中选择“更多语言”;
第三步:在“语言编辑器”中勾选包含的语言“简体中文和英文”,点击“确定”;
第四步:返回“任务”,点击“快速打开”;
第五步:弹出“打开图像”对话框,选择需要转换的文件,也可以选择多个文件进行批量识别转换,例如选择PDF文件,勾选自定义页面范围,输入“5 -8”页面识别汉王ocr文字识别软件教程,然后点击“打开”;
第六步:点击“主工具栏”上的“阅读”,阅读所有无法识别的页面;
第七步:软件会自动分析页面上不同类型的区域,如文字、图片、背景图片、表格、条形码等,并在“图像”窗口中绘制和调整无法正确识别的检测区域。 调整区域后,请再次点击“阅读”。 ” 识别;
步骤8:如果“文本”窗口识别的布局与源文件的布局差异太大,请在“主工具栏”中的“文档布局”中选择“精确复制”; 通常推荐“可编辑副本”。
步骤9:在“文本”窗口中,可能出现的错误字符将以蓝色背景色显示出来,以便于校对和纠正。 您可以右键单击文本以显示原始图像和候选字符,然后选择正确的字符,并手动识别未正确识别的字符。 输入更正;
步骤10:校对完成后,选择“主工具栏”上的“另存为Microsoft Word文档”,或选择菜单“文件”-“文档另存为”-“Microsoft Word文档”,也可以另存为其他文档可编辑的文档格式。
注意:有些文件比较模糊,您可以尝试调整分辨率,如下图所示。 一般300dpi,其他分辨率可根据文件尝试。 不要忘记单击“应用”退出图像编辑器。退出后,再次单击即可阅读页面。
1. 文档预处理。 在一本书中,通常有一些部分不需要OCR。 您可以复制源文档,然后删除副本中的这部分内容。 有些文件的页面排列比较规则。 您还可以使用Acrobat对PDF文本进行修剪,去除文档的页眉页码(这部分工作也可以使用本软件的“区域”功能完成)来创建OCR版本。
2. 在软件中打开PDF文档。 如果您的计算机上安装了该软件,请右键单击 OCR 的 ODF,然后选择使用该软件打开。
3. 选择语言。 打开后,选择【文档语言】,一般为“简体中文和英文”(注:即使你要校对中文书籍或外文书籍的中文译本,也需要选择这种方式。因为会有一个小翻译中的英文量,不选此项会导致英文部分出现乱码)
4. 起始页分析。 阅读意味着软件对文本进行分析。 您可以选择手动分析(如果页面不多或者文本格式复杂)。 如果你比较懒,而且你的文档质量很高,格式也不复杂,那么可以交给软件来分析。 这样,软件就会自动对您的文档内容进行页面分析。 有些部分被分析为“文本”,有些部分被识别为“图片”(如果有的话),有些部分被识别为“表格”(如果有的话))。 但……
5. 手动修正读数分析结果。 因为软件在自动分析页面时有时会出现一些错误,例如没有分析就遗漏了某个部分,或者包含了不必要的组件(例如将页眉分析为正文)。 这种直接交给软件分析的方法存在一些问题,增加了后续校对的工作量。
所以我建议您点击【分析】按钮,然后等待软件自动分析您文档的页面内容。 软件分析后,可以快速逐页查看。 如果有错误,可以手动修正(如果想减少后期校对的工作量,手动修正确实很有必要)。 校正完成后,点击【读取】,软件就会开始识别。
整改时,主要应注意以下事项:
1)是否有文字缺失;
修正方法:
如果想要包含漏掉的文字,可以拉动识别框(文字识别框为绿色,表格识别框为蓝色,图片识别框为红色),将漏掉的文字包含进来;
2)是否有被识别为正文的页眉或页码(这个一般问题不大,因为校对时可以很快删除)
修正方法:
如果分析后有多余的东西或不想被识别的内容,可以点击【删除】,然后光标会变成靶心形状。 如果您想删除该部分,只需单击该部分即可。
3)将图片或表格识别为文字
纠正方法:比如表格被识别为文本,可以点击【表格】,然后用鼠标在目标区域手动拉出一个表格框。 如果软件识别的表格缺少一些边框线,您也可以使用上方表格框上方的行表格工具手动添加。
6. 软件开始识别。 点击【阅读】,让软件对PDF或图片进行OCR识别。
7.高级应用。 以上是这个软件最底层、最基础的应用。 这个软件其实还有很多更高级的应用,不过我没有深入使用过。 这里我会提到高级内容中的区域模板。
关于这个解释,我想软件的帮助文件已经说得很清楚了。 我附在这里供您参考。
使用区域模板
使用区域模板
如果您需要处理大量具有相同布局的文档(例如表单或调查问卷),则分析每个页面的布局可能非常耗时。 为了节省时间,仅分析一组相似文档中的一个并将检测到的区域保存为模板。 然后该模板将用于该组中的其他文档。
要创建区域模板:
·打开图像,让程序自动分析布局或手动绘制所需区域。
·从“区域”菜单中选择“保存区域模板...”命令。 在“保存”对话框中输入模板的名称,然后单击“保存”。
重要的! 要使用区域模块,必须使用相同的分辨率值扫描组中的所有文档。
应用区域模板:
·在“页面”窗口中,选择要应用区域模板的页面。
·从区域菜单中选择加载区域模板...
·在“打开区域模板”对话框中选择所需的区域模板(区域模板文件的扩展名为*.blk)。
·在同一对话框中,选择旁边的应用到选定页面汉王ocr文字识别软件教程,将模板应用到选定页面。
注意:选择“所有页面”可将模板应用到当前文档的所有页面。
·单击“打开”按钮。
8、识别后文件的保存。 软件识别后,下一步就是保存。 保存按钮右侧有两个小按钮,一个是“保存图片”,一个是“保存页眉页脚”。 前者根据情况可选,后者我从不保存。
我建议您以两种格式保存,一种是word(或txt),另一种是pdf。 保存Word时,有四个选项可供选择:“精确副本”、“可编辑副本”、“格式化文本”和“纯文本”。 我建议选择后两者。 那么为什么我们需要保存pdf文档呢? 这是因为,经过识别后,如果我们保存为pdf格式,该文档就变成了可搜索的PDF文档(阅读时可以进行标记、突出显示、选择,相应的文本就出来了)。 这样,当我们在校对的时候,遇到不确定的地方,就可以选择与其相邻的几个单词,在你新保存的PDF中进行搜索,方便快速定位。
我常用的校对方法
对于新识别的文本,我首先在电脑前快速编辑,去掉几个乱码、汉字之间的空格,纠正非段落换行和明显错误。 (现在可以使用 K4user 的宏脚本更轻松地实现这些。)
然后我一般都会在电脑前看一两章。 这个时候我经常会发现一些常见的错误。 例如,该软件经常将“suan”识别为“非单词”(根本不存在的单词)。 ,但我会发现这些错误可以通过word的查找和替换功能快速纠正。 (现在可以使用 K4user 同学的宏脚本更轻松地用常见的识别错误替换这些错误。)
下载链接:
提取码:lbhq
如果无法下载,请联系客服。 关注公众号并联系客服获取。