发布信息

大型文档,扫描件,PDF,照片均可转换成可复制的文字或者Word

作者:软荐小编      2023-06-24 09:01:20     245

文档、扫描件、PDF 和照片都可以转换为可复制的文本或 Word。 请参阅文章旁边的下载链接。

第一步:首先打开需要转换的图片或PDF文件,并勾选语言;

第二步:运行软件汉王ocr文字识别软件教程,在“文档语言”下拉列表中选择“更多语言”;

汉王ocr识别表格_汉王ocr文字识别软件教程_汉王ocr文字识别软件(汉王pdf ocr8.1简体中文版)

第三步:在“语言编辑器”中勾选包含的语言“简体英语和日语”,点击“确定”;

汉王ocr文字识别软件(汉王pdf ocr8.1简体中文版)_汉王ocr识别表格_汉王ocr文字识别软件教程

第四步:返回“任务”,点击“快速打开”;

汉王ocr文字识别软件教程_汉王ocr文字识别软件(汉王pdf ocr8.1简体中文版)_汉王ocr识别表格

第五步:弹出“打开图像”对话框,选择需要转换的文件,或者选择多个文件进行批量识别转换,例如选择一个PDF文件,勾选自定义页面范围,输入“5-8”页面识别汉王ocr文字识别软件教程,然后点击“打开”;

汉王ocr文字识别软件教程_汉王ocr识别表格_汉王ocr文字识别软件(汉王pdf ocr8.1简体中文版)

第六步:点击“主工具栏”上的“阅读”,阅读所有无法识别的页面;

汉王ocr文字识别软件教程_汉王ocr文字识别软件(汉王pdf ocr8.1简体中文版)_汉王ocr识别表格

第七步:软件会手动分析页面上不同类型的区域,如文字、图片、背景图像、表格和条码,对“图像”窗口中无法正确识别的测量区域进行轮廓和调整,调整区域再次点击“阅读”进行识别;

汉王ocr文字识别软件(汉王pdf ocr8.1简体中文版)_汉王ocr识别表格_汉王ocr文字识别软件教程

步骤8:如果“文本”窗口识别的布局与源文件的布局差异太大,请在“主工具栏”中的“文档布局”中选择“精确复制”; 通常推荐“可编辑副本”

汉王ocr文字识别软件(汉王pdf ocr8.1简体中文版)_汉王ocr文字识别软件教程_汉王ocr识别表格

第九步:在“文本”窗口中,可能有错误的字符会以黑色背景色显示出来,以便校对和纠正。 您可以右键单击文本,显示原始图像和要选择的字符,然后选择正确的字符。 如果字符识别不正确,将直接自动输入正确;

步骤10:校对完成后,选择“主工具栏”上的“另存为Microsoft Word文档”,或选择菜单“文件”-“文档另存为”-“Microsoft Word文档”,或保存为其他可编辑的文档格式。

汉王ocr文字识别软件教程_汉王ocr识别表格_汉王ocr文字识别软件(汉王pdf ocr8.1简体中文版)

注意:有些文件比较模糊,您可以尝试按照右图调整帧率。 一般为300dpi,其他码率可根据文件尝试。 不要忘记点击应用退出图像编辑器。退出后再次点击即可阅读页面

汉王ocr文字识别软件(汉王pdf ocr8.1简体中文版)_汉王ocr文字识别软件教程_汉王ocr识别表格

1. 文档预处理。 一本书中,通常有一些部分不需要OCR。 您可以复制源文档,然后删除副本中的这部分内容。 有些文档的页面排列比较规则,还可以使用Acrobat对PDF文本进行裁剪,去除文档的脚注和页脚(这部分工作也可以使用本软件的“区域”功能来完成) ,并制作OCR版本。

2. 在软件中打开PDF文档。 如果您的笔记本中安装了该软件,请右键单击 OCR ODF,然后选择使用该软件打开它。

3. 选择语言。 打开后,在【文档语言】中选择,一般选择“简体英语和日语”(注:虽然你要校对英文书籍或外文书籍的中文翻译,但也需要选择这种方式。因为会有小翻译中的英文量,如果不这样选择,会导致中文部分出现乱码)

4. 起始页分析。 阅读是指软件对文字进行分析,可以选择自动分析(如果页数不多或者文字排版比较复杂)。 如果你比较懒,而且你的文档质量很高,但是排版并不复杂,你可以交给软件来分析。 这样,软件就会手动分析你文档的页面内容,有的部分被解析为“文本”,有的部分被识别为“图片”(如果有的话),有的部分被识别为“表格”(如果有的话)) 。 和……

5. 手动校准读取的分析结果。 因为软件在手动解析页面时有时会出现一些错误,例如省略了一些未解析的部分,或者包含了不必要的组件(例如将脚注解析为文本)。 这些直接交给软件分析的方法都存在一些问题,减少了接收和校对的工作量。

所以我建议您点击【分析】按钮,等待软件手动分析您的文档内容。 软件分析后,可以快速逐页查看。 如果有错误,可以手动修正(如果想减少后期校对工作量,手动修正确实很有必要),修正完成后,点击【阅读】,软件就会开始识别。

更正时应注意以下几点:

1)文字是否有遗漏的部分;

修正方法:

如果想包含缺失的文本,可以驱动识别框(文本识别框为红色,表格为黑色,图片为白色)来包含缺失的文本;

2)是否有被识别为文本的脚注或页脚(这通常问题不大,因为校对时可以很快删除)

修正方法:

分析中有多余的东西或不想被识别的内容,可以点击【删除】,然后光标会变成目标形状,如果要删除,可以点击该部分

3)将图片或表格识别为文本

纠正方法:例如,如果表格被识别为文本,可以单击【表格】,然后使用键盘在目标区域手动拉出表格框。 如果软件识别的表格缺少个别边框线,您仍然可以使用前面表格框前面的行表格工具手动添加。

6. 软件开始识别。 点击【读取】让软件对PDF或图片进行OCR识别。

7.高级应用。 以上就是这个软件最高端、最基础的应用。 这个软件其实有很多高级应用,我没有深入使用过。 这里我要提一下高级内容中的区域模板。

关于这个解释,我觉得软件的帮助文件说的很清楚了,这里附上供大家参考

使用区域模板

使用区域模板

如果您需要处理大量具有相同布局的文档(例如表单或调查问卷),分析每个页面的布局是一项非常耗时的任务。 为了节省时间,仅分析一组相似文档中的一个,并将测量的区域保存为模板。 然后,该模板将用于该组中的其他文档。

要创建区域模板:

· 打开图像,然后让程序手动剖析布局或自动勾勒出所需区域的轮廓。

• 从“区域”菜单中选择“保存区域模板...”命令。 在“保存”对话框中输入模板名称,然后单击“保存”。

重要的! 要使用区域模块,必须使用相同的帧速率值扫描组中的所有文档。

要应用区域模板:

· 在页面窗口中,选择要应用区域模板的页面。

从区域菜单中选择加载区域模板...

·在“打开区域模板”对话框中,选择所需的区域模板(区域模板文件的扩展名为*.blk)。

·在同一对话框中,选择“应用到相对的选定页面”以将模板应用到选定页面。

注意:选择“所有页面”会将模板应用到当前文档中的所有页面。

·单击“打开”按钮。

8. 识别后保存文档。 软件识别后,连接时保存。 保存按钮左侧有两个小按钮,一个是“保存图片”,一个是“保存脚注脚注”。 后者根据情况可选,前者我从不保存。

我建议你保存为两种格式,一种是word(或txt),一种是pdf。 保存Word时,有“精确副本”、“可编辑副本”、“格式化文本”和“纯文本”四个选项。 我建议选择后两者。 那么为什么要保存 pdf 文档呢? 这是因为,经过识别后,如果我们保存为pdf格式,该文档就变成了可搜索的PDF文档(您可以对相应的文本进行标记、突出显示或选择确定)。 这样,我们在校对的时候,如果有疑问,就可以选择与这个地方相邻的几个单词,在你新保存的pdf中进行搜索,方便快捷地定位。

我平时校对的方式

对于新识别的文本,我首先在笔记本前面快速编辑,去除几个乱码、英文字符之间的空格,并纠正非段落换行和明显错误。 (现在的这些可以通过K4user朋友的宏脚本更容易地实现。)

后来我一般习惯在笔记本前看一两章。 这个时候我经常发现一些常见的错误。 例如,软件经常将“count”识别为“非单词”(根本不存在的单词),我会发现这种错误可以通过单词的查找和替换功能快速纠正。 (现在可以使用K4user朋友的宏脚本来更轻松地替换常见的错误识别。)

下载链接:

提取码:lbhq

相关内容 查看全部