近十年来,档案管理已从原来的纸质档案转变为电子档案管理。 无疑,电子档案的出现彻底改变了原有的档案管理模式。 大数据和人工智能技术的快速发展,正在推动社会向智能化、物联网、互联网方向发展。 同时,电子档案的应用也对智能化管理提出了时代要求。 在杭州市档案馆“OCR+NLP在档案数据化中的研究与实践”项目中,汉王科技利用人工智能技术对杭州市档案馆现有档案系统进行升级改造,处理现有档案,激活档案内容,一方面,更容易申请; 另一方面,也是新时代档案建设的一大重点。
档案数字化问题
正如杭州市档案馆副馆长马立强在《OCR+NLP在档案数据化中的研究与实践》项目中指出,“我国现有档案馆一直在进行持续的电子扫描工作,大量的纸质档案扫描获取图像数据,一方面为档案的长期保存提供了便利,另一方面也对档案的电子化利用提出了新的挑战。
马立强认为,档案电子化应用离不开档案数字化。 与档案电子化相比,档案数字化是对档案数据的进一步组织和挖掘。
可以理解汉王ocr文字识别软件教程,电子档案后获得的图像数据仍然是一种非结构化数据,不利于查询检索和统计分析。 档案数字化是将非结构化档案图像转换为结构化数据的过程。 在此过程中,提取出档案中的核心结构化数据,可用于档案的全文检索、精准查询、统计分析、关联挖掘等。 为下游任务提供数据支持。
据介绍,档案数字化工作可分为三个层次。 第一个是档案图像的文本识别。 在这个过程中,OCR技术主要用于对档案中的文本进行识别和提取。 二是知识抽取。 在此过程中,主要基于NLP(自然语言处理)技术来提取档案的核心要素。 三是关联挖掘。 在此过程中,主要是在前两个阶段获得的结构化数据的基础上,应用知识图谱和数据挖掘技术来挖掘数据的内在关联性,形成通用的文档级和元素级关联。
他指出,我国档案数字化工作现状存在一些问题,主要体现在上述档案数字化工作的第二、三层次,即从档案中提取知识的工作很少,而且知识抽取缺乏统一的标准。 作为知识提取的上游环节,OCR文本识别应输出的数据格式缺乏明确的规范和标准。
解决方案:OCR+NLP
在这项研究中,马立强表示,传统OCR技术的核心是识别图像中的文本,再加上通过NLP技术对文本块进行自然语言语义分析,只有更好地进行完整的知识提取。
他还提到,该项目的联合申请人之一是汉王科技,该公司在深度学习和人工智能领域拥有深厚的技术积累,在OCR和NLP技术领域有许多成功的相关实施案例,例如中文文学和历史。 出版社知识图谱项目、中国建设银行云档案项目、上海图书馆时事自动记述项目、国家图书馆地方志知识提取项目等、汕头市民档案数字化项目等。
无独有偶,在行业实践中,汉王科技也意识到了同样的问题——仅靠OCR是不够的。
资料显示,2013年,汉王科技将文档电子化触角延伸至图书馆、档案馆、银行、医院、法院等国家项目。 但在这些具体项目的实施过程中,汉王科技也开始逐渐认识到文档电子化只是知识和信息应用的一部分。
“静态文本是没有生命的。” 汉王数字首席数据科学家聂宇告诉记者,电子文档不挖掘文本,缺乏知识之间的关联性。 文档的非结构化数据必须结构化并转化为技术。 术语需要使用NLP自然语言处理技术。
应用创新及未来趋势
一方面,得益于当时的行业背景,2015年,随着深度学习算法的快速进步以及大规模社交文本数据和语料数据的不断积累,NLP技术突飞猛进。 另一方面,汉王在NLP领域处于领先地位。 2016年,汉王科技与武汉大学自然语言处理团队联合开展文档大数据研发工作,力争突破NLP技术,建立自己的大型文档数据库系统。
同时,汉王科技还积极推动NLP行业应用并进行创新研发。 例如,其新一代人工智能档案大数据处理平台基于全卷积神经网络(FCN)提取特征序列,实现全局特征和局部特征的结合,可以比较有效地解决档案的文字定位和检测布局复杂、噪声严重的图像。
据介绍,该平台采用长短期循环神经网络(LSTM)作为序列学习,嵌入时间特征,有效建模序列的内部关系,解决复杂档案图像的单字符分割和识别问题。布局和严重的噪音。 基于以上技术构建的OCR,全文识别引擎可以自动定位任何扫描文件图像的文本区域,并自动识别文本类型(手写或打印),然后准确识别文本并输出识别结果,可用于有背景噪声的图像。 通过定位特定情况下的文本区域,并基于大量样本图像的实际测量,平均识别准确率可以超过95%。 汉王科技的OCR技术也广泛应用于小语种,特别是满文、藏文识别,平均识别准确率超过98%。
汉王相关负责人指出,自2016年NLP技术积累以及各子公司的产业应用以来,汉王科技已形成从技术研发到法院、医院、图书馆、档案馆等广泛的NLP领域、银行等行业。 在应用闭环中,各子公司在技术与场景应用的协同上也形成了良好的联动效应。
最后,马力强总结道:“从国内外研究发展趋势来看,目前档案数字化工作大部分集中在档案图像的OCR识别上。目前的OCR识别是以准确识别文字为主要目标。为后续知识抽取所需的版面相关信息往往不会被识别和保存,但基于档案相关数据的特点,OCR识别将从文本识别扩展到文本块区域识别、表格识别、连接识别、字体大小识别等。识别是未来的必然趋势,只有这样才能与下游信息或知识提取处理无缝衔接,因此未来档案数字化必将从基于纯文本的信息提取技术发展到整体信息提取结合文本语义信息和布局信息的技术。 不可避免的趋势。”
注:OCR(光学字符识别)是指电子设备(如扫描仪或数码相机)检查打印在纸张上的字符,通过检测暗色和亮色图案来确定其形状汉王ocr文字识别软件教程,然后使用字符识别方法翻译形状的过程生成计算机文本。 NLP(自然语言处理)是研究人与计算机交互中的语言问题的学科。
------------------------------------------
(市场有风险,投资交易需谨慎。我们不对所涉及的标的物做出任何建议,您据此进行投资和交易,风险自负。)