观点
打
蓝色的
特点
关闭
笔记
我
他们
截至本文撰写时,国家档案局网站()
档案行业标准(DA/T 1~DA/T 95)一共有95项,其中约一半或多或少与档案信息化相关。 如果要选择“有争议”的档案信息 当相关行业标准出来时,笔者不妨投DA/T57-2014《档案关系型数据库转换成XML文件技术规范》。
注:DA/T 57-2014是指整个关系数据库中的数据记录以及各种数据库对象(数据库用户、角色、权限、数据表结构、数据表关系、视图、存储过程、约束、索引、触发器、等)甚至二进制大数据字段Long(或RAW/IMAGE/TEXT/BLOB/CLOB)都转换成XML文件。 而不是简单地将目录数据从数据库表导出到 XML 文件中。
对于这些二进制大数据字段的处理,规范是这样说的:
即将二进制大数据字段存储的文件内容转换为base64编码并嵌入到XML文件中。
不知道有没有档案部门做过这样的事情,比如将Oracle、MS SQL Server、大盟数据库DM等大型关系数据库转换成XML文件进行存储; 或者有任何信息技术公司曾经帮助过档案馆吗? 部门的工作完成了吗? 笔者从事档案信息行业20多年,确实从未见过这种情况。
本文不讨论“将关系数据库转换为XML文件”的具体技术路线。 仅讨论了“将关系数据库转换为XML文件”的原因和必要性,这是该标准的争议点。
01
原因和目的
首先,笔者想说的是,如果从这个标准的名称中去掉“档案”二字,基本上不会对标准本身产生影响。 因此,严格来说,这个标准的“档案行业特征”并不明显。
事实上,在标准全文中,除了提出单位和起草单位是档案部门外软件设计文档数据库部分,与档案业务直接相关的主要就是下面这句话:
这句话非常关键:
首先,解释了“关系数据库要转换为XML文件”的原因:实现档案信息的开放格式、不受软件和硬件的束缚、文件自包含、格式自描述、连续可解释性和可转换性;
其次,它解释了“关系数据库转换为XML文件”的目的是为了“存储”。
第一点(理由)
我们先分析第一点(原因)。 这句话的出处是DA/T 47-2009《版图电子文件长期保存的格式要求》,规定了版图电子文件归档保存格式选择的要求,共有11大项:开放格式,不与软件和硬件绑定,文件自包含,格式自描述,显示一致,可连续解释,健壮,可转换,易于存储,支持技术认证机制,易于使用。
简单对比可知,DA/T 57-2014标准第4.1条选取了电子文件长期存储格式要求中的六种。
第二点(目的)
由此,我们还可以推断出第二点(目的):DA/T 57-2014标准第4.1条中的“存储”是指“长期保存”,即“将关系型数据库转换为XML文件”就是实现档案信息的“长期保存”。
02
必要性
接下来我们探讨一下“将关系型数据库转换为XML文件”之后是否“格式开放、不受软硬件束缚、文件自包含、格式自描述、可不断解释、可转换”,以及达到“长期保存”。
毫无疑问,XML文件格式显然比关系数据库更加开放。 格式本身不与软件和硬件绑定。 文件内容全部包含在XML文件中(文件内容的二进制数据转换为base64编码并嵌入到XML文件中)。 该格式是自描述的,并通过架构进行验证。 从这些方面来看,“将关系数据库转换为XML文件”肯定是有用的。
但“连续可解释”和“可转换”不一定是相同的。 我们知道DA/T 47-2009是版面电子文件的长期保存格式要求。 布局格式的一大好处就是布局固化,或者说“显示一致性”,这对于“连续可解释性”和“连续可解释性”很重要。 “易于使用”有很大帮助,为电子文件的“长期可用”奠定了基础,但无论是关系数据库还是XML文件显然都做不到这一点。 至于“可兑换”,则是有条件的。 关键是看转换的目标格式。 关系型数据库转换成XML文件后,如果想让以后的人能够理解它,并且更容易使用,就只能将其恢复到原来的数据库环境,并与应用系统结合起来,将文件完整地展现出来。信息。 且不说技术上能否做到100%转换恢复,如果做到了,一开始把关系数据库转换成XML文件其实就没有什么实际意义了。
有人可能会说我们只关心关系数据库中存储的数据记录。 一开始,我们只是将关系数据库中存储的数据记录转换为XML文件。 将来,将它们转换为其他格式或解析和恢复它们将非常困难。 很方便软件设计文档数据库部分,还不够吗? 笔者完全同意这一点。 其实早期的小型数据库如Foxpro、dbase、Access等都是这样做的,大型关系数据库导出部分数据进行交换也是这样做的,但这和讨论的不一样在本文中。 与主题无关。 DA/T 57-2014谈到将整个关系数据库中的数据记录以及各种数据库对象和其中的二进制大数据字段转换为XML文件。
03
FCLA 数字保护金字塔
我们来看看“长期保存”的要求。 引用佛罗里达图书馆自动化中心(FCLA)提出的数字保存金字塔模型,如下图:
从上图可以看出,数字资源的可用性是整个模型的基础和前提。 如果没有可用的数字资源,则无需长期保存; 可识别性、完整性、耐用性和可访问性表示能力是一个子目标。 同时,在长期保存过程中需要采取各种技术和管理措施来实现这些目标,如对象描述、安全存储、载体管理、保存策略等; 数字资源长期保存的最终目标是保证数字资源的真实性和可理解性,即长期保存数字对象的真实性、可靠性并被用户理解和使用。
关于FCLA数字保存金字塔模型的详细介绍,请参考这篇公众号文章,这里不再赘述。 笔者只是想说,按照DA/T 57-2014的要求将“关系型数据库转换为XML文件”显然无法达到“长期保存”的目的,所以是否有必要这样做值得怀疑。
04
应该如何归档并长期保存?
说到这里,有人可能会问:既然“将关系型数据库转换为XML文件”存在争议,那么关系型数据库文件应该如何归档并长期保存呢? 这个问题比较复杂,需要单独讨论。 作者更喜欢信息包(SIP或AIP)方式。 信息包的详细介绍可以参考这篇公众号文章。 简单的建议可以参考GB/T 18894-2016《电子文档归档与电子档案管理规范》8.3.5中的表述:
8.3.5a)
8.3.5 a) 实际上只保存数据库中的目录数据(可以分表),因为ET和XLS格式显然不适合保存数据库对象,并且不能保存Long(或RAW/IMAGE/TEXT)在大型关系数据库表中。 /BLOB/CLOB) 类型大数据字段。
8.3.5 b)
8.3.5 b) 转换为布局文件固然好,实现布局固化和显示一致性,但实际操作难度较大,工作量很大。 是采用还是部分采用,需要根据实际情况而定。
数字罗塞塔计划公众号致力于作为中立第三方客观、公正地表达对档案信息领域的看法和意见。 真相日渐明朗,我们真诚欢迎越来越多的人投身档案数字资源管理与保存领域的研究,发表真知灼见,共同为人类文明的传承而努力!