文章作者
钟宇 1, 董浩*2, 3, 4, 邢军 2, 徐艳 1, 胡行峰 5, 赵鹏贤 5, 周明珠 2, 于健 2, 杨进 2
1.新疆维吾尔自治区烟草质量监督检验站,乌鲁木齐经济技术开发区天柱山街55号 830026
2.国家烟草质量监督检验中心,郑州高新技术产业开发区翠竹街6号 450001
3.中国科学院合肥物质科学研究院,合肥市蜀山湖路350号 230031
4. 合肥市金寨路96号中国科学技术大学 230026
5.重庆中烟工业有限责任公司 重庆市南岸区南屏东路2号 400060
文章摘要
为了解烟草行业质量数据分析利用现状及应用需求,选取卷烟、烟叶、烟材等12类产品,对重点行业质检机构进行调查。以及该行业的商业企业。
结果表明:①行业质量数据分布层次清晰、数据量大、覆盖率高,能够满足大数据分析的需求; ②传统的描述性统计方法主要用于完成数据分析,数据分析需要重点关注卷烟产品的质量状况和质量。 趋势和预测、实验室能力水平和资源分配等; ③数据分布分散、孤立,信息系统较多,系统间协调性差是主要问题。
建设行业质量大数据,应重点关注质量数据库建设、数据标准体系制定、大数据分析技术应用、数据共享与安全、技术人才培训等。
本研究可为充分利用优质数据资源提高卷烟产品质量提供支撑。
文章背景
烟草行业优质数据分布广泛,数据资源结构化程度高,数据连续性好。 但由于缺乏系统的收集、整合和挖掘,质量数据没有得到充分利用,无法实现质量数据分析和质量建立的全过程。 数据相关的应用系统。
为此,在对行业重点工商企业质检机构的调查基础上,研究质量数据分析利用现状及应用需求,旨在为质量大数据平台建设提供依据和支撑。用于烟草业。
文章概述
如图1所示,根据检测项目和数据量,检测数据一般呈金字塔状分布。
图1 烟草行业质量数据分布
图1 烟草行业质量数据分布
调查的卷烟、烟叶、烟材等12类产品检出量均较大。 每类产品又进一步细分为一级指标和二级指标。 产品类别及一级指标分布如图2所示。其中,烟叶占比最大(19.45%),该类别一级指标有11项。 一级指标涵盖多项二级指标,二级指标主要包括产品信息和检测结果。
12类产品一级、二级指标数量分布如表1所示。
图2 产品类别及一级指标分布
图2 各产品类别及一级指标分布
表1 各类产品质量信息分布
表1 烟草行业主要产品质量信息分布(个)
各产品类别工业企业(代号A1~A6)质量信息覆盖情况如图3所示。
可以看出,调查的6家工业企业中有4家各级指标覆盖,2家有无烟丝束质量信息,1家无滤棒成型纸质量信息。 各工业企业各项指标平均覆盖率最高为A1(86%),最低为A5(14%),平均为61%。 各类产品中,卷烟的指标覆盖率最高(74%),其次是条状和盒状包装纸(70%)、卷烟水松纸(70%)。
图3 工业企业各项指标覆盖率
图3 工业企业各项指标覆盖率
商业企业质检站(代号B1~B6)各产品类别质量信息覆盖情况如图4所示。
可见,各质检站的质检情况差异较大。 6个质检站全部检测卷烟产品,1个站检测烟胶和卷烟三醋精,2至3个站覆盖其余产品。 卷烟指标平均覆盖率为76%,最高为97%,最低为66%。
图4 质检站各项指标覆盖情况
图4 质量监督检测站各项指标覆盖率
调查单位在不同应用场景下采用的主要数据分析方法如表2所示。
可以看出,各单位主要利用描述性统计分析各项指标的构成、排序、集中度和离散性,通过寻找特征和规律进行预警和生产指标控制,提高产品质量。
表2 不同应用场景所采用的数据分析方法
表2 不同应用场景下的数据分析方法
图5显示了数据分析需求调查结果的词频分布。 可以看出,质量、分析等关键词在工业企业(图5a)和商业企业质检站(图5b)中相对流行。
a.工业企业
b. 质检站
图5 工业企业及质检站质量大数据需求词频分布
图5 工业企业及质量监督检验站质量大数据词频分布
需求被分类、整理、归纳为11类。 结果如图 6 所示。
可见软件需求分析?,质量趋势分析和预测分析的需求位居首位。 由于工业企业产品和用于制造产品的供应商数量众多,且各种历史数据长期积累,分析和掌握历史数据趋势有助于指导产品。 设计、开发、制造和质量管理; 其次是卷烟产品质量分析的需求。 目前,企业和质检机构的数据大部分是孤立存在的。 由于分析技术和手段的限制,企业无法全面、准确、及时地掌握卷烟产品。 全国市场质量状况; 三是实验室能力水平需求和资源配置分析。 随着实验室资质审核的深入开展,企业逐渐更加关注实验室能力水平。
图6 各类优质大数据需求分布
图6 各类别对优质大数据的需求
存在的问题分为三个维度:技术、数据、业务。 每个单元涉及三个维度共40个问题。 问题项分布如图7所示。
可以看到,技术维度问题最多(20 项,分布在 8 个单元),其次是数据维度(15 项,分布在 8 个单元),第三是业务维度(5 项,分布在 8 个单元)。 5 个单位)。
图7 各单元题项三个维度分布
图7 各机构三个维度问题项分布
各维度数据问题的主要表现如表3所示。可见,当前主要问题是数据分布分散,数据孤岛现象普遍存在。
表3 各维度数据问题主要表现
表3 各维度数据问题的主要表现
本研究得到国家烟草专卖局重大科技专项“烟草行业质量控制大数据构建与应用研究”[110202101080(SJ-04)]的资助; 重庆中烟工业有限责任公司科研项目“基于大数据的卷烟产品质量分析预测及追溯系统研究”(JL/CQZY G SJ001-01)。
引用这篇文章
钟宇,董浩,邢军软件需求分析?,等。 烟草行业质量数据利用现状及应用需求分析[J]. 烟草科技, 2023, 56(2): 104-112.
钟宇,董浩,邢军,等。 烟草行业质量数据利用现状及应用需求[J]. 烟草科技, 2023, 56(2): 104-112.
DOI:10. 16135/j。 ISSN1002-0861.2022.0687
本文节选自《烟草科技》2023年期《烟草行业质量数据利用现状及应用需求分析》文章。
原文链接:
编辑|褚美洁
回顾|周亚宁
最终审判|曹娟