DB15/T 1873-2020 大数据平台 数据接入质量规范
- 文档部分内容预览:
DB15/T 18732020
图2数据标准制定流程
数据标准制定流程描述如下: 数据标准管理组织协调者组织数据提供者和执行者参与数据标准属性的收集和整理工作,并按 照协商一致的原则形成数据标准初稿; 数据标准初稿进行多次的讨论和丰富后ppp,形成数据标准送审稿提交给数据标准管理决策者; 经过数据标准管理决策者的讨论审核后,由数据标准管理组织协调者再次进行数据标准的修改 完善,并完成数据标准的发布
6.1.2数据标准执行
数据标准管理执行流程见图3。
图3数据标准执行流程
DB15/T18732020
数据标准执行的流程步骤描述如下: 数据标准制定发布后,将数据标准录入到数据标准管理模块; 数据标准管理执行者按照发布的数据标准,制定和发布数据标准接口; 数据标准管理模块将标准要求提供给数据质量管理,根据已录入系统的数据标准形成稽查规则, 对数据标准管理执行者制定和发布的数据标准接口中的内容进行相关的标准稽核监控; 1 将标准稽核结果发送给数据标准管理模块,并反馈给数据标准管理决策者和数据标准管理执行 者。
6.1.3数据标准维护
数据标准的维护指数据标准建立后,根据业务需求的发展变化或外部数据标准要求不一致时,对数 据标准的内容进行变更和版本管理,见图4:
女据标准维护流程描述如
图4数据标准维护流程
数据标准维护流程描述如下: 对执行的相关数据标准进行变更请求的申请,组织该数据标准相关执行层和各数据运维者进行 讨论和变更需求汇总; 由数据标准管理组织协调机构进行标准变更的审核; 讨论审议数据标准项的变更内容,并形成标准变更需求审批表提交给数据标准管理决策层进行 审批; d)决策层将审批结果反馈给标准管理组织协调者,并由其进行数据标准发布及版本维护
6.1.4数据标准监控
数据标准监控实现对数据标准执行过程的监控,包括对数据标准的执行、效果、问题进行监控管理, 为后期数据标准维护管理提供依据。数据标准的监控通过数据标准管理和元数据管理、数据质量管理协 同实现落地。
DB15/T18732020
6. 2数据采集质量控制
为了保证数据质量,根据数据仓库建设的总体目标和设计对数据的采集阶段提出严格、明确的质量 要求及必要的标准,具体要求如下: a)待采集数据字段长度、精度、类型等应优先遵循遵循国家标准、行业标准的约定: b) 采集过程支持元数据的保留,包含技术元数据和业务元数据; c)支持对元数据的监控,控制数据库和表结构的异常修改,保证数据质量; d)支持采集阶段初步数据检核; 采集阶段具体流程图见图5:
6.3数据存储质量控制
在数据存储阶段需通过多种检核规则及任务调度方式对数据进行检核,数据存储阶段要求如下: a)支持从5个维度、7种检核规则和自定义检核规则对数据进行数据质量检核; 1)5个维度包含完整性、规范性、准确性、唯一性、关联性: 2)7种检核规则包含空值校验、值域校验、格式校验、长度校验、精度校验、唯一性约 束校验、主外键校验; 3 自定义检核规则指根据具体业务场景,用户可以通过自定义SQL语句的方式完成对数 据质量的检核; b)支持检核任务的创建,检核规则的设定; 支持检核任务的创建和检核任务调度方式的设定; 检核任务调度支持自动调度和手动调度; e 支持数据的全生命周期管理; 支持对元数据的版本管理。 基于检核规则对数据检核流程图见图6:
DB15/T18732020
量检核流程说明: a)接入待检核数据源; D 创建检核方案; 1)针对系统内置的检核规则,选择检核规则,具体包含空值校验、值域校验、格式校验、 长度校验、精度校验、唯一性约束校验、主外键校验;针对自定义检核规则,通过自 定义Sql语句实现检核规则; 2)确定待检核的对象,即选取待检核的数据库、待检核的表以及字段; 关联检核方案,创建检核任务; d 配置检核任务的调度方式,可通过定时器实现自动调度,亦可通过人为实现手工调度: 任务被调度后是查看任务执行日志; ? f 支持生成数据质量报告并提供下载功能,基于质量报告可实现异常数据发现并处理
6. 4 数据使用质量控制
数据使用要求如下: a) 支持对数据进行监控,明确数据的来源和去向; b) 支持数据地图、血缘分析、影响分析等方式的数据展现; c) 支持对数据资产的安全性管控; d) 支持对操作日志以及用户登录、退出的日志审计; e) 支持数据质量报告分析的查看及下载; f) 支持问题数据的告警; 名) 支持对问题数据进行整改分析。 数据使用阶段流程图见图7:
DB15/T18732020
图7数据全流程监控流程图
数循使用防 在数据采集和数据存储基础上,实现血缘分析、数据地图、影响分析、版本管理、质量报告、 问题数据整改分析、数据告警、质量评分; 使用阶段支持数据及功能的权限控制; 支持系统审计,包含操作日志审计和登录登出日志审计:
式中: R 每个检核规则得分; 数据集D上被检核出的异常数据总量; 需要进行检核的数据集,对于关系型数据库来说,一个数据集由若干条记录组成; W 规则对应权重值,需人工设置每个规则的权重,
式中: T一一检核任务评分; 数据集D上被检核出的异常数据总量; 规则对应权重值,需人工设置每个规则的权重; D 需要进行检核的数据集,对于关系型数据库来说,一个数据集由若干条记录组成; n一一条检核任务中检核规则的个数。 注:一个检核任务可包含多条检核规则。
DB15/T18732020
DB15/T1873—2020
附录A (资料性附录) 数据质量评价维度
按照数据规则要求,数据元素被赋予数值的程度。即完整性指的是数据信息是否存在缺失 数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整 能借鉴的价值会大大降低,完整性是数据质量评估标准的基础。
表A.1完整性评价指标
居标准、数据模型、业务规则、元数据或权威参
表A.1规范性评价指标
DB15/T18732020
数据与其他特定上下文中使用的数据无矛盾的程度。即一致性是指数据是否遵循了统一的规 集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻车
表 A. 2一致性评价指标
DB15/T18732020
数据准确表示其所描述的真实实体(实际对象)真实值得程度。即准确性是指数据记录的信息是 异常或错误。
密封圈标准表A.3准确性评价指标
数据唯一不重复。即唯一性是指度量哪些数据是重复数据或者数据的哪些属性是重
数据的关联不可缺失的。即关联性是度量哪些关联的数据缺失或者未建立索引。 关联性评价因素: a)查找到的信息和主题不完全一致,但确是其中某一方面的阐述; 查找到的信息集合多数在用户需要的检索主题内: C 提供的信息主题与用户检索主题相匹配; 查找到的信息多数与用户需要的信息无关: e)信息必须和用户需求有相关性
DB15/T18732020
数据在时间变化中的正确程度。即及时性是指数据从产生到可以查看的时间间歇,也叫做数据 时长,及时性对数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可 分析出的结论失去借鉴意义。
表A.4时效性评价指
数据能被访问的程度。
公园标准规范范本表A.5可访问性评价指标
....- 数据标准
- 相关专题: