GB/T 38667-2020 信息技术 大数据 数据分类指南.pdf

  • GB/T 38667-2020  信息技术 大数据 数据分类指南.pdf为pdf格式
  • 文件大小:18.3 M
  • 下载速度:极速
  • 文件评级
  • 更新时间:2020-11-10
  • 发 布 人: 13648167612
  • 文档部分内容预览:
  • 据的涉密程度、安全性、保护需求等; f)调研数据应用情况,包括但不限于数据的使用目的、应用领域、使用方式等; g)调研数据时效性情况,包括但不限于数据处理的时效性要求、数据价值时效性等;

    5.3.2确定分类对象

    确定分类对象过程包括: a) 确定数据分类的业务场景; b) 确定数据产生的起止时间; c) 确定数据量大小; d) 确定数据产生频率; e) 确定数据结构化特征; f) 确定数据存储方式; g) 确定数据处理时效性; h) 确定数据交换方式; i) 确定数据产生来源; j) 确定数据流通类型; k) 确定数据质量; 1) 确定数据敏感程度。

    5.3.3选择分类维度

    工程技术选择分类维度过程包括: a)梳理分类视角的数据特征; b)根据数据特征选取分类维度。 注:分类维度见第7章。

    选择分类维度过程包括: a)梳理分类视角的数据特征; b)根据数据特征选取分类维度。 注:分类维度见第7章。

    5.3.4选择分类方法

    选择分类方法过程宜明确分类维度的排列顺序和组合方式。 注1:分类方法见第8章。 注2.若选择混合分类法,还需考虑以哪种分类维度为主,哪种分类维度作为补充。

    5.4.1拟定实施流程

    拟定实施流程宜结合大数据的生命周期,拟定具体的分类实施流程,包括但不限于明确实施步骤、 启动实施工作、开展实施工作、总结实施过程等

    5.4.2开发工具脚本

    开发工具/脚本宜根据实施流程、分类维度和分类方法编写分类算法,遵循软件开发或者脚本编制 的规范开发分类工具/脚本。

    5.4.3记录实施过程

    记录实施过程宜记录分类实施过程的各个步骤及其分类结果,输出文档

    5.4.4输出分类结果

    分类结果宜梳理各个步骤的分类结果,形成数据分

    5.5.1核查实施过程

    核查实施过程包括: a)核查数据分类表,明确类别划分是否合理; b)核查分类过程记录,明确分类结果与预期目标的偏离程度; c)核查分类维度,确保分类维度符合业务需求、分类目标; d)核查分类方法的合理性; e)根据核查结果调整大数据分类过程

    5.5.2访谈相关人员

    访谈相关人员包括: a)访谈数据分类执行者,询问分类视角、范围、维度、方法与业务场景的关联性等; 访谈数据所有者,询问数据分类结果中的数据权属类别划分、产生频率类别划分等是否符合实 际情况; 访谈数据管理者,询问数据分类结果中的数据结构化类别划分、数据存储方式类别划分、稀疏 程度划分、敏感程度划分等是否符合实际情况; 访谈数据使用者,询问数据分类结果中的数据处理实时性划分、交换方式类别划分、业务归属 类别划分、流通类型类别划分等是否符合实际应用情况; 核查意见和问题,调整大数据分类过程

    5.5.3测试分类结果

    测试分类结果包括: a)对分类后的数据执行分类脚本或程序,查看是否有不符合分类策略的分类结果; b)核查意见和问题,调整大数据分类过程。

    变更控制包括: a)分析变更的必要性和合理性,确定是否实施变更; b)制定变更计划,评估变更对大数据分类工作的影响,包括分类维度、分类方法的改变等: c)执行变更,对分类结果进行更改,记录变更过程; d)对新的大数据分类结果进行评估; e)发布新的大数据分类结果。

    定期评估包括: a)定期评估大数据分类维度和方法的合理性,检查其是否符合业务场景变化和分类视角变化

    b)定期评估大数据分类结果的有效性和应用情况,检查其是否满足业务应用需求的更新; c)核查意见和问题,调整大数据分类过程

    分类视角分为技术选型视角、业务应用视角和安全

    技术选型视角包括但不限于: a)理清数据产生频率,明确数据产生规律,确定数据更新周期和存储策略,确定数据存储平台配 型等存储资源分配方案; b)理清数据产生方式,分析数据的来源和质量,确定在整个数据处理流程中数据所处的位置,及 数据处理及存储技术; 分析数据的结构化特征,确定数据存储与处理方案; d)明确数据的存储方式,确定数据建模模型与数据的访问方式,支撑各类数据应用场景; e)理清数据稀疏稠密程度,明确数据稀疏稠密规律,确定数据存储策略和分析方法,选择数据存 储方案和分析方案; 明确数据处理时效性要求,明确数据处理时机,确定数据处理策略,选择包括计算平台和资源 匹配等的数据处理方案; g)理清数据交换方式,确定数据共享方式及策略,支撑构建信息交换体系

    业务应用视角包括但不限于: a)理清数据产生来源,明确数据权属和访问权限,便于数据追踪溯源; b)明确数据应用场景,确定数据业务主题,判断数据应用价值,选择数据分析方案; )明确数据分发场景,确定数据应用行业,明确可用数据的种类和范围; d)理清数据质量情况,明确数据应用需求,确定数据质量管理方案。

    6.4安全隐私保护视角

    安全隐私保护视角包括但不限于: a)明确不同敏感程度的大数据在存储、传输、访问、分发时的安全要求; b)明确不同敏感程度的大数据的隐私保护要求; c)指导分类主体制定隐私保护方案; d)指导分类主体制定安全管理方案。

    本章从技术选型 种视角给出不同的分类维度,以及用于描述 维度的分类要素、数据类别和适用场景。

    技术选型 应用和安全 私保 种视角给出不同的分类维度,以及用于描述每种分类 要素、数据类别和适用场景

    7.2.1按产生频率分类

    按产生频率分类是指根据数据产生的频率(单位时间内产生的数据量或达到指定数据量 数据进行分类。

    7.2.1.2分类要素

    按产生频率分类的要素包括: a)数据产生周期,如秒、分、时、关、周、月、季度、半年、年等; b 单位周期中数据的产生量,可以以记录条数表示或者以数据占用空间表示,如百万条记录 万条记录、GB级数据、TB级数据等

    生频率分类的要素包括: 数据产生周期,如秒、分、时、天、周、月、季度、半年、年等; 单位周期中数据的产生量,可以以记录条数表示或者以数据占用空间表示,如百万条记录、千 万条记录、GB级数据、TB级数据等。

    按产生频率可分为:每年更新 更新数据、每日更新数据、每小时更新数 分钟更新数据、每秒更新数据、无更

    7.2.1.4适用场景

    7.2.2按产生方式分类

    按产生方式分类是指按照数据的产生方式对数

    7.2.2.2分类要素

    按产生方式分类的要素包括: a)数据被获取或被采集的方式,如人工采集、通过信息系统采集等; b)数据被加工的程度,如原始数据、二次加工数据等。

    按产生方式分类可包括:人工采集数据、信息系统产生数据、感知设备产生数据、原始数 工数据等。

    7.2.2.4适用场景

    7.2.3按结构化特征分类

    7.2.3.2分类要素

    按结构化特征分类的要素包括: a)是否有预定义的数据模型; b) 数据结构是否规则; c)数据长度是否规范; d)数据类型是否固定

    按结构化特征分类的要素包括: 是否有预定义的数据模型; b) 数据结构是否规则; C) 数据长度是否规范; d)数据类型是否固定。

    按结构化特征分类可划分为:结构化数据,如零售、财务、生物信息学、地理数据等;非结构化数 图像、视频、传感器数据、网页等;半结构化数据,如应用系统日志、电子邮件等

    7.2.3.4适用场景

    7.2.4按存储方式分类

    按存储方式分类是指根据数据适合采用的数据存储方式对数据进行分类等

    7.2.4.2分类要素

    按存储方式分类的要素包括: a)数据建模适合采用的数据模型,如关系模型、文档模型、图模型等; b)数据访问使用的查询语言,如SQL、类SQL、图查询语言等。

    按存储方式可划分为:关系数据库存储数据 数据库存循数据、列式数据库存循数据、图数据 者数据、文档数据库存储数据等

    7.2.4.4适用场量

    按接存储方式分类的适用场景,如选择数据存储采用的数据库系统、确定应用系统与数据存储系统之 间的数据访问方式等,

    7.2.5按稀疏程度分类

    疏程度分类是指根据数据的稀疏稠密程度对数

    7.2.5.2分类要素

    按稀疏程度分类的要素主 失或者为零的数据所 占比例。如空值或零值小于50%的数据 或等于50%的数据为稀疏数据。

    接稀疏程度可划分为:稠密数据和稀疏数据。

    7.2.5.4适用场量

    7.2.6按处理时效性分类

    时效性分类是指根据数据处理的时间延迟要求

    7.2.6.2 分类要素

    按处理时效性分类的要素包括: a)数据处理延迟时间要求,即应用场景是否对处理延迟时间有明确的上限要求; b)数据价值时效性,即数据应用价值随时间推移的有效性; c)数据处理量,即延迟上限时间内需处理多少量级的数据,

    时效性可划分为:实时处理数据、准实时处理数

    7.2.6.4适用场景

    按处理时效性分类的适用场景,如根据数据时效要求安排业务顺序和资源

    7.2.7按交换方式分类

    7.2.7.2分类要素

    按交换方式分类的要素包括: a)数据交换双方之间的网络状况,即交换双方之间的网络是否互通; b)数据在交换双方之间的同步实时性要求; c)单次交换的数据量; d)数据交换的频次,如固定频率交换、固定时间交换或按需交换等

    7.2.7.4适用场量

    7.3.1按产生来源分类

    按产生来源分类是指根据数据产生的实际情景对数据进行分类

    7.3.1.2 分类要素

    按产生来源分类的要素包括: a)数据产生主体,如人工、机器、传感器、应用软件、信息系统等; b)数据权属,即数据所有权的归属

    按产生来源可划分为:人为社交数据、电子商务平台交易数据、移动通信数据、物联网感知数据、系 统运行日志数据等。

    7.3.1.4适用场景

    按产生来源分类的适用场景,如根据数据来源确定数据归集策略、预测服务提供和数 价等,

    主来源分类的适用场景,如根据数据来源确定数据归集策略、预测服务提供和数据交易定

    7.3.2按业务归属分类

    按业务归属分类是指根据数据所属的业务类型对数据进行

    7.3.2.2分类要素

    按业务归属分类的要素包括: a)分类主体的业务类型划分,如生产类业务、管理类业务、经营分析类业务; b)生成数据的业务所属的职能,如产品研发、市场营销、财务管理、人力管理等; c)生产数据的具体业务,如商品交易、会员注册、人才招聘等。

    按业务归属分类的要素包括: a)分类主体的业务类型划分,如生产类业务、管理类业务、经营分析类业务; b)生成数据的业务所属的职能,如产品研发、市场营销、财务管理、人力管理等; c)生产数据的具体业务,如商品交易、会员注册、人才招聘等。

    7.3.2.4适用场景

    7.3.3按流通类型分类

    通类型分类是指根据数据在流通交易过程中的

    7.3.3.2分类要素

    按流通类型分类的要素包括: a) 数据权责,即数据需求方可获取的数据权益,如所有权、经销权、使用权、可复制权等; b)计费方式,即数据供应方和数据需求方之间计算数据交易费用的方式,如按使用量计费、按使 用时长计费等; ) 交付内容,即数据供应方向数据需求方提供的数据内容,如原始数据集、数据分析报告等; d) 行业主题,即流通数据所属的行业领域,如农业、林业、医疗、交通、科研等; e) 敏感程度,即流通数据是否涉及国家秘密、行业秘密、企业秘密或个人隐私等,如公开数据、脱

    按流通类型分类的要素包括: a) 数据权责,即数据需求方可获取的数据权益,如所有权、经销权、使用权、可复制权等; b)计费方式,即数据供应方和数据需求方之间计算数据交易费用的方式,如按使用量计费、按使 用时长计费等; c)交付内容,即数据供应方向数据需求方提供的数据内容,如原始数据集、数据分析报告等; d) 行业主题,即流通数据所属的行业领域,如农业、林业、医疗、交通、科研等; e 敏感程度,即流通数据是否涉及国家秘密、行业秘密、企业秘密或个人隐私等,如公开数据、脱

    敏数据、涉密数据等。

    按流通类型可划分为:可直接交易数据、间接交易数据、不可交易数据等

    7.3.3.4适用场最

    7.3.4按行业领域分类

    领域分类是指根据数据内容所属的行业领域范

    7.3.4.2分类要素

    按行业领域分类的要素包括: a)数据产生行业,即产生数据的活动所属的国民经济行业; b)数据应用行业,即分析和使用数据的活动所属的国民经济行业。

    7.3.4.4适用场景

    按行业领域分类的适用场景,如公安、气象、水文等行业大数据分析等。

    7.3.5按数据质量分类

    居质量分类是指根据数据的质量差异对数据进行

    7.3.5.2分类要素

    按数据质量分类的要素包括: a) 数据的准确性,即数据是否存在异常、错误或过时; 数据的完整性,即数据是否存在缺失及缺失程度 数据的一致性,即数据内容是否遵循统一规范; d)数据的及时性,即所需数据是否及时到达目标应用; e)数据的重复性,即是否存在大量重复数据。

    按数据质量可划分为:高质量数据、普通质量数据、低质量数

    7.3.5.4适用场量

    按数据质量分类的适用场景,如根据不同数据质量的比例确定数据利用的价值和数据质量管 作难易程度等,

    7.4安全隐私保护维度

    安全隐私保护维度分类是根据数据内容敏感程度

    按安全隐私保护维度分类的要素包括: a)数据的敏感性,即数据本身或其衍生数据是否涉及国家秘密、企业秘密或个人隐私; b) 数据的保密性,即数据可被知悉的范围; 数据的重要性,即数据未经授权披露、丢失、滥用、篡改或销毁后对国家安全、企业利益或公民 权益的危害程度。

    按数据安全隐私保护维度可划分为:高敏感数据、低敏感数据、不敏感数据等。

    按安全隐私保护维度分类的适用场景,如根据数据内容敏感程度确定大数据应用边界、数据保护策 略、数据脱敏方案等。

    每个层级分为若干类别。同一分支的同层级类别之间构成并列关系,不同层级类别之间构成兼属关 系。同层级类别互不重复,互不交叉。 线分类法适用于针对一个类别只选取单一分类维度进行分类的场景

    8.1.2确定分类类别之间关系

    采用线分类法确定分类类别之间关系的过程包括 a)确定一个分类维度; b)确定该分类维度的分类类别; 针对每一个分类类别:如果该分类类别不需要再进一步划分子类,则转d)步,否则确定该分类 类别进行子类划分的分类维度,转b)步; d)所有分类类别均不需进一步划分,则分类类别之间关系确定。 注:上述过程完成后房地产标准规范范本,将形成一棵分类类别关系树。树的叶节点为最终的分类项,通常称为基本类别;其余节点为 中间类别。

    线分类法的特点包括: a)层次性好,能较好地反映类别之间的逻辑关系; b)实用方便,便于机器处理信息;

    c)结构弹性较差,分类结构一经确定,不易改动; d)效率较低,当分类层次较多时,影响数据处理速度

    面分类法是将所选定的分类对象(即本标准界定的数据),依据其本身的固有的各种属性或特征,分 成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。将某个面中的一种类别和另 外的一个或多个面的一种类别组合在一起,可以组成一个复合类别。 面分类法是并行化分类方式,同一层级可有多个分类维度。面分类法适用于对一个类别同时选取 多个分类维度进行分类的场景。

    8.2.2确定分类类别之间关系

    采用面分类法确定分类类别之间关系的过程包括: a)确定分类对象的若干个特征面,即分类维度,每一个分类维度构成一个分类面。 b)确定分类面的排列顺序,应当按照分类维度的重要性或使用频率的高低由左向右进行排列。 ) 划分每一个分类维度的分类类别。为每一个分类维度确定一个分类规则,并接此规则划分各 个分类维度的分类类别。 d)通过上述步骤所得到的各个面的类别将分类对象划分成了若于个对象类。

    面分类法的特点包括: a) 弹性较大测绘标准,一个“面”内类别的改变,不会影响其他的“面”; b)适应性强,可根据需要组成任何类别; c)易于添加和修改类别; d) 可组配的类别很多,但实际应用的类别不多。

    混合分类法是将线分类法和面分类法组合使用,克服这两种基本方法的不足,得到更为合理的分 类。混合分类法的特点是以其中一种分类方法为主,另一种做补充。混合分类法适用于以一个分类维 度划分大类、另一个分类维度划分小类的场景。

    ....
  • 数据标准
  • 相关专题: 信息技术  

相关下载

常用软件