GY/T 339.2-2020 有线电视网络大数据技术规范 第2部分:平台要求.pdf
- 文档部分内容预览:
GY/T 339. 22020
应支持从数据源中获得实时消息数据,完成高吞吐、低延退的实时计算,并将结果输出到消息 队列或者进行持久化; b 应支持对消息处理任务进行创建、浏览、中止、激活、去激活等操作,并记录用户级别的操作 到审计日志中; C 应支持创建滑动窗口方式的实时分析任务,其时间窗口大小应可调; 应支持通过SQL或者类SQL接口对数据进行操作; e 应支持容错性,在出现故障时具备容错处理机制。
a)应内置图数据查询类API; b 应支持以同步计算模型或异步计算模型的迭代算法; 应支持明细数据全量导入、增量导入以及自定义导入; 2 应支持内存计算和索引,支持在线图分析和查询: 2 应支持基于属性图模型的图数据表达,包含结点/边上的标签和属性类型定义; f 应支持内置常用图指标计算功能,以描述图的拓扑结构特征; 应支持实现水平扩展的分布式图计算和查询; h 应支持图数据的并发查询。
a)应支持基于内存的分布式计算; D 应支持水平扩展; 应支持自动负载均衡; 应支持多种数据类型的离线分析,包括结构化数据、半结构化数据、非结构化数据的离线分析; 宜支持高度抽象算子,以快速构建分布式数据处理应用; 宜支持标准SQL语法; 宜支持与非关系型数据库对接,以在不迁移数据的前提下读取非关系型数据库中的数据并进行 计算。
装修工艺、技术6. 3. 6 批流融合计算
要求如下: a) 应支持批流融合统一查询SQL语言; b) 应支持多种场景下的流式SQL,如位置信息分析等; C 应支持机器学习、图计算; d) 应支持时间窗口算法,包括跳跃窗口、滑动窗口等; 宜支持基于SQL语言的批、流数据模式识别; C f)宜提供批流融合计算引擎; g) 宜支持事件驱动的流处理,以降低处理延迟; h) 宜支持处理乱序事件流、窗口计算、CEP等; i) 宜支持选代处理。
要求如下: a)批处理集群容量的水平扩展能力应不小于1000个节点; b)在正常情况下,数据处理系统文件系统的10请求响应时间应小于500ms; c)在正常情况下,数据处理系统处理消息的响应延迟应小于500mS。
GY/T 339. 22020
数据分析过程由数据预处理、支撑能力、分析与挖掘过程、流程编排环节组成。通过数据分析过程, 将数据信息转换为知识。数据分析的基本过程包括:对原始数据进行预处理,加载数据到分析系统,通 过预置的分析工具库,执行检索查询、机器学习、统计分析、可视化等操作。一个完整的数据分析系统, 通常还包括配置管理和任务流程编排功能
6.4. 2数据预处理
6.4.2.1数据抽取
要求如下: a) 应支持按照需求抽取存放在文件系统、数据库中的文件或数据; b 对结构化、半结构化、非结构化数据,应支持不同的抽取方法; 应支持全量抽取及增量抽取模式; d) 应支持主动抽取和被动追加方法; e 应支持定时批量抽取; 宜支持分布式数据抽取,数据抽取过程支持负载均衡
6.4.2.2数据清洗
要求如下: a)应支持检查数据一致性,支持清洗掉不一致的数据; 应支持处理无效值,包括对无效值的删除、修正等; 应支持处理缺失值,包括对缺失值的填充或缺失值对应数据条目的删除等; d) 应支持处理重复值,包括对重复数据值的合并或删除等; e) 应支持对比清洗前后的数据,方便使用者检验清洗效果; f)宜支持逻辑矛盾和关联性验证,支持清洗不合理的数据
6. 4. 2. 3数据转换
a)应支持对清洗后的数据按照分析模块的要求进行转换操作,支持结构化数据的列转换、行转换 和表转换; b)宜支持非结构化数据、半结构化数据的结构化处理; c)宜支持对文本、网页类数据的规范化处理,将文档类数据转化成单一规范形式; d)宜支持对语音/音频数据的识别处理,将语音的词汇内容转换为计算机可读的输入; e)宜支持对图片中的内容转换为字符文本,支持提取图像信息。
6. 4. 2. 4 数据加载
GY/T 339. 22020
a)应支持把经过清洗和转换之后的数据加载到分析系统,为分析功能模块提供数据。 b 宜支持全量加载,即按照加载目标结构,将转换过的数据输入到目标结构中。若目标结构中已 存在数据,则装入新数据进行覆盖。 C 宜支持增量加载,即如果目标结构中已经存在数据,在保存已有数据的基础上增加新的数据 当输入的数据记录与已经存在的记录重复时,则丢弃新输入的数据,或将输入的记录作为副本 进行增加。 d)应支持实时加载或者批量加载,
6. 4. 3分析支撑
6.4.3.1检索查询
6.4. 3. 1.1查询接口
要求如下: a)应支持标准的数据库查询接口; b)应支持RESTfulAPI查询接口。
要求如下: a)应支持标准的数据库查询接口; b)应支持RESTfulAPI查询接。
6. 4. 3. 1. 2 查询优化
要求如下: a 应支持基于规则的查询优化; b 应支持建立数据索引,提高查询效率; c 应支持数据分片和多副本技术,优化查询速度; d) 应支持通过SQL进行复杂条件高并发查询; e) 应支持精确查询和模糊查询; f)宜支持二级索引
要求如下: 应支持基于规则的查询优化; b) 应支持建立数据索引,提高查询效率; c) 应支持数据分片和多副本技术,优化查询速度; 应支持通过SQL进行复杂条件高并发查询; eJ 应支持精确查询和模糊查询; f)宜支持二级索引。
6.4.3.2机器学习
6. 4. 3. 2. 1数据管理
要求如下: a)应支持将输入数据划分为训练集、验证集和测试集; 应支持导入和导出机器学习模型,支持导入训练和验证过的模型到分析系统中,以及导出训练 所得的模型: C)宜支持多种数据模型的融合应用。
6. 4. 3. 2. 2 算法
要求如下: a 应支持回归与分类算法: b) 应支持聚类算法; c 应支持协同过滤算法; d) 应支持降维算法; 应支持频繁模式挖掘算法; f 宜具备机器学习流程的其他组件,如特征提取、特征转换、特征选择、模型选择、交叉验证、 模型调优等:
g)宜支持通过二次开发增加新的指令算子
GY/T 339. 22020
6.4.3.2.3任务管理 要求如下: a)应支持对不同的机器学习算法编排不同的数据分析流程,以得到适用于特定分析场景的机器学 习模型; b)宜支持对机器学习任务进行分布式计算。
6. 4. 3. 2. 3任务管理
6. 4. 3. 2. 4模型评估
宜提供用于评估算法模型的模块。
宜提供用于评估算法模型的模块。
6.4.3.3统计分析
要求如下: a 应支持基本的数值分析统计,如最大值、最小值、求和、总数等统计量; 6 应支持数据集中趋势的分析统计,如平均数、中位数、众数等统计量; c) 应支持数据离散程度的分析统计,如极差、方差、标准差等统计量; d) 应支持分析多个随机变量的关系,如协方差、相关系数等统计量; e 宜支持自定义统计分析模板,并可保存常用的分析方案为模板。
要求如下: 应支持将常见的数据源的格式作为输入; O 应支持可视化展示高维数据; 具备可视化工具库,要求如下: 1) 应支持柱状图; 2) 应支持饼图; 3) 应支持折线图; 4) 应支持表格; 5) 宜支持散点图; 6) 宜支持雷达图: 7) 宜支持网络图; 8) 宜支持时间线: 9) 宜支持热力图; 10) 宜支持地图; 11)宜支持桑基图; 12) 宜支持双轴图; 13)宜支持箱线图; 14)宜支持与算法模型
6. 4. 4. 1分析模式
6.4.4.1.1离线数据分析
GY/T 339. 22020
要求如下: a) 应支持结构化查询语言; b 应支持对离线数据的分布式分析; C) 应具备支持第三方应用的标准接口; d) 应支持分布式计算或并行计算等计算框架; e) 应支持对海量工作任务的切分和分布式调度; f) 应支持集成第三方机器学习算法库; g 宜支持使用内存或SSD存储作为缓存; h) 宜支持对文本类、音视频类以及图像类数据的分析; 1 宜支持对关系型数据库和大数据存储系统中的数据源进行交叉查询、聚合、关联操作; 宜支持使用GPU对特定算法进行加速
6.4. 4.1. 2 流数据分析
要求如下: a) 应支持按时间切片后进行批量处理; b) 应支持基于事件触发的流式处理; C 应支持关于实时流的数据统计; d) 应支持流式数据的排序; e 应支持数据流与静态表之间的关联; f) 应支持多个数据流的关联处理; g) 采用滑动窗口方式的实时分析任务,其时间窗口大小应可调; h) 宜支持实时数据的分组; i) 宜支持分析任务优先级调度; 1 宜支持对文本类、音视频类以及图像类数据的分析
6.4.4.1.3交互式联机分析
6. 4. 4. 2 分析类型
6.4.4.2.1预测型分析
要求如下: a)应支持趋势预测、回归分析等分析方法; b)应将准确率数值化; )宜通过可视化的方式展示分析结果:
d)应支持存储和发布训练好的模型
6.4.4.2.2描述型分析
GY/T 339. 22020
要求如下: a 应支持相关关系分析方法; b 应支持可视化展示样本数据的分析结果,支持展示模型的训练效果,支持存储和发布训练好的 模型; C)宜优化分析结果的呈现,提高用户体验
6. 4.5 流程编排
a) 应支持持久化保存流程编排结果; b) 应支持跟踪计算或任务的执行状态,可给出异常任务告警; C 应支持工作流的调度触发机制,可配置触发时间或触发事件,可配置调度的启动时间和执行周 期; d 应支持输出任务执行状态到日志; e) 宜支持流程编排操作界面可视化,宜通过拖拉方式编排和修订流程; f) 宜提供操作工作流的启动和停止的界面; g 宜支持并行执行多流程任务; h 宜支持通过数据管道实现任务串联; 1 宜支持多人协同操作。
6. 4. 6 性能要求
要求如下: a)应支持万亿级数据联表,每天I0能力达到PB级; b)分析系统的数据吞吐能力应不小于400MB/s。
6.5. 1 功能要求
安求如 a 应具备数据展示模板,提供模板继承和整合功能; b 应提供数据展示界面和数据展示服务接口; 数据展示服务应能兼容不同数据格式: d 宜通过缓冲、内存计算、压缩传输等方法,提高展示的响应速度; e 应支持结构数据(包括多维数据)、半结构数据、非结构数据的展示; 应具备可扩展性,可通过二次开发,支持新的数据类型和可视化技术; g 应支持以下展示形式: 1) 结构化数据下支持几何图展示,如仪表盘、饼状图、柱状图、曲线图、曲面图、雷达图等 2) 支持专业报表、即席报表、企业级复杂报表、自定义报表等报表展示形式; 3) 支持假设分析和多维分析等数据挖掘的展示; 支持多种可视化图表的展示。
6. 5. 2性能要求
GY/T 339.22020
要求如下: a)支持数据联表数量不少于100,000,000条; b)在一亿条数据记录规模下,SQL查询平均响应时间应小于5s: c)在一亿条数据记录规模下,NoSQL的平均响应时间应小于1s。
要求如下: a)支持数据联表数量不少于100,000,000条; b)在一亿条数据记录规模下,SQL查询平均响应时间应小于5s; c)在一亿条数据记录规模下,NoSQL的平均响应时间应小于1s。
6. 6. 1功能要求
要求如下: 应具备对外提供数据服务的功能,如向用户提供数据服务产品、处理用户对数据服务的申请、 进行用户授权管理,以及服务计费、监控和审计等; 应提供开放的数据访问API; 应提供数据分发功能; 应支持按模板打包分发; 应提供按需的数据存取访问服务; f)应允许用户配置和管理数据共享服务,如数据提取服务、数据发送服务等; 宜提供数据分发二次开发接口,允许用户基于开发接口自定义业务; 应支持对数据开放服务的管理和监控,如可管理数据服务的用户权限,查看运行日志,统计服 务性能等。
a)在批量实时数据交换场景下,集群数据吞吐不低于200MB/s或20万条数据记录每秒时,单条 数据记录平均响应时间不大于100ms; b) 应支持开放不小于10TB的数据容量: C 在提取多种数据源时,响应时间(用户向数据源发出请求到开始获得数据时间)应小于30s; 系统数据吞吐能力应不小于400MB/s; e)支持的并发用户数应不小于1000个。
6.7.1数据资源管理
6.7.1.1数据保护策略
要求如下: a 应支持数据分类、分级管理,可针对不同类别和级别的数据采取不同的保护措施; b 应支持数据安全标记,可按安全标记进行授权和访问控制; C 应在数据采集、存储、处理、分析等环节支持数据分类和分级,并应确保各环节对不同类别和 级别的数据采取的保护策略是一致的; d 应在数据清洗和转换过程中对重要数据进行保护,以保证重要数据在清洗和转换前后的一致性 避免数据失真,并在出现异常时能有效还原和恢复被处理的数据; e 应跟踪和记录重要数据的采集、处理、分析和挖掘等过程,以通过溯源能重现相应过程; f)应采取物理破坏或使用无价值数据多次填充等手段,彻底销毁废弃存储介质上的数据。
6.7.1.2数据生命周期管理
GY/T 339. 22020
对数据生命周期的管理,宜采取“减少成本、减少风险”的策略,要求如下: a)应将数据的生命周期与存储级别相匹配,如活跃数据存放在在线存储中,非活跃数据存放在离 线存储中; b) 应积极管理数据的生命周期,主动管理数据的生命周期; C 应满足法律和审计要求; d 宜以减少信息管理风险为数据生命周期管理目标; e) 宜以提高业务连续性为数据生命周期管理目标; f)宜以提高服务水平为数据生命周期管理且标
6. 7.2 元数据管理
元数据是描述数据的数据,与数据构造、数据流转、数据使用和数据维护密切相关,大数据平台应 发持对元数据进行以下管理: a) 应可以通过SQL脚本、API等方式管理元数据 b) 应可以通过手工编辑的方式管理元数据; C 宜使用XML、EXCEL存储表达元数据; d) 应支持增加、删除和修改元数据; 对于元数据的增量维护,应具备版本管理功能,如保留历史版本; f)应支持查询和统计元数据的使用情况
6.7.3系统资源管理
大数据平台应能集中管控大数据应用专属的计算和存储资源,要求如下: a)应支持按租户分配CPU、内存、存储资源; b 应支持资源预留; C 应支持多级租户管理; d 应支持集群在线扩容或减容; ? 应支持对辅助工具或服务组件进行管理; f) 应支持屏蔽故障部分的计算、内存、存储资源
8安全运行子系统技术要求
运维工作应包括运维能力体系建设、运维支撑保障基础建设、例行的各类运维操作和持续改进 作质量的过程管理等部分构成,通过对基础物理环境、数据资源、系统硬件、系统软件、应用车 务流程等对象的维护来对大数据平台的正常运转提供保障,
GY/T 339. 22020
GY/T 339. 22020
9.2运维能力和支撑保障
要求如下。 a) 应组建运维团队,设置相应的部门,设置合理的岗位和人员管理机制; b 运维团队应具备能够及时发现系统故障或隐患的技术能力,装备能够及时发现系统故障或隐患 了解业务状态的监测、检测、监控工具,设置备品备件库。有条件的大数据平台运营单位,宜 为运维队伍配置运维过程管理工具、资产管理工具、知识库等辅助工具 应编制运维服务对象和运维项目清单。 d) 应明确运维保障水平。 e 应制定运维沟通协调机制。 f)应规定运维考核方法。
对大数据平台的物理环境进行维护,要求如下: 1 应进行物理环境维护,指定专门的部门或人员负责机房管理,对机房出入进行管理; 应定期对机房供配电、空调、温湿度控制、消防等设施进行维护 应按机房安全管理制度对物理访问、物品带进出和环境进行管理: 未经允许,不应在重要区域接待来访人员; 5) 不应随意放置含有敏感信息的纸质文件和移动介质等 b 进行介质维护,要求如下: 1) 应将介质存放在安全的环境中,对各类介质进行控制和保护,实行存储环境专人管理,并 根据存档介质的目录清单定期盘点; 2) 应对介质在物理传输过程中的人员选择、打包、交付等情况进行控制,并对介质的归档和 查询等进行登记记录。 C 进行设备维护,要求如下: 1)应对各种设备(包括备份和穴余设备)、线路等进行定期维护、维修; 2) 重要数据处理设备应经过审批才能带离机房或办公地点,含有存储介质的设备带出工作环 境时应对其中的重要数据进行加密; 3) 存储介质或含存储介质的设备在报废或重用前,应进行数据完全清除。 d 应对大数据平台进行日常监控,通过人工巡检或监控工具对大数据平台实施监控,获取系统的 运行状态,及时响应大数据平台软件、硬件设备故障引发的业务中断或运行效率降低等引发的 运维需求。 e 应对大数据平台进行预防性检查,包括性能检查、脆弱性检查、漏洞扫描、恶意代码防范,如 发现隐惠及时进行评估处置。 应对大数据平台开展常规运维作业,包括数据备份、配置备份、密码管理、系统升级、备件更 换、日志分析、业务状态查询、业务流程人工干预等。 g 应及时响应大数据平台运行需要、操作员或数据用户请求的运维需求 h 应有计划地对大数据平台的运行记录、趋势进行分析,并根据分析结果有针对性地改进、调整 或升级大数据平台。 i)应及时响应因各类原因引发的事件,如属应急事件不锈钢标准,则应按照应急预案进行处置
GY/T 339. 22020
要求如下: a)应开展运维项目清单管理,根据大数据平台改进、调整和升级情况,及时调整优化运维服务对 象和运维项目; 应开展数据资源管理,根据数字资源管理策略,对数据采集、存储、处理、应用、流动、销毁 等过程进行管理; C 应开展运维保障水平管理,根据大数据平台改进、调整和升级情况,及时调整运维保障水平; d 应开展运维报告管理,对运维各类文档进行管理,例如做好巡检记录、总结报告、故障处理报 告的撰写、审核、归档,对报告的准确性、完整性、及时性进行分析评估,不断提高运维报告 质量; 应开展事件管理,对运维过程中出现的事件受理、分类、分级、诊断、处置等过程进行分析 提高发现事件和解决事件的能力: 应开展问题管理,识别事件发生的原因,预防或避免重新出现相同问题; 8 应开展配置管理,对大数据平台的配置进行识别、记录,明确配置的审核、实施、回退、确认 等操作过程,建立配置数据库,对配置变更进行管理; h 应开展变更管理,对大数据平台的变更请求、实施等过程进行评估、审核、确认和记录; i 应开展数据服务安全管理,对数据服务请求进行授权和审批,加强与内部人员和部门、各类职 能机构、服务和设备供应商、业界专家及安全组织的合作与沟通,定期进行数据服务安全日常 检查、汇总和通报; J 应开展应急管理,建立大数据平台应急管理机制,保证大数据服务在突发情况下通过采取应急 手段得以继续运行; K 应定期进行信息安全等级测评,或在被保护系统发生重大变更或等级定级发生变化时进行等级 测评。
GY/T339.2—2020附录A(资料性)大数据参考体系架构GB/T35589一2017对大数据标准体系进行了归纳总结,提出了图A.1所示的大数据参考体系架构。信息价值链系统协调者数据据大数据应用提供者提收集预处理分析可视化访问消供费者大数据框架提供者处理框架:提供计算和分析信息技术价值批处理交互流处理信息交互通信框平台:提供数据组织与分析链索引存储资源管文件系统理安全和管架陀惠理基础设施:提供网络、计算、存储虚拟资源物理资源图例:数据流组件活动角色子系统图A.1大数据参考体系架构GB/T35589一2017将大数据参考体系架构概括为“一个概念体系,二个价值链维度”。“一个概念体系”是指它为大数据参考体系架构中使用的概念提供了一个构件层级分类体系,即“角色一活动一功能组件”,用于描述参考架构中的逻辑构件及其关系;“二个价值链维度”分别为“IT价值链”和“信息价值链”,其中“IT价值链”反映的是大数据作为一种新兴的数据应用范式对IT技术产生的新需求所带来的价值,“信息价值链”反映的是大数据作为一种数据科学方法论对数据到知识的处理过程中所实现的信息流价值。18
GY/T 339.22020
GB/T35589一2017使用构件层级结构来表 大数据系统的高层概念和构件分类。从构成上看,大数 据参考体系架构由一系列在不同概念层级上的逻辑构件组成,这些逻辑构件被划分为三个层级,从高到 低依次为角色、活动和组件,其中: 一角色:处在构件的最顶层级,包括系统协调者、数据提供者、大数据应用提供者、大数据框架 提供者、数据消费者、安全和隐私、管理; 一一活动:处在构件的第二层级,是每个角色执行的活动; 一一组件:处在构件的第三层级,是执行每个活动需要的功能组件。 本文件参照了GB/T35589一2017大数据参考体系架构中使用的构件层级分类体系方法,以最大程度 地表达大数据系统中不同的角色以不同的组件开展不同的活动这一主要思想。
GY/T 339. 22020
L1 GB/T22240一2008信息安全技术信息系统安全等级保护定级指南 3] GB/T 25069—2010 信息安全技术术语 4] GB/T 35274—2017 信息安全技术大数据服务安全能力要求 5] GB/T 36073—2018 数据管理能力成熟度评估模型 6] GA/T 1389—2017 信息安全技术网络安全等级保护定级指南 7] GY/T 317—2018 电视台信息系统运行维护服务通用要求 81 T/31 SCTA001—2017 工业化大数据平台技术规范数据采集接入 9] T/31SCTA002一2017工业化大数据平台技术规范数据存储 10] T/31SCTA003一2017工业化大数据平台技术规范数据处理 11] T/31 SCTA004—2017 工业化大数据平台技术规范数据展示 12] GD/J 037—2011 广播电视播出相关信息系统安全等级保护定级指南 13] GD/J 038—2011 广播电视播出相关信息系统安全等级保护基本要求 [14] 中国电子技术标准化研究院.大数据标准化白皮书(2020版) 15] 全国信息安全标准化技术委员会.大数据安全标准化白皮书(2018版) [16] 国家广播电视总局.广播电视和网络视听大数据标准化白皮书(2020版
螺栓标准[1]GB/T22240一2008信息安全技术信息系统安全等级保护定级指南 [3] GB/T 25069—2010 信息安全技术术语 [4] GB/T 35274—2017 信息安全技术大数据服务安全能力要求 [5] GB/T 36073—2018 数据管理能力成熟度评估模型 [6] GA/T1389—2017 信息安全技术网络安全等级保护定级指南 [7] GY/T317一2018电视台信息系统运行维护服务通用要求 [8] T/31SCTA001一2017工业化大数据平台技术规范数据采集接入 [9] T/31SCTA002一2017工业化大数据平台技术规范数据存储 [10] T/31SCTA003一2017工业化大数据平台技术规范数据处理 [11] T/31SCTA004一2017工业化大数据平台技术规范数据展示 [12] GD/J 037—2011 广播电视播出相关信息系统安全等级保护定级指南 [13] GD/J038一2011广播电视播出相关信息系统安全等级保护基本要求 [14] 中国电子技术标准化研究院.大数据标准化白皮书(2020版) [15] 全国信息安全标准化技术委员会.大数据安全标准化白皮书(2018版) [16] 国家广播电视总局.广播电视和网络视听大数据标准化白皮书(2020版)
....- 数据标准
- 相关专题: 有线电视