Q/GDW 11702-2017 大数据平台总体架构和技术要求.pdf
- 文档部分内容预览:
Q/GDW117022017
图2大数据平台功能框架
大数据平台各功能描述如下: a)数据接入,通过结构化数据接入、采集量测数据接入、非结构化数据接入等数据接入手段从业 务应用(如:营销系统、ERP系统)、日志文本文件、外部数据(如:气象数据、宏观经济数 据等)接入大数据平台。 b 数据存储计算,主要包括数据存储与数据计算两部分,其中数据存储包括贴源历史区、纵向历 史区、数据仓库、采集量测数据存储、非结构化数据存储和数据集市;数据计算包括流计算、 内存计算和批量计算 c 统一分析服务,面向各类分析应用提供统一的数据接口服务、数据挖掘服务、自助式分析服务 d 运维管理,实时监测大数据处理全过程中的整体运行状态、资源使用情况和接口调用情况等性 能指标并对关键系统险情进行告警水利常用表格,支持大数据组件安装、配置和状态管理,可实时性监控和 调度任务计划,可对大数据集群的计算资源和存储资源进行配置和管理。 e 安全管理,解决从大数据环境下的数据采集、存储、分析、应用等过程中产生的诸如身份验证、 授权过程和输入验证等安全问题,支持对访问的终端及客户端进行认证及操作日志审计等功 能。 跨域协同,通过提供域资源管理、域作业管理等,实现跨域大数据的融合和协同计算
大数据平台应提供统一、规范的数据接入方法,支持从内外数据源向平台导入结构化数据(如: 系库记录)、半结构化数据(如:日志、邮件等)、非结构化数据(如:文件、视频、音频、网络数 流等)等不同数据类型、不同时效的数据,并提供这些数据的整合方式
5.1.2结构化数据接入
Q/GDW117022017
a)数据源配置,支持各种主流关系型数据库; b) 全量或定量的数据抽取规则配置,支持手动触发和定时抽取; C) 数据转换,提供完整的数据加工、转换、处理功能; d 数据加载,支持批量加载、并行加载等方式,支持加载过程中的事物控制: 高效数据传输,具备高比率的数据压缩,支持断点续传,支持数据传输过程中的安全加密。 监控管理,支持对任务运行情况的动态监控,提供日志、告警等功能
5.1.2. 2数据库同步复制
应支持从关系型数据库复制增量数据到平台。具体功能应包括: a)数据源配置,支持各种主流关系型数据库: b 数据转换,支持关系型数据库和大数据平台之间的数据类型匹配转换 C 在线日志或归档日志的数据复制,不应依赖源数据库的触发器和规则,减少对源数据库的影响; d) 高效数据传输,具备高比率的数据压缩,支持断点续传,支持数据传输过程中的安全加密。 e 监控管理,支持对任务运行情况的动态监控,提供日志、告警等功能
5.1.3采集量测数据接入
应至少提供API接口和实时消息队列两种方式实现业务应用系统数据的实时接入。前者,业务系统 通过API接口将业务数据推送至大数据平台,后者,大数据平台通过统一分布式实时消息队列实时接收 业务系统发送的业务数据。
5.1.4非结构化数据接入
应支持对海量系统日志、数据交换文件、照片、视频等文件数据的接入。具体功能应包括: a)各类数据源的接入配置,至少应包括console(控制台)、RPC(远程调用)、text(文本文 件)、tail(Linux文件结尾显示命令)、syslog(系统日志),exec(命令执行)等; 支持文件导入功能,实现数据导入至大数据平台的相应存储; 对数据存储目标的配置,至少应包括分布式文件系统、分布式列式存储等: 数据格式转换,支持对数据的简单格式转换,提供对word等文档转换为pdf文件、图片转换 成缩略图等功能: 文件排重,具备各类文件的排重能力,文件标识应唯一: 监控管理,对数据从采集、处理到存储的全过程监控,提供日志、告警等功能
大数据平台应提供业务各类异构海量数据的存储功能,并应提供不同计算方案以满足业务的不同 K
5.2.2.1采集量测数据存储
应提供海量采集量测数据的高效存储。具体功能应包括: a) 列式存储,支持使用面向列的存储模型存放数据: b 内存存储,支持将数据加载至内存中,可直接进行数据的读写操作,同时内存中存放的数据定 期同步至磁盘进行数据的持久化; C) 线性扩展,支持分布式动态扩展,同时保持数据均衡分布: d) 在线快速读写,具备快速的数据读写操作能力: 监控管理,节点状态管理和监测。
Q/GDW117022017
5.2.2.2非结构化数据存储
应提供基于分布式文件的非结构化数据高效存储。具体功能应包括: a)文件存储,支持文件多副本、分块存储; b) 文件树管理,支持层次型文件组织结构管理; 线性扩展,支持分布式动态扩展,同时保持数据均衡分布: d) 批量加载,支持批量加载的数据准备方式; e 监控管理,节点状态管理和监测。
5.2.2.3贴源历史区/纵向历史区
应提供贴源历史区,用于全量存储来自源端业务系统的结构化数据,为后续清洗转换提供原始基础 数据:应提供纵向历史区,用于全量存储公司总部与省(市)公司两级纵向交换的数据。具体功能应包 活: a) 分片处理,提供分库、分表等数据分片处理功能: b 数据闪回,支持对误操作造成的数据丢失进行快速恢复: C 批量数据导入,支持通过ETL工具、格式化文件加载、自定义脚本等方式,将数据批量导入到 贴源历史区或纵向历史区中; d 连接池,应用程序可通过连接池获取与数据库的连接; e) 事务处理,提供事务处理及分布式事务处理功能: 数据备份与恢复,根据实际需求,提供手动和自动备份功能。
5.2.2.4数据仓库
储诸经过清洗转换后的结构化数据,为公司各类分析应用提供统一的结构化数据支撑。具体功能应包括: 数据存储,支持结构化数据分布式存储: b 对象管理,提供数据库、表空间、表、索引、视图、存储过程、自定义函数等常用数据库对象 的创建、修改和删除操作:支持数据库用户的创建、删除操作以及用户权限的分配与回收: C) 数据分析,支持ROLAP的星型模型、雪花模型等,内置常用的OLAP函数; d 存储过程和自定义函数,支持基于存储过程和自定义函数的编程语言实现数据库内的各类分析 统计功能; e 数据加载,支持以规范格式方式将数据导入到数据库中,并可通过HDFS文件方式将Hadoop 大数据平台的数据导入到数据仓库中: 数据导出,可以根据查询条件将符合条件的查询结果数据导出至指定文件中: g)管理工具,支持通过命令行工具和图形化工具对集群进行有效管理和维护工作
5.2.2.5数据集市
数据集市的数据由数据仓库的数据经过处理转换后形成,直接支撑前端的应用需求。数据集市区存 堵的数据主要是主题分析数据。具体功能应包括 a 数据定义,提供定义数据库的三级模式结构、两级映像以及完整性约束和保密限制等约束 b) 数据操作,实现用户对数据的增、删、改等操作: C) 数据存储管理,提供数据组织、存储、管理和保护功能。 d 数据库维护,提供数据库的数据载入、转换、转储以及性能监控等功能: e 可视化管理,提供图形化管理工具(企业管理器、查询分析器、备份恢复工具、系统监控工具 Web管理平台):各类界面工具需提供人性化设计,方便用户管理。
5. 2. 3. 1 批量计算
D/GDW11702201
应支持分布式计算、批量数据处理等基础功能,适用于非实时、无交互的数据应用场景。具体功能 应包括: a 任务定义,支持多种数据来源及输出,包括关系数据库、分布式文件系统、分布式列式存储等, 满足各业务系统根据业务需求进行各类型统计分析任务的定义; 任务提交,支持将已定义的任务提交至大数据存储计算组件计算集群中,实现任务在集群中的 快速安装、部署; 任务调度,支持配置任务的执行时间、间隔、次数,并根据平台各计算资源的使用情况进行任 务的合理调配: d) 任务监控,支持任务整个生命周期的监控,从任务的启动、执行以及任务的结束,及时了解任 务的执行情况,同时,能够监控任务执行过程中的资源使用情况
应支持流数据的内存实时计算,适用于对动态产生的数据进行实时计算并及时反馈结果,但对计算 告果允许在一定偏离范围内的应用场景。具体功能应包括: a)任务定义,支持多种数据来源及输出,包括关系数据库、分布式文件系统、分布式列式存储等, 满足各业务系统根据业务需求进行各类型实时计算任务的定义: b 任务提交,支持将已定义的任务提交至大数据存储计算组件计算集群中,实现任务在集群中的 快速安装、部署: 任务监控,支持任务整个生命周期的监控,从任务的启动、执行以及任务的结束,及时了解任 务的执行情况,同时,能够监控任务执行过程中的资源使用情况
5.2.3.3内存计算
a)任务定义,支持多种数据来源及输出,包括关系数据库、分布式文件系统、分布式列式存储等 满足各业务系统根据业务需求进行各类型统计分析任务的定义: b 任务提交,支持将已定义的任务提交至大数据存储计算组件计算集群中,实现任务在集群中的 快速安装、部署: 任务调度,支持配置任务的执行时间、间隔、次数,并根据平台各计算资源的使用情况进行任 务的合理调配: 任务监控,支持任务整个生命周期的监控,从任务的启动、执行以及任务的结束,及时了解任 务的执行情况,同时,能够监控任务执行过程中的资源使用情况。
务、数据挖掘服务、自助分析服务,以及提供 对这些服务的管理功能
5.3.2数据接口服务
应提供上层业务对底层数据的访问能力,支持采集量测数据统一应用程序接口。具体功能应包括: ) 数据存取服务,支持大数据平台多种类型的数据存取操作,包括分布式文件、列式数据库、分 布式缓存和关系型数据库等; b 数据计算服务,提供大数据存储计算组件数据计算能力的统一接口服务,包括批量计算、内存 计算和流计算; 数据分析服务,为业务应用提供数据挖掘、多维分析、模型运行等标准化的数据分析功能:
Q/GDW117022017
Q/GDW117022017
跨库查询服务 数据库联合查询功能,实现多个查询、多张表或视图联接或 并,为存储于不同组 联查询服务
5.3.3数据挖掘服务
应提供各类专用分析算法以及自定义算法插件,支持面向历史数据的挖掘和趋势预测,支持面向实 时的判别和实时分析,支持面向未来的预测和模拟等场景应用。具体功能应包括: a)数据访问,支持常用关系数据库的JDBC访问,支持对文本文件访问: 数据预处理,提供数据清洗、数据转换、数据集成、数据计算、数据抽样、数据分隔等数据预 处理手段; C 数据挖掘算法,根据业务数据应用需求创建数据挖掘模型的一组试探法和计算逻辑: d 模型评估,采用各种评估方法从数据挖掘模型中找出一个最好的模型; e) 模型部署应用,包括模型基本信息管理、模型发布等
5.3.4自助式分析服务
自助式分析服务提供对数据的自助式分析能力。具体功能应包括:
自助式分析服务提供对数据的自助式分析能力。具体功能应包括: 数据源管理,实现对各类数据源的维护: b) 数据建模,实现原始业务数据到自助式分析数据的转换; C 可视化设计器,提供直观、易用的拖放式界面,能通过选择主题相关的表及相应的图表、文字 等展现形式,设置布局、样式等信息,对数据信息进行集中、动态、实时、交互展现
应支持已发布的数据存取服务、计算服务、分析挖掘服务的统一管理。具体功能应包括: )服务状态、执行情况和服务质量等监控 )支持服务接口增加、删除、修改等维护操作
大数据平台应提供身份鉴别、访问控制、安全审计和隐私保护等安全控制手段,增强业务系统数据 在平台和应用中的安全性。
应支持对用户身份合法性的鉴别, 问的安全审计。具体功能应包括: a)组件身份认证,组件包括数据采集、数据存储、数据计算、数据分析、平台服务等 b)身份鉴别安全策略配置,包括账号生命周期、口令复杂度等规则
应通过数据和文件的访问权限控制及其他安全措施,确保大数据平台的数据不被非法复制、读取、 修改,同时支持集群服务器和大数据平台组件的访问控制。具体功能应包括: a 访问控制安全策略配置,严格限定用户对敏感资源的访问权限以及用户应用操作权限,对关键 资源访问按照数据库表、关键记录、数据字段级别进行控制,应用权限按照功能模块、应用界 面、操作按钮进行分级细化; b)权限申请、审批、变更、撤销等操作流程制定; c)用户权限粒度控制。
应支持用户行为、系统资源异常访问等重要安全事件的审计,审计记录的内容应至少包括事件的 间、日期、发起者相关信息、访问类型、访问描述和访问结果。具体功能应包括:
D/GDW11702201
a)日志级别设置: b) 完善的操作日志记录; 提供对操作日志进程及日志记录的保护,避免进程被意外停止,避免日志记录被意外删除、修 改或覆盖等
应确保平台中用户隐私数据不被泄漏和非法利用。具体功能应包括: a)有效的数据隐私保护算法库: b)多个可选择的高强度加密方案: C 数据完整性验证; d) 当数据在传输过程中其完整性受到破坏时,提供鉴别信息检测功能。
大数据平台应提供配置管理、集群管理、作业管理、日志管理和监控告警功能,形成统一平台管理 实现平台自动化安装和自动化运维
应支持对平台的存储资源、计算资源进行管理配置。具体功能应包括: a)服务、组件运行参数配置,包括:内存大小、日志路径等; b)存储资源、计算资源配置,包括:资源使用策略、资源使用权限等,并支持对各业务应用所能 使用的平台资源进行配置。
应支持向导式安装部署,并能根据节点的角色和服务器 括: a) 可视化、向导式的安装部署: b) 组件服务启停操作: C 集群资源使用情况及各组件运行状态监测: d)根据节点角色和服务器配置定制各节点组件服务。
应支持统一的作业管理和运行调度。具体功能应包括: a) 作业任务发布流程管理; b) 作业任务关闭、启动: c) 作业任务资源配额设置; d) 作业任务状态监测和资源使用情况查看; e) 统一任务调度工具,并支持多种调度方式
应支持集群系统与组件运行日志管理。具体功能应包括: a)统一的运行日志归类、整理和展现; b)运行日志分析,并支持系统异常错误提示。
应支持集群环境健康状况监控, )监控页面按需配置,如:关键指标阅值、告警策略、告警方式设置等:
Q/GDW117022017
应支持公司总(分)部、各省(市)两级大数据协同计算能力,实现域资源管理及域作业管理,并 提供跨域监控,实现策略化的跨域权限管理。
应支持远程域资源的管理与监控。具体功能应包括: a)支持跨域计算集群和跨域存储集群基本信息管理及域资源操作权限策略配置; b)提供域集群资源、域存储空间、域作业运行状况监控
应支持批量计算、内存计算、查询计算等跨域计算作业的管理与监控。具体功能应包括 a)支持跨域计算作业配置、发布等操作: b)提供跨域计算任务全过程监控及跨域流程协作
6.1.1大数据平台应支持公司大数据采集量测、在线监测、离线分析和实时计算等类
为保障大数据平台高效可靠运行,应满足以下技术选型要求: a 支持PB级以上、多类型数据存储和处理,包括结构化数据、半结构化数据、非结构化数据等 b) 支持系统间灵活的信息交互的需要,保持一定的技术先进性: ) 支持集群规模灵活扩展; d 支持主流应用构建技术及算法自定义: e 支持与统一权限管理平台的功能权限集成; f) 在系统运行指标方面支持与信息通信一体化调度运行支撑平台集成: 8 具备完善的整体数据安全和隐私保护措施
6.2.1平台响应性能
大数据平台进行多用户并发操作时,应满足如下要求: a)首页访问平均响应时间不得超过3秒:系统登录平均响应时间不得超过5秒: 数据存取接口类服务并发数大于200个,数据计算接口类服务并发数大于50个,跨库查询接 口服务并发数大于50个: 执行简单查询、添加和删除业务时,平均响应时间不得超过5秒
Q/GDW117022017
d 执行复杂的综合业务(同时包括查询、添加、删除等操作请求)时,平均响应时间不得超过7 秒; 应用服务器和数据库服务器的日常CPU平均利用率均不超过65%,且CPU利用率满足不得连续 30秒超过80%; 应用服务器的日常内存平均使用率不超过70%,且内存使用率满足不得连续60秒超过80%的要 求; g) 实时数据接入最低延迟不超过30秒; h) 各系统事务失败率不超过0.1%。
6.2.2数据写入性能
大数据平台数据写入性能应满足如下要求: a)平均单节点文件解析写入消息队列速度大于30MB每秒: 平均单节点从消息队列写入列式存储速度大于10MB每秒 C 平均单节点结构化数据的写入速度大于20MB每秒: d 平均单节点非结构化数据的写入速度大于30MB每秒
6.2.3数据读取性能
大数据平台数据读取性能应满足如下要求: a)亿行级别的数据表间关联,关联结果在1千万条数据以内的情况下,处理时间在10秒以内: b)平均单节点分布式文件系统对数据的下载速度大于25MB每秒。
6.2.4数据计算性能
大数据平台数据计算性能应满足如下要求: a)流计算平均数据处理速度大于10万条每秒,吞吐量大于50MB每秒; b)内存计算平均数据处理吞吐量大于1GB每分钟; c 批量计算平均数据处理吞吐量大于1GB每分钟。
大数据平台在可靠性方面应满足如下要求: 连续7×24小时不间断工作; 6) 大规模用户上线使用时,不降低已有用户体验; c) 出现故障时,应及时告警; d) 具备自动或手动恢复措施,以便在发生错误时能够快速地恢复正常运行: e) 软件系统故障时,自动恢复时间小于15分钟,手工恢复时间小于4小时; f 分布式存储节点发生故障时,应确保数据完整,且不影响数据存取的正常服务; g) 分布式计算节点发生故障时,应确保计算结果正确,且不影响数据分析计算的正常服务和流转: h) 分布式消息队列节点发生故障时,应确保消息不丢失,且不影响消息正常提交和消费; i 分布式任务调度节点发生故障时,应确保任务计划按时调度和执行。
大数据平台在易用性方面应满足如下要求: )针对每种类型的用户提供较为清晰的工作界面,界面组织条理清晰,便于用户查找需要的功能: b)大数据平台基本工作界面上应提供日志管理、配置管理、集群管理、插件系统、调试工作台等 功能:
大数据平台在可扩展性方面应满足如下要求: a)提供标准化应用开发API,便于系统的二次开发和与其它系统进行数据与信息的交换: b)支持与第三方采集和分析工具无缝连接、快速集成: c)具备业务处理的灵活配置,能随着业务功能的变化灵活重组与调整。
大数据平台在连续性方面应满足如下要求: a)在同一机房内,分布式数据存储应遵循文件块副本数为三的设计准则,即将一个副本存放在本 地机架节点上,一个副本存放在同一个机架的另一个节点上,最后一个副本放在其他机架的节 点上; b) 提供主要网络设备、通信线路和集群系统的硬件穴余,保证平台的高可用性; 提供异地数据备份功能,利用通信网络将关键数据定时批量传送至备用场地: 分布式集群应采用集中管理的方式; e 提供简单易用的备份软件,支持向导式的备份操作和提示,以便用户在最短时间内对相关数据 进行保护; 提供基于任务计划形式的统一调度管理的备份功能,可实时跟踪、监控和查看备份作业的执行 情况; g) 建立对业务系统的数据保护机制,全面防护数据泄密和篡改。
大数据平台安全主要包括数据安全、应用安全、主机安全、网络安全和物理安全,均应满足公司信 息系统安全等级保护第三级安全技术要求,
D/GDW117022017
大数据平台总体架构和技术要求
Q/GDW 117022017
漆包线标准编制主要原则. 17 3与其它标准的关系.. 17 4主要工作过程.. 17 5标准结构和内容.. 17 6条文说明。 8
D/GDW11702201
本标准依据《国家电网公司关于下达2016年度公司第一批技术标准制修订计划的通知》(国家电网 科(2015)1240号)的要求编写。 大数据成为推动智能电网创新发展的关键核心技术,为公司分析决策类应用、实时采集类应用提供 统一支持,在电网生产、经营管理和优质服务三大领域日益广泛应用。为统一支持公司大数据应用建设, 需在充分分析现有数据中心平台组件待优化点基础上,开展公司大数据平台组件的研究,以实现统一为 公司各类应用建设提供海量数据接入、存储计算处理、分析挖掘等基础性支持功能。 本标准编制的主要目的是指导公司大数据平台的规划建设,明确数据接入、数据存储计算、统一分 析服务、安全管理、运维管理和跨域协同的主要内容,同时提出平台的若干技术要求,帮助公司有效实 现海量数据的集中整合,构建更加合理、更加优化的IT基础架构
在本标准的制定过程中,遵循以下原则: a 坚持先进性与实用性相结合、统一性与灵活性相结合、可靠性与经济性相结合的原则,以标准 化为引领,服务公司科学发展: b) 认真研究国内外现行相关的IEEE标准、行业标准,体现信息技术特性和功能拓展的最新发展; C 充分调研国内外主流厂商大数据平台建设成果,研究其在平台接入服务方面已经完成的工作和 思路,借鉴其在平台接入服务方面成果和经验; d 严格按照实际的电力业务需求及其发展趋势,制定出切实可行的技术规范。
公路标准规范范本本标准与相关技术领域的国家现行法律、法规和政策保持一致。 本标准不涉及专利、软件著作权等知识产权问题
2016年1月,在南京组织召开标准编制启动会,并成立编写小组,对大数据平台相关技术标准进 行资料收集和分析。 2016年2月,在南京组织召开标准编制研讨会,明确修编思路。 2016年3月,在南京组织进行标准集中编制,并对标准编制草案进行内部评审,于3月21日形成 初。 2016年3月,国网信通部在北京召开国网企标推进会,听取标准编制情况汇报。 2016年4月,国网信通部在北京组织专家召开初稿审查会,并给出修订意见。 2016年5月,按专家评审意见进行修编形成征求意见稿,采用函件方式,广泛、多次向国网公司 主管部门及省公司专家、研究院征求意见和建议。 2016年6月,公司信息与通信技术标准专业工作组在北京组织召开征求意见稿审查会,并给出修 订意见。 2016年11月,公司信息与通信技术标准专业工作组在北京组织召开送审稿审查会,审查结论为: 审查组经过协商一致,同意修改后报批。 2017年4月,根据专家最终审查意见修改形成报批稿。
本标准按照《国家电网公司技术标准管理办法》(国家电网企管(2014)455号文)的要求编写。 本标准的主要结构和内容如下: 本标准主题章分为3章,由平台架构要求、平台功能要求、平台技术要求组成。本标准兼顾了现有 大数据平台的实际状况,本着先进性和实用性、可操作性和可扩展性等原则,给出了公司大数据平台的 总体架构和功能架构,然后提出了各个功能要求,包括数据接入、数据存储计算、统一分析服务、安全 管理、运维管理和跨域协同,最后提出平台技术要求。
....- 数据标准
- 相关专题: 大数据平台