GB∕T 38672-2020 信息技术大数据接口基本要求.pdf
- 文档部分内容预览:
GB/T 38672—2020
共享数据同步更新,不需要重复录人。这类接口在跨层级、跨系统业务数据共享共用、系统 联互通中广泛使用。
一方面,大数据应用提供者通过接口3向大数据框架提供者下发数据计算、存储或访问指令,利用 数据框架提供者的各类计算、存储和网络资源。另一方面,大数据框架提供者通过接口3向大数据应 提供者返回数据计算的结果或需要访问的数据。大数据框架提供者包括各类计算、存储组件,一般基 开源版本进行增强。 根据访问的大数据框架提供者组件,接口3的常见类型包括但不限于: a)离线计算接口:用于对数据进行离线计算,支持数据读取、分发、聚集、输出等操作。同时对计 算任务进行编排和调度; b)内存计算接口:用于使用内存对数据进行计算、分析,支持数据聚集、数据集转换等操作; c 分布式文件存储接口:用于对分布式文件数据进行交互,支持文件系统连接、文件访问、文件流 及存储空间管理等操作; d 分布式列式存储接口:用于对分布式列式数据进行交互,支持实时查询、分析等操作; e) 关系型数据库接口:用于对关系型数据进行交互,支持数据库连接、数据库管理、数据表管理、 数据访问等操作; f 多维分析数据库接口:用于对多维数据进行交互,支持数据查询,和数据表的动态修改等操作; g 分布式内存数据库接口:用于对分布式内存数据进行交互,支持数据库连接、数据访问、数据管 理等操作; h) 海量全文检索接口:用于对海量文本数据进行检索和查询,支持索引库连接、数据表管理、数据 访问等操作
一方面,管理模块通过接口4向大数据系统的其他模块发送监控、配置指令,监管大数据系统其他 模块的资源和运行状态。另一方面,大数据系统的其他模块通过接口4向管理模块传送自身状态、配置 请求、出错或告警信息。
一方面,安全和隐私模块通过接口5向大数据系统的其他模块传送安全和隐私相关配置和指令,支 持身份管理、访问授权、安全审计等操作。另一方面,大数据系统的其他模块通过接口5将数据安全、系 统安全、用户隐私相关的状态、操作、验证请求等发送给安全和隐私模块。
各类接口应满足如下总体要求: a)开放性:符合产业习惯,兼容主流开源接口,减小接口定制化带来的重新设计、适配成本; b)易用性:尽可能设计成抽象程度高、屏蔽底层实现、语法易理解的接口; c)扩展性:同一接口可通过增加函数、操作符、语句等形式支持新的功能。
a)应支持多种数据来源(业务系统、数据库、文件等)、多种数据类型(例如业务相关数据、监控 据)、多种数据格式(结构化、半结构化、非结构化等)的数据访问; b)应支持按照大数据采集留存规则进行数据采集; c)应支持接口运行情况(如主要函数调用时延)的监控,能及时发现错误、产生告警信号; d)宜支持多种数据访问接口实例的定时(例如按天、小时、分钟等)调用启动; e)宜支持对接常用数据库采集工具、主流日志采集工具(如Filebeat); 宜支持对接基于系统应用服务接口(数据提供者提供或第三方重构的)实现数据采集的工具: 接口生成宜不受业务系统的开发语言、所处网络环境、系统形态等限制。
接口2的常见类型接口有如下要求: a)流数据分析接口的要求包括: 1 应基于SQL扩展支持流数据的查询和分析; 2 应支持流和表、流和流的连接; 3 应提供流的聚合查询,支持常见的聚合函数(如汇总、均值、最大、最小); 4 应支持基于时间窗口的聚合查询; 5) 应支持基于时间窗口的模式识别、复杂事件分析; 6 应支持基于时间窗口的地理数据分析; 7) 应支持多种时间窗口,包括但不限于跳跃窗口、滑动窗口、会话窗口; 8) 宜支持基于时间窗口进行流的连接 9) 宜支持机器学习函数(例如聚类、分类、回归等)。 图数据分析接口的要求包括: 1) 应兼容主流开源接口(例如Gremlin),支持标签属性图数据模型 2 应支持基本的图操作,包括但不限于增加或删除顶点、增加或删除边,增加、删除或修改顶 点或边的属性,支持关联删除,定义属性类型等; 3) 应支持顶点查询、路径查询、子图查询和全图查询; 4) 应支持查询图拓扑结构的基本指标,包括但不限于中介中心度、紧密中心度等; 5) 应支持基本图分析,包括但不限于社团发现、三角计数、k核算法等; 6) 宜提供主流开发语言(例如Java、Scala、Python)接口。 日志分析接口的要求包括: 1)应兼容主流开源组件(例如Elasticsearch)接口; 2) 应提供人工智能分析能力,包括但不限于关联分析、异常向题识别等; 3) 应支持复杂报表分析,包括但不限于来源分析、热点页面、平均响应时间等; 4 应支持对相关指标(如平均相应时间)进行预警设置。 d) 数据同步接口的要求包括: 1) 宜支持一个系统一次录人,其他共用信息系统的相同数据同步写人; 宜支持跨系统在业务层面信息的互通互联操作; 3)宜支持跨系统共享共用数据的同步更新。
接口3的要求包括: a)应支持业界常用接口,兼容主流开源接口,支持系统集成; b)应支持海量数据的分布式离线计算,支持MapReduce计算模型,支持数据的读取、分发、聚集
接口3的要求包括 a)应支持业界常用接口,兼容主流开源接口,支持系统集成; b)应支持海量数据的分布式离线计算,支持MapReduce计算模型,支持数据的读取、
GB/T 386722020
输出等处理功能; 应提供内存计算的多种语言开发接口(例如Scala钢结构标准规范范本,Java),提供高度抽象算子构建分布式数据 处理应用; d 应支持分布式文件存储的文件操作(包括但不限于文件创建、读取、写人、删除、文件状态信息 查询等)及文件操作(包括但不限于文件夹创建、删除、状态信息查询、内容统计信息查询 等); e) 应支持分布式文件系统设置,包括但不限于设置访向权限、设置文件所有者、设置访向时间或 者修改时间等; f)应支持关系型数据库的DDL、DML操作,支持标准SQL; 应支持多维分析数据库以标准SQL查询和分析; h) 应支持海量全文检索,提供结构化、非结构化文本的多条件检索、统计和报表生成; i 应支持自定义函数的定义、加载、使用机制; 应支持海量结构化数据的交互式OLAP分析; k) 宜支持分布式内存计算框架接入多种数据源(例如HDFS、HBase、Hive),支持离线计算程序 平滑转接; 1 宜支持分布式列式存储不同类型索引(例如主键索引、组合索引、全文索引)的创建、查询 重建; m)宜支持关系型数据库的事务操作,包括但不限于事务开启、提交及回漆等,
接口4的要求包括: a)应支持大数据组件的安装部署、支持升级配置(包括但不限于查询可升级的版本、需配置的参 数等); b) 应支持用户管理,包括但不限于增加、删除、修改用户,增加、删除、修改角色、用户权限控制等 c) 应支持监控告警,对资源使用情况、资源运行状态等进行监控,并提供多种展示方式,支持健康 检查; d) 应支持各类日志的收集和存储,包括但不限于运行日志、操作日志; e)应支持标准管理协议(例如SNMP),提供RESTAPI、CLI等交互方式。
接口5宜提供RESTAPI。
接口5宜提供RESTAPI
....- 数据标准
- 相关专题: