Q/GDW 11704-2017 大数据平台数据采集接入规范.pdf

  • Q/GDW 11704-2017  大数据平台数据采集接入规范.pdf为pdf格式
  • 文件大小:35.6 M
  • 下载速度:极速
  • 文件评级
  • 更新时间:2021-06-22
  • 发 布 人: 13648167612
  • 原始文件下载:
  • 立即下载

  • 文档部分内容预览:
  • Q/GDW117042017

    数据网关服务为业务系统提供大数据平台中分布式文件系统和非关系型数据库的数据操作接口。数 据网关服务应具备以下主要功能: a)支持以JDBC方式对外提供服务: 支持业务系统中结构化数据、非结构化数据的写入操作: c 提供大数据平台分布式文件系统和非关系型数据库的数据操作接口。分布式文件数据操作包括 创建分布式文件对应表、单文件写入、单文件查询。非关系型数据库数据操作包括创建数据库 表、删除数据库表、插入记录、更新记录、删除记录; d 提供图形化管理界面,用于业务系统数据存储位置、操作用户、目标存储位置的配置: e 应提供完善的日志和审计能力,可以记录数据抽取操作配置、运行时发生的各种事件

    6.2.2非功能性要求

    数据网管服务应满足以下非功能要求: a)数据写入速率:在千兆带宽的网络条件下 拉伸强度测试标准,数据抽取吞吐量不少于50MB/秒: b)操作并发数:并发数大于200个/秒。

    图3数据服务应用流程

    务系统应用程序连接成功后,编写数据操作SQL,

    6. 2. 4应用要求

    Q/GDW117042017

    6.2.4.1数据网关服务适用于业务系统主动将数据写入大数据平台存储。详细应用流程参见附录B.1。 6.2.4.2数据网关服务中SQL操作支持的数据类型包括INTEGER、DOUBLE、NUMERIC、VARCHAR、CHAR TIMESTAMP、DATE、BOOLEAN。 6.2.4.3业务系统应依照大数据平台提供的数据服务接口完成自身数据操作程序的开发,具体操作语 法参见附录B.2,操作错误提示信息参见附录B.3。

    6. 3. 1 功能要求

    6.3.2非功能性要求

    实时消息队列应满足以下非功能性要求: 组)高可行性:支持消息主题的分区和备份: b)负载均衡:支持消息发送和消费时的负载均衡操作 c)消息发送速度:可接受的数据量大于10万条/秒。

    实时消息队列采集服务应用

    Q/GDW117042017

    实时消息队列采集服务应用过程见图4,应用场景如下: a)业务系统须向大数据平台申请实时消息队列接入服务: b)大数据平台根据申请创建消息队列主题,返回消息队列名称: c)业务系统开发业务处理程序,调用平台实时消息队列接口,发送数据或接收数据。

    6.3.4.1实时消息队列采集适用于业务系统主动将数据封装为消息,发送到大数据平台的实时消息 列中。基于实时消息队列的消息缓存进行数据分析,如流计算实时处理等。具体应用流程参见附录C.1 6.3.4.2发送的消息内容格式支持字符串,发送的数据对象可以通过对象序列化机制转换为字符串杠 式的消息内容。 6.3.4.3业务系统应依照大数据平台提供的实时消息队列采集接口完成自身数据发送或接收接口的天 发。具体API接口参见附录C.2.具体实现逻辑参见附录C.3

    6.4文件接收FTP服务

    文件接收FTP服务应提供外部系统非结构化文件的接收并存入到大数据平台分布式文件系统功能, 文件采集应具备以下主要功能: a) 支持标准FTP协议接收数据: b) 支持顺序型断点续传功能: 支持接收的文件的重命名及指定存储目录: 应支持对接收文件的完整性校验: e) 应支持对客户端进行认证: 支持图形管理功能,支持认证配置、文件目标位置配置、校验处理配置。

    6. 4. 2 应用场景

    文件接收FTP服务应用

    文件接收FTP服务应用过程见图5,应用场景如下: a)大数据平台配置应用账号、接收参数及存储位置: 业务系统通过标准FTP协议连接大数据平台服务: 业务系统检查目标临时文件是否存在; 业务系统发起全量或续传指令: e) 业务系统发送数据到大数据平台: 大数据平台接收文件数据: 业务系统发送改名命令修改文件为带校验的文件名 大数据平台校验文件内容: 大数据平台按配置的规则存储接收到的文件: 1 大数据平台通知后续业务继续处理。

    D/GDW 117042017

    6.4.3.2业务系统须按平台协议规范开发上传功能。 6.4.3.3业务系统生成文件数据时须同时生成对应的完整性校验码。 6.4.3.4文件数据校验算法须支持标准的SHA1进行校验,结果转化为16进制ASCII字符表示 6.4.3.5具体文件接收FTP服务API接口参见附录D.1,具体实现逻辑参见附录D.2。

    6.5文件接收WebService服务

    6. 5. 1 功能要求

    文件接收WebService服务应提供外部系统非结构化文件的接收并存入到大数据平台分布式文件系 统功能。文件采集应具备以下主要功能: a)支持标准WebService协议接收数据: b) 支持顺序型断点续传功能; 支持接收的文件的重命名及指定存储目录: d) 应支持对接收文件的完整性校验; e 应支持对客户端进行认证: f)支持图形管理功能,支持认证配置、文件目标位置配置、校验处理配置

    Q/GDW117042017

    文件接收WebService服务应用过程见图6,应用场景如下: 大数据平台配置应用账号、接收参数及存储位置: 业务系统通过标准WebService协议连接大数据平台服务 业务系统一次性发送数据、内容校验码到大数据平台: d) 大数据平台接收文件数据: e) 大数据平台校验文件内容: f 大数据平台按配置的规则存储接收到的文件; ) 大数据平台通知后续业务继续处理

    图6文件接收WebService服务应用场景

    6.5.3.1业务系统须在大数据平台注册并申请账号。 6.5.3.2 业务系统必须按大数据平台加密方式进行登录加密。 6.5.3.3 业务系统须按平台WebService规范调用服务。 6.5.3.4 业务系统生成文件数据时须同时生成对应的完整性校验码。 6.5.3.5 文件大小必须小于2M。 6.5.3.6文件数据校验算法须支持标准的SHA1进行校验,结果转化为16进制ASCII字符表示 6.5.3.7具体文件接收WebService服务API接口参见附录E.1,具体实现逻辑参见附录E.2。

    6.6文件拉取HTTP服务

    文件拉取HTTP服务,应提供通过访问HTTP协议实现将文件信息抽取到大数据平台存储的功能。文件 拉取HTTP服务应具备以下主要功能: a 支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配: b) 支持文件压缩传输,提供文件压缩规则设置; 支持文件加密传输,提供文件加密传输规则设置: 支持设置文件同步、异步拉取,支持设置拉取并行度:

    e)支持指定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换 支持全量文件采集,支持外部数据一次性初始化导入; 支持定时轮询文件采集,采集新增的文件,支持文件列表规则过滤: h 支持图形管理功能,支持文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文 件同步/异步传输规则配置、文件传输并行度配置、文件定时及实时策略配置、文件采集过滤 配置。

    6. 6. 2 应用场景

    6.6.2.1基于HTTP协议的全量文件采集应用场景

    图7基于HTTP协议全量采集应用场景

    于HTTP协议的全量采集应用过程见图7,应用过程如下: 业务系统应提供初始文件存储位置: 大数据平台全量文件采集提供基于HTTP协议的采集任务配置,包括:存储文件位置、采集文 件列表方式、是否文件校验、传输是否压缩、加密、同步/异步、并行度、存储目标位置及文 件存储类型转换和命名规则; 大数据平台运行文件采集任务,读取文件存入大数据平台数据存储中

    基于HTTP协议的全量采集应用过程见图7,应用过程如下: 业务系统应提供初始文件存储位置; 大数据平台全量文件采集提供基于HTTP协议的采集任务配置,包括:存储文件位置、采集文 件列表方式、是否文件校验、传输是否压缩、加密、同步/异步、并行度、存储目标位置及文 件存储类型转换和命名规则; 大数据平台运行文件采集任务,读取文件存入大数据平台数据存储中。

    6.6.2.2基于HTTP协议的定时轮询采集应用场景

    图8基于HTTP协议轮询采集应用场景

    基于HTTP协议的定时轮询采集应用过程见图8,应用过程如下: a)业务系统应按照业务需求生成数据文件,存储在指定文件区域: 业务系统应根据校验算法SHA1在相同目录下生成校验文件,校验文件名称与数据文件相同, 文件扩展名为.SHA1; 大数据平台轮询文件采集服务配置基于HTTP协议的定期轮询采集任务,定期轮询采集文件: d 大数据平台定期读取解析索引及校验文件内容; 如果业务系统数据文件出现新增时,大数据平台读取数据文件内容;并且进行文件校验。如果 文件完整,则将数据文件写入大数据平台中。

    6. 6. 3应用要求

    6.6.3.1业务系统须先将业务数据保存为文件。 6.6.3.2文件数据校验算法须支持标准的SHA1进行校验,结果转化为16进制ASCII字符表示 6.6.3.3数据文件可通过HTTP协议访问。 6.6.3.4业务系统生成文件数据时须同时生成对应的完整性校验码。 6.6.3.5具体文件拉取HTTP服务API接口参见附录F.1具体实现逻辑参见附录E2

    6.7文件拉取FTP服务

    文件拉取FTP服务,应提供通过访问FTP协议实现将文件信息抽取到大数据平台存储的功能。文件拉 取FTP服务应具备以下主要功能: a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配: b)支持FTP服务登录用户名和密码设置:

    支持文件压缩传输,提供文件压缩规则设置 支持文件加密传输,提供文件加密传输规则设置: 支持设置文件同步、异步拉取,支持设置拉取并行度: 支持指定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换: g 支持全量文件采集,支持外部数据一次性初始化导入; h) 支持定时轮询文件采集,采集新增的文件,支持文件列表规则过滤: 1) 支持图形管理功能,支持FTP连接配置、文件源配置、文件目标存储配置、文件压缩和加密传 输规则配置、文件同步/异步传输规则配置、文件传输并行度配置、文件定时及实时策略配置、 文件采集过滤配置

    6. 7.2 应用场景

    6.7.2.1基于FTP协议的全量文件采集应用场景

    图9基于FTP协议全量采集应用场景

    基于FTP协议的全量文件采集应用场景见图9,应用过程如下: a)业务系统应提供初始文件存储位置: b)大数据平台全量文件采集提供基于FTP协议的采集任务配置,包括:存储文件位置、采集文件 列表方式、是否文件校验、存储目标位置及文件存储命名规则; c)大数据平台运行文件采集任务,读取文件存入大数据平台数据存储中

    6.7.2.2基于FTP协议的定时轮询采集应用场景

    Q/GDW117042017

    图10基于FTP协议轮询采集应用场景

    基于FTP协议的定时轮询采集应用过程见图10,应用过程如下: a 业务系统应按照业务需求生成数据文件,存储在指定文件区域: b) 业务系统应根据校验算法SHA1在相同目录下生成校验文件,校验文件名称与数据文件相同, 文件扩展名为.SHA1; 大数据平台轮询文件采集服务配置基于FTP协议的定期轮询采集任务,定期轮询采集文件; d) 大数据平台定期读取解析索引及校验文件内容; 如果业务系统数据文件出现新增时,大数据平台读取数据文件内容;并且进行文件校验。如果 ? 文件完整,则将数据文件写入大数据平台中。

    6.7.3.1业务系统须先将业务数据保存为文件,并设置访问权限。

    6.7.3.1业务系统须先将业务数据保存为文件,并设置访问权限。 6.7.3.2文件数据校验算法须支持标准的SHA1进行校验,结果转化为16进制ASCII字符表示。 6.7.3.3数据文件可通过FTP协议访问。 6.7.3.4业务系统生成文件数据时须同时生成对应的完整性校验码。 6.7.3.5具体文件拉取FTP服务API接口参见附录G.1,具体实现逻辑参见附录G2

    6.8文件拉取NFS服务

    6. 8. 1 功能要求

    文件拉取NFS服务,应提供通过访问NFS文件系统,实现将文件信息抽取到大数据平台存储的功能。 文件拉取NFS服务应具备以下主要功能: a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配: 支持指定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换: 支持全量文件采集,支持外部数据一次性初始化导入; d 支持定时轮询文件采集,采集新增的文件,支持文件列表规则过滤: e 支持图形管理功能,支持文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文 件定时及实时策略配置、文件采集过滤配置。

    6.8. 2 应用场景

    NFS全量文件采集应用

    图11NFS文件全量采集应用场景

    NFS全量文件采集应用场景见图11,应用过程如下 a)业务系统应提供初始文件存储位置: b)大数据平台全量文件采集提供采集NFS文件任务配置,包括:存储文件位置、采集文件列表方 式、是否文件校验、存储目标位置及文件存储命名规则: c)大数据平台运行文件采集任务,读取文件存入大数据平台数据存储中

    6.8.2.2NFS文件定时轮询采集应用场景

    Q/GDW11704—2017

    图12NFS文件轮询采集应用场景

    NFS文件定时轮询采集应用过程见图12,应用过程如下: a)业务系统应按照业务需求生成数据文件,存储在指定文件区域; b 业务系统应根据校验算法SHA1在相同目录下生成校验文件,校验文件名称与数据文件相同 文件扩展名为.SHA1; 大数据平台轮询文件采集服务配置NFS文件定期轮询采集任务,定期轮询采集文件: d 大数据平台定期读取解析索引及校验文件内容; e) 如果业务系统数据文件出现新增时,大数据平台读取数据文件内容;并且进行文件校验。如果 文件完整,则将数据文件写入大数据平台中。

    6.8.3.1业务系统须先将业务数据保存为文件。 6.8.3.2文件数据校验算法须支持标准的SHA1进行校验,结果转化为16进制ASCII字符表示。 6.8.3.3数据文件可通过NFS访问。 6.8.3.4业务系统生成文件数据时须同时生成对应的完整性校验码。 6.8.3.5具体文件拉取HTTP服务API接口参见附录H.1,具体实现逻辑参见附录H.2

    数据实时复制应提供业务系统关系型数据库中的结构化数据到大数据平台数据存储的增量低时延 复制功能。数据实时复制应具备以下主要功能: a)支持对主流的关系型数据库进行低时延增量复制,至少包括Oracle、MySQL、PostgreSQL等关 系型数据库;支持对数据库中常用的数据类型进行数据抽取,至少包括数值型、字符型、日期 /时间型等数据类型:

    b)支持秒级时延的关系型数据库增量复制能力;同时支持在全量复制的基础上,无缝自动切换到 增量复制模式: 支持关系型数据库中结构化数据抽取到大数据平台关系型数据存储、非关系型数据存储、分布 式文件存储、实时数据存储及消息队列: d 支持对关系型数据库数据的内容和类型转换操作,至少包括不同数据库差异转换、字段类型格 式转换、时区转换等操作: e 支持对复制对象的过滤,至少包括模式过滤、表过滤、字段过滤、数据行过滤: 支持数据复制操作的手动触发、定时调度及外部触发运行。定时调度运行应提供多种调度策略, 至少包括固定时间间隔运行、指定时间点运行、指定时间范围运行、一次或指定次数运行等策 略:外部触发支持标准WebService接口; 应提供中心图形管理界面,应提供源端元数据查看、数据复制场景管理、数据表配置、表字段 选择配置、字段类型转换配置、触发机制配置、目标端输出配置、运行策略配置、运行监控等 操作界面。

    6.9.2非功能性要求

    数据库实时复制应满定以下非功能性要求: a)数据抽取速度:不少于1万条/秒;数据抽取吞吐量:在千兆带宽的网络条件下,数据复制吞 吐量不少于80MB/秒; b 数据抽取时延达到秒级

    图13数据库实时复制应

    数据库实时复制应用过程见图13,应用过程如下: )业务系统关系型数据库服务器上部署增量捕获程序; b)增量捕获程序捕获到增量数据通过TCP或消息队列发送到大数据平台增量接收服务; )大数据平台解析增量数据,并将增量数据存储到大数据平台中: d)大数据平台分发增量数据到目标数据存储。

    6.9.4.1源数据库必须是Oracle、MySQL、PostgreSQL等关系型数据库。

    6.9.4.1源数据库必须是Oracle、MySQL、PostgreSQL等关系型数据库。 6.9.4.2源数据库表须包含主键或者唯一索引, 6.9.4.3当源端数据库是0racle时,源端数据库须开启附加日志和强制归档模式。 3.9.4.4当源端数据库是0rac1e时,源端数据库的在线日志文件、归档日志文件须存放在文件系统上 6.9.4.5源端服务器必须有100M可用内存

    6.9.4.1源数据库必须是Oracle、MySQL、PostgreSQL等关系型数据库。 6.9.4.2源数据库表须包含主键或者唯一索引。 6.9.4.3当源端数据库是0racle时,源端数据库须开启附加日志和强制归档模式。 6.9.4.4当源端数据库是0racle时,源端数据库的在线日志文件、归档日志文件须存放在文件系统 6.9.4.5源端服务器必须有100M可用内存

    Q/GDW117042017

    附录A (资料性附录) 关系型数据库抽取应用

    关系型数据库抽取通过大数据平台提供的Web界面进行操作,完成数据接入操作。具体应用流程

    图A.1关系型数据库抽取配置开发流程

    B.1数据网关服务应用流程 业务应用通过Java代码开发方式调用数据网关服务进行数据接入。大数据平台为业务应用配置数据 存储的数据库实例名、用户名和密码。业务应用创建Java开发工程,导入大数据平台数据服务驱动包, 进行业务逻辑实现。具体实现代码实例如下:

    B.1数据网关服务应用流程

    业务应用通过Java代码开发方式调用数据网关服务进行数据接入。大数据平台为业务应用配置数 存储的数据库实例名、用户名和密码。业务应用创建Java开发工程施工标准规范范本,导入大数据平台数据服务驱动包 进行业务逻辑实现。具体实现代码实例如下:

    表1数据网关服务调用代码实例

    Q/GDW117042017

    表2分布式文件数据操作语法

    表3分布式列式数据库操作语法

    医疗器械标准B.3数据网关服务操作错误代码说明

    /GDW 117042017

    表4数据网关服务操作错误代码说明表

    ....
  • 数据标准
  • 相关专题: 大数据平台  

相关下载

常用软件