DB52/T 1541.6-2021 政务数据平台 第6部分:面向全网搜索应用的数据处理规范.pdf
- 文档部分内容预览:
DB52/T 1541.62021
图1全网搜索应用的整体业务逻辑架构图
1.1数据分类存储按DB52/T1541.3的规定进行。 数据接入前应根据待处理数据的结构化程度将数据存储至以下区域: a) 结构化数据应存储到统一数据采集区; b 非结构化数据应存储于云计算的开放存储区OSSDB11标准规范范本,并建立对应数据描述表以支撑搜索应用; C 半结构化数据按将文件基本属性、存储路径等描述信息以结构化数据文件入库存储至统一数据 采集区。
6.2.1结构化、非结构化数据,通过ETL工具进行分类接入; 6.2.2半结构化数据化解为结构化数据通过ETL工具进行接入: 6.2.3接入形式包括二维库表类型、文本类型、URL连接地址、API 接口等。
DB52/T1541.6202
将数据源中的表或视图的数据全部从数据库中抽取出来,通过ETL工具迁移到搜索数据库中。
将数据源中的表或视图的数据全部从数据库中抽取出来,通过ETL工具迁移到搜索数据库中。 3.2增量更新 增量更新是指在进行更新操作时,只更新需要改变的地方,不需要更新或者已经更新过的地方 重复更新,增量更新与全量更新相对。
6. 3. 2 增量更新
7.1. 3非通用型数据处理要求
非通用的描述类数据处理应满足以下要求: a)可计算型数据元的计算类型,应满足当前系统可连接数据库类型的可计算数据类型的要求,计 算单位根据业务进行描述: b) 可分组维度的数据字段应按其特征进行分组; C 可比较数据元应按照不同维度、不同规则进行比较; d)主体数据元应对主体的核心内容进行描述
DB52/T 1541.62021
DB52/T 1541. 62021
DB52/T 1541. 62021
对数据元中涉及数值与统计数据的指标数据,应按同一指标内部相对差距不变、不同指标间的相对 差距不确定、标准化后极大值相等原则采用数据同趋化和无量纲化等方法进行处理。按照其反映的内容 或其数值表现形式分为总量指标、相对指标和平均指标三种。 指标统计处理应包括以下内容: a)确定指标的含义和范围; b 指标指向的对象或现象应具有同类性; c)有统一的计量单位; d)两个对比指标要有可比性
对具有搜索价值的数据元应根据业务信息及搜索目标进行标签定义,对数据属性进行归类。 数据标签可分为以下两类: 基于统计类的标签:从政务平台基础数据中直接统计得出,为基础的标签类型,如性别、城市
7.3.1对具有搜索价值的数据元应根据业务信息及搜索目标进行标签定义发电厂标准规范范本,对数据属性进行归类。
对具有搜索价值的数据元应根据业务信息及搜索目标进行标签定义,对数据属性进行归类。 数据标签可分为以下两类: 基于统计类的标签:从政务平台基础数据中直接统计得出,为基础的标签类型,如性别、城市 月均消费金额等字段构成用户画像的基础; 基于规则类的标签:基于行为及确定的规则产生,并发标签中的标签规则由涉及的双方共同 商确定,如距今90天内交易次数>3是“交易活跃”标签的定义和口径。
同一个业务源不同数据表之间,需要有对应的主外键关系,表与表之间依据主外键进行关联 针对不同业务与业务之间,需要设立统一规范的业务主键,利用业务主键进行关联
8.1经数据处理后的数据应按描述数据、业务数据、模型和标签等类型数据进行分类存放进搜索数据 库。 8.2按DB52/T1540.2(政务数据元数据管理规范)的规定对搜索数据库数据的元数据进行管理。 8.3计算机对数据标签、关联关系信息、数据指标进行学习理解并最终记忆,形成知识构建。 8.4经知识构建形成的可理解和处理的数据,与搜索内容进行语义对齐,理解搜索意图,最终查找出 结果。 8.5对于非结构化数据,搜索实现文本语言数据之间的比较,当核心内容相似性达到一定程度时,判 断为找到用户需求,并反馈结果。 8.6全网搜索主要应用方向包括数据查询、数据画像、数据调度、决策支撑和智慧应用
路灯标准DB52/T1541.62021
9.4数据使用需求应根据数据等级进行审核,不同等级的数据应由不同等级权限的角色完成审核
....- 数据标准
- 相关专题: 政务数据