GB_T 41462-2022 基于文本数据的金融风险防控要求.pdf
- 文档部分内容预览:
新规范
图2信息抽取框架示意
用于金融风险分析的关键信息主要包括当事人、产品、协议、账户、地域、事件、资源、渠道、介质等类 型,在文本中主要体现为时间、机构名称、数量、人名、事件等。若风险分析涉及银行产品服务,关键信息 应符合GB/T32319一2015中对各类信息的描述,并与ISO21586:2020保持一致。 示例:地域相关因素通常包括行政区划、街道地址、邮政信箱、邮政编码等。在文本中主要体现为:名称、数字串、字 母串。 从文本数据中抽取的内容应包括但不限于以下5种: a)时间; b)数量; )人名; d)机构名; )事件。
抽取内容在金融文本中的表达形式及规范化处理
时间、数量、人名、机构名等主要抽取内容在金融文本中有不同的表达形式,不同抽取内容的表达形 式如下。 a)时间:金融文本中的时间信息通常由日期、时间词、时间介词短语、特殊名词来表达 示例1:日期:2003年1月23日 示例2:时间词:今年、春天。 示例3:时间介词短语:自2003年以来。 示例4:特殊名词:亚洲金融危机时。 b)数量:金融文本中,一条完整的数量信息包含4个组成部分:变量、比较运算符、数值或数值区 间、计量单位 示例:从金融文本“出口产品超过324.8亿美元”中可以识别出以下数量信息:“出口产品,超过,324.8亿,美元”,其 中高速公路标准规范范本,“出口产品”是变量,“超过”是比较运算符."324.8亿”是数值,“美元”是计量单位。
大名:金融文 1)单独的姓氏; 示例:周答复了咋日收购事宜 2)全名:“姓氏十名字”或“名字十姓氏”(后者多见于西式人名); 3)“姓氏/全名十称谓/头衔/职务”或“称谓/头衔/职务十姓氏/全名”。 示例1:董事长张某某:中国人到国外买电饭煲刺痛了我。 示例2:李某某先生应邀出席“中国新经济与互联网大会”。 人名抽取结果应为全名的形式,对于单独使用姓氏作为人名的,应进行边界扩展及校验。 示例:从语句“昨天他以李某某个人名义拜访了董事长王某某。"抽取到的人名为“李”。对于姓氏“李”进行边界扩 展,得到人名全称为“李某某”。 d) 机构名:相较于普通组织机构名,金融领域的组织机构名有独特的结构特征和上下文特征: 1)结尾多采用相对固定的词语,如组织机构名称多由“控股有限公司”“集团”等结尾; 2)多含有地区词; 示例:大连某某集团。 3) 名称前常有与金融动作相关的动词等 示例:“有相关新闻报道A公司不久将收购B公司”,收购为金融动作。 以简称形式表述的组织机构名称应与全称建立映射关系 示例:从语句“A某负责筹划了中国某某集团的IPO,因聘用中某主席的女儿而遭证券交易委员会的调查”中捕取 到的组织机构简称“中国某某集团""中某",“中某"应与其全称“中国某某集团"建立映射关系。 e 事件:文本中出现多个时间与事件时,应提取与金融事件有直接关系的时间,并在时间与事件 间建立关系。与事件有直接关系的时间一般有以下表达方式: 1)时间距离事件句中的事件关键词最近; 2) 时间在事件句所在段落的段首句: 3) 时间在事件所在文章的标题; 时间在事件所在文章的首句; 5)时间在事件句上文中距离事件句最近
基于模式匹配的方法应至少包括以下2个步骤: 模式获取:针对不同信息抽取内容的语言描述形式和语言特征,以自动或人工的方式获取相应 模式。模式获取包括知识工程和自动训练2种方法: 1)知识工程方法以特定领域知识为基础,针对信息抽取内容,通过人工方式总结归纳与之相 符的语言特征,从而构建模式; 2)自动训练方法则利用机器学习从标注语料中自动获取模式。 b)模式匹配:从文本数据中抽取与模式相匹配的文本
8.4.2基于统计和机器学习的方法
本方法通过对文本数据进行人工标注或统计分析,获得分类特征,再结合机器学习模型构造分类 器,对文本中的信息进行抽取。具体宜包含以下过程: a)数据标注:制定数据标签集合,从既定的标签集合中选择合适的标签对数据进行标注。数据标 注采用人工、半自动或自动化的方式,通过使用统一的标注系统或利用现有的文本表格编辑工 具完成。
示例:根据企业盈利能力比率、营运能力比率、短期偿款能力比率、长期偿款能力比率等数据特征,将给定企业的信 风险标注为“高"或“低”。 数据标注应符合以下原则: 1)标注结果的正确性原则; 2)标注结果的完备性原则; 3) 标注符号的一致性原则; 4) 标注符号的独立性原则; 5)标注符号的确定性原则 b 特征选择:针对特定的金融风险防控问题,从特征集合中选择对于目标问题求解最有效的特 征,从而降低数据集维度,提高学习算法性能。入选特征宜满足以下要求: 1)特征数量尽可能少:用映射或变换的方法精简原始特征的数量: 2)特征具有代表性:从原始特征中挑选出一些最具代表性、最有影响力的特征; 3)特征最具分类信息:用数学的方法进行选取,找出最其分类信息的特征。 示例:数学的方法包括特征频度、文本频度、信息增益法、X统计量检验法、互信息法、特征摘、特征权等, 推荐算法:推荐采用深度神经网络、SVM、逻辑回归、决策树、K近邻、随机树、随机森林、朴系 贝叶斯等统计和机器学习算法
8.4.3基于规则和统计相结合的方法
通过一定的技术流程将基于规则的方法和基于机器学习的方法进行结合
金融文本具有专业性,金融数据的表示要借助金融领域词典、金融风险库词典等领域专业词典,以 达到数据表示结果专业并相对全面的效果
应完整的涵盖金融风险相关的关键因素,并尽可能多的包含其他各类相关因素,尽量完整地描述该 金融风险相关因素。
针对不同金融风险因素的数据特点,通过对它们进行综合分析,采用合适的方法或技术进行格式 1,使得数据的表示具有可读性,便于专业或非专业人士理解,不会造成阅读困难或重大误解
数据的表示应具有高度的可用性,适配多样的数据处理技术与手段,简化数据使用的操作难度与
GB/T414622022
,采用一定的方法和程序,对表示的主体、客体和属性 进行评测或验证。数据表示应符合的主要原则包括但不限于: 应力求准确、全面、公正; b) 应充分考察其社会效益和经济效益: C) 应考虑其发展和应用前景: d 应认真考虑来源、语义要素的不同类型和基本特点: e) 应符合有关的国家标准、国际标准以及相关技术规则和规范的要求
利用层次分析法与专家评估相结合的方法,对数据内容的表示进行评价。通过专家评估法,定性的 评估数据表示是否满足标准的总体要求。利用层次分析法,给出最终的数据表示评分,判断是否满足数 据表示的要求
9.2.3具体评估内容
9.2.3.1指标选取
9.2.3.2权重确定
9.2.3.3指标值获取
图3数据表示评估指标体系图
GB/T414622022
9.2.3.4计算最终评分
利用各层指标的权重向量的组合得到一个由底层指标构成的全局权重向量W: (W,W2,W,),而各个指标值构成一个评分向量△=(,,02,,)",按公式(1)得到数据表示对要 求满足的最终评分:
最终评分为0~1之间的数,1为完全满足,0为完全不满足。若最终评分小于0.6,则视为不符 风险防控的数据表示要求
9.3基于RDFS结构化表示
基于非结构化、半结构化的数据,根据领域需求,确定该领域重点研究的实体或本体、客体,以及实 本客体之间的属性等。本体、客体即该领域需要研究的“一切资源”或者专业词汇。属性指该领域中本 体和客体所具有的性质、本体和客体之间的关系。 示例1:本体、客体在金融领域中分别指“资本"“风险”等, 示例2:“是”“有"可作为属性 RDFS中将表示的“本体”“客体”“关系”分为资源(Resource)、类(Class)、属性(Property)。针对金 融风险领域和文本数据,基于RDFS框架给出金融资源(FinanceResource)、金融风险类(FinanceRish Class)、金融风险属性(FinanceRiskProperty)的表示(RDFS的架构与核心概念见附录B)。
9.3.3.1金融行业类
9.3.3.2金融风险类
GB/T414622022
表1金融风险分类体系
9.3.3.3金融事件类
GB/T414622022
、 、 嵌套在根标签 中,表示具体 金融事件,不同行业自行选择或定义,本文件不做要求 9.3.3.4金融情感词类
9.3.3.5金融风险结果类
.3.5RDFS表示具体技术流程
基于RDFS表示的具体技术流程应符合附录C
10. 1.1清洗目的
数据清洗是对数据进行审查和校验的过程,通过数据清洗纠正文本数据中错误信息,补充不完整数 据并保证数据一致性
10.1.3数据清理方法
不同的数据清理内容应采用不同的清理方法: 错误值:采用偏差分析、识别不遵守分布或回归方程的值等统计分析的方法,识别可能的错误 值或异常值。也可利用简单规则库、不同属性间的约束、外部的数据等清理错误数据; 6) 不完整数据:根据上下文语境或预先定义的规则补充数据; 不一致数据:根据变量的合理取值范围和相互关系,通过对完整性约束进行定义来检测数据的 不一致性
建模宜满足以下要求: a)模型满足分析预警的需求; b)模型是确定的,可重复使用的; c)模型所需数据能通过文本获取; d)模型中的数据能被计算; e)输入模型的数据不可被修改:
GB/T414622022
f)模型中所用数据能被方便的调用; g)模型能优化升级
建模过程宜包括以下4个部分: a) 确定建模目标; b) 确定模型所需信息要素及各要素之间的关联、数据及其相关过程; 确定模型中数据的存储方式; d)确定所采用的分析方法
建模过程宜包括以下4个部分: a) 确定建模目标; b) 确定模型所需信息要素及各要素之间的关联、数据及其相关过程; 确定模型中数据的存储方式; d)确定所采用的分析方法
10.3.1基于规则的方法
利用基于规则的方法进行分析预警,一般宜包括以下过程: a 基本规则构建:通过领域内专家对模型的分析,结合语言特征,以人工方式编制规则,并构建规 则库; ) 规则扩充:利用规则库中的基本规则,从文本数据进行信息抽取,并根据抽取的结果总结归纳 新的规则,加人规则库中; 规则应用顺序确定:依据分析目标,确定各个规则的使用顺序
0.3.2基于机器的方法
根据分析目标,在对数据集进行标注、特征选择后,选择合适的模型进行训练,并根据训练结果不断 调整模型参数,得到最优模型。分析模型的构建宜包括以下过程: 方法选择:针对分析预警任务和标注数据特征,选择合适的机器学习算法,包括深度神经网络 SVM、逻辑回归、决策树、K近邻、随机树、随机森林、朴素贝叶斯等: b) 数据集划分:将标注数据集划分为训练集和测试集; C 模型训练:在训练数据集上对选择的模型进行参数优化,从模型的假设空间中选择最优模型, 拟合训练数据集。在模型训练过程中,需要确定模型训练准则,包括期望风险最小化、经验风 险最小化和结构风险最小化等学习准则。模型求解过程可采用梯度下降、牛顿法、启发式方 法等; d 模型测试:在测试数据集上,应用学习到的风险分析预警模型,得到风险预测结果; e) 模型评估:对训练得到的风险分析预警模型进行评估,将模型预测结果与标注结果进行比对; 选择相应的评估指标对模型预测结果进行评估,包括但不限于精确率、召回率、F值、AUC度 量评分等
系统应提供友好的用户界面。界面宜具备以下功能: a)人机交互功能:用户通过键盘或其他输人设备向系统输入提问、控制或其他有关信息,系统通 过显示屏幕或其他输出设备给用户提供解答、提示或其他有关信息。 b) 选单驱动功能:根据系统管理和用户使用的需要,分别设置不同的选单;设计一个为用户显示 多重选择的选单系统;根据需要设计多级选单。 c)提示功能:提示的内容主要包括:
1)出错提示:提示错误的性质和类型及如何改正; 2) 拒绝接收提示:对无效和错误的操作进行指示、告警; 3) 操作步骤提示:提示下一步操作; 4 重试操作提示:确保功能幂等性。 d) 求助功能:使用窗口技术或调用辅助库、辅助屏予以实现,该功能应方便调用、退出、返回原操 作状态。主要包括: 1)正确操作的具体、详细的说明; 2)有关内容的资料,如代码及其含义说明; 3)对相关屏幕显示内容的解释,参数值的含义与范围,命令或功能选择描述。 其他功能:为满足用户操作所提供的其他功能,如浏览等
评估是依据某种技术指标体系,采用一定的方法和程序,对系统功能、特性和运行效果进行评测或 检证。主要原则如下: a) 准确、全面、公正; b)考察其社会效益和经济效益; c)考虑其发展和应用前景; d)应符合有关的国家标准、国际标准以及相关技术规则和规范的规定
评估的主要类别如下 a)性能评估:系统效果以及满足用户需求的程度; b)性能费用评估:系统达到某种性能水平与所需费用之间的关系; c)费用效益评估:系统的效益与成本比的合理性
金融等相关领域的专家从科学的角度出发,根据规定的技术指标,对金融文本处理、信息抽取以及 分析预警技术方法进行评估。评估方法主要包括以下3种: a)测试评估:按规定的测试大纲和指标,对方法的运行情况和各种性能进行测试; b)定性评估:根据测试结果以及与方法相关的基础理论和有关标准,对处理、信息抽取以及分析 预警结果的数量和质量,系统的软硬件兼容程度、智能化程度、易用性、用户自主性、实用性等 性能,按级别进行评分;
用户在试用过程中,对手方法所具有的功能、性能、可靠性、易用性、可维护性和效率等进行测试 实用的角度,将本文件中所提出的方法与其他方法进行比较。用户评估多为性能评估,也可以是 用评估、效益费用评估等。
GB/T414622022
GB/T414622022
增报率,表示不回顶警的数据任 召回率,表示正确预测为正样本(Truepositive)的数据在所有正样本数据中所占的比例。所有 数据有两种情况,分别为正类预测为正类(Truepositive)和正类预测为负类(Falsenegative)。 指标的计算如式(2)所示:
True positive
系统的安全管理要求应符合GB/T20269—2006中第4章的规定。
a)根据系统设计要求,优选适用的计算机; b)能较容易地实现软硬件之间的兼容配套
FP Rate = TP TP + FN
GB/T414622022
c)有足够的数据存储空间; d) 数据处理速度、系统输人输出能力应满足业务类型和用户数量等的需要; 维修方便; f) 具有安全性和高可靠性; g 具有联网功能; h) 具有较强的可扩展能力,能方便地进行升级
软件宜满足如下基本要求: a 形成系统,包括系统软件、数据库管理软件、通信控制软件、网络管理系统、安全防护软件、保密 及其他应用软件; b 具有较好的灵活性和可移植性,对运行环境有较强的适应能力; c)具有较强的可扩充能力,能够根据需要升级; 具有较好的人机交互能力; 数据库管理系统功能强,能方便地进行数据存取、检索、补充、修改和删除等; f 具有较好的安全性和保密性
A.1构建成对比较矩阵
附录A (规范性) 基于AHP的指标权重确定方法
成对比较矩阵是层次分析法的数量依据。比较第:个元素与第个元素相对上一层某个因素的重 要性时,使用数量化的相对权重α;来描述。设共有n个元素参与比较,称为成对比较矩阵。对每一层 的指标两两对比,做成对比较矩阵。如式(A.1)所示:
1 21 α 2? .** α 2s =: ( m) αμ2 α
进行检验。其具体步骤为: 步骤一:计算一致性指标(CI),如式(A.2)所示:
式中: 成对比较矩阵的最大特征值; 矩阵对应的指标个数。 步骤二:计算平均随机一致性指标。 平均随机一致性指标(%)与指标个数(
安全网标准....................( A.2
成对比较矩阵的最大特征值; 矩阵对应的指标个数。 步骤二:计算平均随机一致性指标。 平均随机一致性指标(Y)与指标个数(n)有着很强的关联,其具体关系如表A.1所示
表A.1平均随机一致性指标参考表
一指标权重的组成向量、 当CR<0.1时,可以认定该成对比较矩阵的一致性检验通过
RDFS(ResourceDescriptionFrameworkSchema,资源描述框架模式)是对RDF进行扩展。RDF 对资源进行简单声明.RDFS对资源、资源的属性以及资源之间的关系进行描述
在“本体论”的基础上,对该领域研究的“主体”“客体”“属性”进行结构化的表示。主要偏重主体客 体性质、属性、关系。 示例:RDF,XML。 RDF是一种由资源、属性、属性值组成的三元结构,描述了主语、谓语、宾语之间的关系。RDF以 三元组(主语,谓语,宾语)形式描述资源(Resource)和资源之间的关系。RDFS是在RDF的基础上发 展的。RDFS是一种RDF词汇集描述语言,定义了如何用RDF来描述词汇集,并提供了一个用来描述 RDF的词汇集。RDF的核心概念如表B.1所示。RDFS的核心概念如表B.2所示。RDFS资源,表示 为rdfs:Resource,RDF描述的所有“一切”都被称为资源。例如“金融”。RDFS类:资源被分成的组 RDFS属性,表示为rdfs:Property,描述主题资源和对象资源之间的关系。 说明:RDFS是在RDF基础上发展,因此部分标签是以
开始的。 国际化资源标识符(InternationalizedResourceIdentifier.IRI) 表B1RDF的核心概念
暖通空调管理表B.2RDES的核心概念
....- 相关专题: