Q/GDW 12118.3-2021 人工智能平台架构及技术要求 第3部分:样本库格式要求.pdf

  • Q/GDW 12118.3-2021  人工智能平台架构及技术要求 第3部分:样本库格式要求.pdf为pdf格式
  • 文件大小:7.6 M
  • 下载速度:极速
  • 文件评级
  • 更新时间:2022-03-31
  • 发 布 人: 13648167612
  • 原始文件下载:
  • 立即下载

  • 文档部分内容预览:
  • Q/GDW 12118.3-2021  人工智能平台架构及技术要求 第3部分:样本库格式要求

    应满足图像样本标签内容添加规则。具体规则如下: 输电图像样本添加标签内容至少应包括:输电区域名称、线路名称、电压等级、杆塔号、巡 检时间、巡检人员、缺陷内容等信息; b 变电图像样本添加标签内容至少应包括:变电区域名称、变电站名称、设备名称、电压等级 巡检时间、巡检人员、缺陷内容等信息; 配电图像样本添加标签内容至少应包括:配电区域名称、线路名称、电压等级、杆塔号、 检时间、巡检人员、违规原因等信息; d) 其他图像样本添加标签内容至少应包括:创建时间、创建者、图像用途等信息,

    6. 1. 3. 2目标区域标注规则

    应满足图像样本标注规则。具体规则如下: 输电图像样本应标注整张图像上所有缺陷信息,精确到目标部位。目标区域缺陷标签名称应 遵照附录A中“缺陷标签”列内容编写,若附录A中未指定该类缺陷标签名,标注者应参照附录 中已有命名模式对新缺陷标签命名; b 变电图像样本应标注整张图像上所有缺陷信息,精确到目标部位。目标区域缺陷标签名称应 遵照附录B中“缺陷标签”列内容编写,若附录B中未指定该类缺陷标签名,标注者应参照附录 中已有命名模式对新缺陷标签命名; 配电图像样本应标注出安全帽、验电棒、接地棒、绝缘靴等安全工器具,登高扶梯、验电、 接地、班前班后会等作业行为及杆塔倾倒情况; d 其他图像样本应标注整张图像上所有目标区域并拟定标签名称; e) 所有图像样本应采用最小外接矩形标注方式,对于不规则目标区域应采用多边形标注方式。 目标区域应轮廓清晰,标注框需贴合目标边缘,若同一目标区域有多个缺陷核电厂标准规范范本,全部缺陷都要标 注

    6. 1.3.3标注颜色

    对正常目标区域应采用蓝色标注。

    Q/GDW1211832021

    缺陷目标区域,应根据缺陷等级分别采用红色颜色标注危急缺陷、橙色标注严重缺陷、黄色标注一 般缺陷、紫色标注设备的偏移、位移,标注颜色说明详见表1

    6.1.3.4标注记录文件命名规则

    标注文件应与巡检图像命名一致,保存为XML、JSON(参见示例1,2)等常见格式文件,储存于 置标注数据文件内。该文件记录信息应包含对应图像的基本信息、目标区域基本信息、缺陷情 等。 示例1:XML图像标注示例见表2。

    Q/GDW 12118.32021

    6.2.1视频处理要求

    视频样本应按需截取为图像样本并满足图像采集要求,详见本部分6.1.1。

    6. 2. 2视频存储要求

    视频样本无存储要求。 截取的图像样本应存储并满足图像存储要求,详见本部分6.1.2

    6.2.3视频标注要求

    视频样本无标注要求。 截取的图像样本应标注并满足图像标注要求,详见本部分6.1.3

    6.3.1语音采集存储要求

    6.3.1.1语料内容范围要求

    6.3.1.2录音条件要求

    应选择安静的录音环境,无噪音于扰。

    6.3.1.3语音质量要求

    6.3.2语音文件格式及命名要求

    6.3.2.1语音文件存储格式要求

    音文件均宜以MP3、PCM、RAW等常见格式存储。

    6.3.2.2语音文件命名要求

    音人性别应用英文female和male的英文首字母F 各省份应以省名称每个字的拼 类别应用英文首字母编号

    6.3.2.3语音描述文件内容及格式要求

    每条语音样本应包含2个描述文件,一个描述文件记录声源的信息,一个描述文件记录语音样本的 信息。具体内容要求如下: a)记录声源信息的描述文件命名为:语音文件名+声源信息.txt,内容应包含:声源信息、系统 信息; b) 记录语音样本信息的描述文件命名为:语音文件名+Info.txt,内容应包含:标注规范、料库 名、录音文件夹编号、录音日期、录音时间点、录音格式、通道数、发音人ID、录音地点、环 境信息等信息

    6. 3. 3语音标注要求

    6.3.3.1声纹样本标注

    对变压器声纹样本中波段明显有起伏的片段进行

    6.3.3.2汉字与音节标注

    副语言现象应包含非音段感叹声和非语音信

    现象应包含非音段感叹声和非语音信号。

    6.3.3.4多人说话语音片段标注

    应满足语音标注规则。具体规则如下: a)背景无噪音或有轻微噪音时,切割此片段,语音片段首位应留有一定余量,标注语义完整的 一句话为一个片段,数字和符号应转换成汉字,音译词用中文写; b背景有严重噪音时,将语音文本加上口标注。

    6.3.3.5特殊语音片段标注

    应满足特殊语音片段标注规则。具体规则如下:听不清的语音片段,应将这个词或句子单独切断, 标注为(()),说话人层应标注相应的信息。应将句中发音不清楚的单词,标#,发音清楚的单词应 写出单词。整句都听不清楚时,应标为无效。

    6.3.3.6静音段噪音标注

    应满足静音段噪音标注规则。具体规则如下: a) 超过1秒的纯静音段标注为S,1秒以下的纯静音片段应均分给前后语音; b) 静音段中的人声噪音片段,切割此片段,不标注; c)静音段中的非人声噪音片段,切割此片段,标注为N

    6.3.3.7静音段特殊声音标注

    应满足静音段特殊声音标注规则。具体规则如下: a)静音段中的人声呼吸段,切割此片段,标注为V; b)静音段众人的纯笑声,切割此片段,标注为L; C)非人声铃声、非人声彩铃声、传真声等特殊的语音片段,切割此片段,标注为R。

    6.3.3.8情绪化语音标注

    应满足情绪化语音标注规则。具体规则如下: a) 情绪为正常时,不标注; b 情绪变化导致语速变快时,应标注为Q; c) 情绪为激动或着急时,应标注为A; d) 情绪为愉快时,应标注为H; e)情绪为悲伤时,应标注为S

    6.3.3.9语音标注文本书写规范

    应满足语音标注文本书写规范。具体规范如下: a) 标注的字和音完全正确,不能用同音字替换; b) 文本应写成简体字; c 阿拉伯数字应写成汉字; d) 带儿话音的,应写出“儿”字; e)文本和声音一致,声音应为准改文本,不应出现多字、少字、错字。

    4.1文本采集存储要求

    6. 4. 1. 1一般要求

    应满足语料的高质量要求。具体要求如下: a 适用性原则,应结合电力业务特性选取符合电力业务特性的语料; b 易于获取原则,应保证在需要的时候能方便地读取语料数据; C 实时性原则,应保证获取语料的实时性,能够及时更新相关的信息; d 通用性原则,应包含电力业务领域的文本通用语料,应保证基础语料库的通用性; P 确定性原则,应结合语料库的适用领域及语料库的功能确定语料选取的来源; f 典型性原则,应追求语料的代表性,尽可能多地反映无限的真实语言生活特征

    6. 4. 1. 2 语料库详细说明

    应使用doc或docx格式文件对语料库添加数据的详细说明,内容包括:数据详细介绍(语料库 来源及说明)、数据格式说明、数据指标说明、数据用途、创建者、版本、创建日期。

    6.4.2文本文件格式及命名要求

    6.4.2.1语料数据的格式及命名要求

    应满足语料存储方式、文件命名规则。具体规则如下: a)语料采用的数据存储方式应包括:TXT、CSV、xls、x1sx、xml等常见格式:

    Q/GDW1211832021

    6.4.2.2语料数据详细说明要求

    吾料数据的详细说明应包括数据详细介绍、数据格式说明、数据指标说明、数据用途、创建者、 创建日期、数据量、数据具体来源

    6.4.3文本标注要求

    6.4.3.1单类词词性标注

    6.4.3.2多类词词性标注

    人工智能平台样本库应支持各类常见接口及服务调用,使样本库实现纵向互联、横向互通,促进 多系统、多层级间流转

    车应用即图像应用、视频应用、语音应用、文本

    图像应用应包含变电站智能辅助监控系统、输电线路智能在线监测、安全生产违章监测分

    现频应用应包含无人机线路智能巡检、直升机线路智能巡检、机器人智慧巡站等。

    语音应用应包含配网指挥调度抢修、营业厅机器人、巡检单现场操作、运检任务下达、智 声纹故障诊断等。

    应用应包含电力知识图谱、电力智能问答、电力

    附 (规范 输电样 输电样本缺陷标签名称应符合表A.1的规定。

    电样本缺陷标签名称应符合表A.1的规定。

    表A.1输电样本缺陷标签名称表

    Q/GDW 12118.32021

    Q/GDW 12118.32021

    [Q/GDW 12118 32021

    附录B (规范性附录) 变电样本缺陷标签

    变电样本缺陷标签名称应符合表B.1的规定。

    表B.1变电样本缺陷标签名称表

    Q/GDW 12118.32021

    [Q/GDW 1211832021

    Q/GDW 12118.32021

    Q/GDW 12118.32021

    Q/GDW12118.32021

    体检标准人工智能平台架构及技术要求

    Q/GDW12118.3—2021编制背景.2编制主要原则..273与其他标准文件的关系,4主要工作过程..27标准结构和内容....28条文说明.2826

    本部分根据国家电网有限公司下达的《2020年第一批技术标准制修订计划》(国家电网科(2020) 21号)的要求编写。 本部分编制背景是人工智能技术成为推动电力业务创新发展的关键核心技术,为公司电网调度、运 维检修及分析决策等提供智能分析支持,在电网生产、经营管理和优质服务三大领域日益广泛应用。为 统一支持公司人工智能平台样本库建设,开展人工智能样本库格式要求标准规范研究,为公司各类业务 应用提供公司人工智能样本库格式要求的支撑服务。 本部分标准编制的主要目的是指导公司人工智能平台样本库格式要求,明确人工智能平台样本分 类、样本参数、样本库接口及应用要求

    本部分主要依据以下原则编制: a)坚持先进性与实用性相结合、统一性与灵活性相结合、可靠性与经济性相结合的原则,以标准 化为引领,服务公司科学发展; b)认真研究国内外现行相关的ISO/IEC标准、行业标准,体现信息技术特性和功能拓展的最新发 展; c)充分调研国内外主流厂商人工智能平台建设成果,研究其在平台方面已经完成的工作和思路 借鉴其在平台服务内容和能力方面成果和经验; d)严格按照实际的电力业务需求及其发展趋势,制定出切实可行的技术规范。 本标准项目计划名称为“人工智能基础支撑能力架构及技术要求”,因用平台表达更准确,分为三 部分更清晰,更符合标准内容和业务现状,经编写组与专家商定,更名为“《人工智能平台架构及技术 要求第1部分:总体架构与技术要求》、《人工智能平台架构及技术要求第2部分:算法模型共享应 用要求》、《人工智能平台架构及技术要求第3部分:样本库格式要求》”。

    本文件与相关技术领域的国家现行法律、法规和政策保持一致 本文件不涉及专利、软件著作权等知识产权问题,

    2020年1月,项目启动,并成立编写小组,对人工智能平台相关技术标准进行资料收集和分析。 2020年3月,完成标准大纲编写,组织召开大纲研讨会,明确编写思路。 2020年7月,完成标准征求意见稿编写,采用发函的方式广泛、多次在公司范围内征求意见。 2020年10月,修改形成标准送审稿。 2020年11月,国家电网公司互联网技术标准专业工作组组织召开了标准审查会,经过专家审查,审 查结论为:审查组协商一致,同意修改后以技术标准形式报批。 2020年11月,修改形成标准报批稿

    机械标准Q/GDW12118 32021

    《人工智能平台架构及技术要求》分为下列3个部分: 第1部分:总体架构与技术要求: 一第2部分:算法模型共享应用要求: 一第3部分:样本库格式要求。 Q/GDW12118.1一2021第1部分规定了人工智能平台建设的架构要求和技术要求;第2部分规定了电 力人工智能算法模型在共享应用中所涉及的文件、描述文档和使用方式的基本要求;第3部分规定了人 工智能平台建设的样本分类、样本参数要求、样本库接口和样本应用要求。第1部分侧重于人工智能平 台总体要求,第2部分是模型库建设的支撑,第3部分是样本库建设的支撑。这3部分标准可分别独立使 用。 本部分是《人工智能平台架构及技术要求》的第3部分。 本部分按照《国家电网公司技术标准管理办法》(国家电网企管(2018)222号文)的要求编写。 本部分的主要结构和内容如下: 本部分主题章分为4章,由样本分类、样本参数要求、样本库接口和样本库应用组成。本部分兼顾 了人工智能平台建设的实际状况,本着开放合作性、安全性、实用性、可靠性、可扩展性、自主可控性 和先进性原则,给出了公司级人工智能平台的样本库格式要求。

    ....
  • 技术标准
  • 相关专题:

相关下载

常用软件