DB35T 1979-2021 智慧家庭人工智能语音服务通用技术规范.pdf
- 文档部分内容预览:
应满足以下要求: a)支持简称、别名、代码、数字的理解; b)具有用户表达存在错字、缺字、模糊时的容错理解能力; 支持多轮、全双工对话的人机交互方式; d)语义理解正确率应满足表4要求。
DB35/T1979202
语义理解正确率计算方法按公式(②)。
式中: R一一语义理解正确率玻璃标准规范范本,单位为百分数(%); N一一操作意图及语义要素均被正确判断的次数; 一用户输入被正确识别出文本信息的总次数。
7. 3.2 语音合成
应满足以下要求: a)支持在线或离线方式合成近似人类的语音; 支持普通话和英语,宜支持福建省内主流方言,如闽南语、客家语; 支持中英文数字等各种混合音,宜支持多音色合成和个性化合成; d) MOS应大于或等于4,MOS量化分值见表5。
DB35/T1979202
表5MOS量化分值(续)
具备语音唤醒功能的智能语音终端在夜间的唤醒率应满足表6要求。
表6夜间不同噪声环境下的唤醒率要求
夜间唤醒率计算方法按公式(3)
R一一夜间唤醒率,单位为百分数(%); N一一成功唤醒次数; N一一语音唤醒操作次数
7. 4. 2 昼间唤醒
具备语音唤醒功能的智能语音终端在昼间的唤醒率应满足表7要求。
表7昼间不同噪声环境下的唤醒率要求
DB35/T1979202
表7昼间不同噪声环境下的唤醒率要求(续)
昼间唤醒率计算方法按公式(4)。
Ra一一昼间唤醒率,单位为百分数(%); N一一成功唤醒次数; N 一语音唤醒操作次数。
具备语音唤醒功能的智能语音终端误唤醒次数应满足表8要求。
Rdw = Nsw×100%..
7.5. 1.1响应时间
因调用网络资源的不同,音频端点检测 立时间应小于或等于2S。 响应时间计算方法按公式(5)
DB35/T1979202
一给出结果时刻; 一一语音输入结束的时刻。 注1:如语音交互系统支持识别结果分多次返回,t.为第一部分识别结果返回的时刻。 注2:如智能语音终端具备语音唤醒功能,t为终端返回指定内容、反馈的时刻。 注3:如智能语音终端具备显示屏幕,t为终端以屏幕显示或音频播放方式返回指定内容、反馈的时刻。
7. 5. 1. 2 交互反馈
应满足以下要求: a)支持查询类技能通过语音播报加信息展示的形式向用户反馈; b) 支持媒资检索类技能通过语音播报加搜索结果展示的形式向用户反馈; 支持技能处理遇到异常情况时通过语音或者文本展示的形式向用户反馈。
7.5.1.3反馈语设讯
宜满足以下要求: a)准确:实事求是,清楚明了传达信息,避免歧义; 简洁:用最少的话传达最重要的信息; 自然:口语化不生硬,容易理解,有停顿,符合正常说话节奏; d) 明晰:明确、具体完成任务,并传达理解程度; e)亲和:遇到出错情况,主动推荐并引导用户
7. 5. 2 应用唤起
7.5.2.1单说指令唤起
应支持按应用名称唤起应用。
7.5.2.2指定句式唤起
应支持按固定的句式进行应用的唤起,句式为:前缀词+应用名称+后缀词。 前缀词至少包括:打开、启动、开启、我要玩、我想玩、我要用。 后缀词至少包括:应用、软件,
7.5.2.3关联语义唤起
宜支持根据语音指令的语义理解,抽取出用户的意图所属的语义范围,然后根据该语义范 配的应用唤起。
7.6涉屏语音服务技能
应支持媒资的栏目管理、索引建立、审核、发布功能。媒资信息应满足以下要求: a)影视媒资信息包括:名称、主演、上映时间、类型,宜包括季集、导演、简介、评分、热度 等信息; 音乐媒资信息包括:名称、歌手、音乐来源、类型,宜包括地区、简介、评分、热度等信息; C)游戏媒资信息包括:名称、类型,宜包括简介、评分、上架时间、热度等信息:
7. 6. 2媒资检索
7.6.2.1标签检索
应满足以下要求: a)支持根据媒资库中的1个标签进行检索; b)支持根据媒资库中的任意2个或2个以上标签进行检索
7. 6. 2. 2容错处理
DB35/T1979202
当用户所说的检索条件出现多音字、同义字、多字少字情况时,应能够正确处理并搜索出对应
7. 6. 2. 3关联推荐
宜支持基于内容及用户喜好的关联推荐检索。 关联推荐计算维度应包括物品关联度以及权重,其中影视媒资关联维度宜包括类型、导演、演员信 息。
7. 6. 3. 1 页面基础操控
应满足以下要求: a)支持通过语音控制,实现返回上级页面和退出当前应用等基本操作; b)支持通过语音唤起当前页面 工上所列栏目
7.6.3.2搜索页操控
搜索页应支持语音的翻页及选择指令,具体指令见表9.
7.6.3.3播放页面操控
播放页面应支持语音的播控操作指令,播控操作相关指令见表10,
DB35/T1979202
7.6.4涉屏终端控制
7.7.1基础服务安全
按照GB/T22239—2019中8.1.2规定的执行。
7.7.2.1麦克风隐私保护
具有语音唤醒功能的智能语音终端应具备关闭麦克风的功能,用户可通过手工关闭麦克风 键禁麦。
7.7.2.2摄像头隐私保护
8. 1. 1测试语料
8. 1.1.1 文本测试集
应满足以下要求: a)覆盖影视、音乐、医疗、教育等领域; b)包含智能语音终端的唤醒词、操控指令、多音字、频道别名等常用性语句
8.1.1.2语音测试集
DB35/T1979202
a)至少由50名发音人进行录制; b)由不同年龄段发音人参与录制,其中男女比例为1:1,年龄段在9~12岁、20~50岁、60~ 75岁的人员比例为1:4:1; c)测试文本满足8.1.1.1的要求; d)发音人以普通话或带有福建口音的普通话录制; 宜包含福建省内主流方言,如闽南语、客家语; 语音测试集录音质量要求应符合附录A的规定
8. 1. 2测试用设备
应符合附录B的规定。
8.2.1被测语音交互系统
8.2.2被测系统网络环境
应满足6.2的要求,保持稳定的连通状态,
8.2.3远近场拾音距离
场拾音距离为1m,远场拾音距离为3m
可采用真实的家庭场景的环境噪声或模拟家庭场景的环境噪声,分为低噪声环境和高噪声环境 噪音保持稳定且不包含命令词相关的声音,具体要求见表11。
8.3. 1语音采集测试
使用测试用回放设备播放任意语音测试集,使用被测设备进行录音,由被测设备提供录音音频 据,查看数据的编码格式和采样率。 通过上述测试方法验证是否满足7.1.1的要求。
DB35/T1979202
8.3.2端点检测测试
使用测试用回放设备连续播放语音测试集,被测设备可以远场进行语句端点检测,并正确理解用户 意图,进行多个指令操作。 通过上述测试方法验证是否满足7.1.2的要求。
8.3.3语音识别测试
使用测试用回放设备播放语音测试集,被测设备进行录音,记录各场景下被测系统的识别结果,与 预期结果进行比对,计算出句识别率。 通过上述测试方法验证是否满足7.1.3的要求,
8. 3. 4 语义理解测试
采用机器和人工的方式输入文本测试集,统计系统反馈的文本信息,统计正确次数,计算出语义理 解正确率。 通过上述测试方法验证是否满足7.2的要求,
8.3.5语音播放测试
在昼间2类噪声环境中触发被测设备语音 声压计在距离设备0.1m范围内测 贝值,记录分贝数据。 通过上述测试方法验证是否满足7.3.1的要求
8.3.6语音合成测试
选取10个体验人员,男女各5人,年龄在20~50岁之间,通过对被测设备人为的唤醒或识别命令反 馈,测听合成语音与真人语音在音质、可懂度和自然度方面的差异,并按表5给出MOS量化分值,记录平 均结果。 通过上述测试方法验证是否满足7.3.2要求
8. 3. 7 语音唤醒测试
8. 3. 7. 1唤醒率测试
音测试集不少于50条,统计出正确响应次数,计算出唤醒正确率。 测试唤醒率时,应确保环境噪音声压比被测设备声压低15dB,确保测试用播放设备正对被测设备 人前后左右四个方位播放唤醒词各50次。 通过上述测试方法验证是否满足7.4.1、7.4.2的要求。
8.3.7.2误唤醒测试
按8.2.4误唤醒测试场景要求,将测试用回放设备连续播放12h,统计被测设备给出的响应次数。 通过上述测试方法验证是否满足7.4.3的要求,
8.3.8语音技能测试
8.3.8.1响应时间测试
DB35/T1979202
按8.3.3语音识别测试方法,从拾音设备拾音结束到语音交互系统显示正确的反馈,计为一个 应时间。对被测设备的基本交互时间进行统计、分析,给出在线响应时间。 通过上述测试方法验证是否满足7.5.1.1的要求。
8.3.8. 2交互反馈测试
在被测设备支持的业务场景范围内,选择不少于5个业务场景,由测试人员发出操控指令,记录被 测设备交互反馈情况。 通过上述测试方法验证是否满足7.5.1.2和7.5.1.3的要求,
8.3.8.3应用唤起测试
测试人员对被测设备说,“我要玩游戏”、“我要听音乐”。可以启动被测设备上已安装的游戏 音乐应用,即为通过。 通过上述测试方法验证是否满足7.5.2的要求。
8.3.9.1媒资管理和媒资检索测试
在被测试设备支持的媒资领域,选择不少于10个媒资,由测试人员根据媒资的任意1个或任意 发出搜索指令,记录检索结果情况, 通过上述测试方法验证是否满足7.6.1、7.6.2.1和7.6.2.2的要求
3.3.9.2关联推荐测试
测试人员连续观看同类影片,当搜索无结果时,被测设备给出与用户搜索语相关的影视推荐。 搜索:“熊出没狂野大陆”,被测设备无对应媒资时,给出“熊出没”相关联的影片推荐。 通过上述测试方法验证是否满足7.6.2.3的要求。
8.3.9.3页面操控测试
测试人员通过语音进行媒资搜索,被测设备出现多负搜索结果时,可进行翻页操控;播放状态下, 支持播放状态的控制。如用户搜索:“我要看电影”,出现多页时,可进行上下页的操控;电影播放状 态下通过语音操控“暂停”、“重新播放”,被测设备给出正确响应。 通过上述测试方法验证是否满足7.6.3的要求,
8.3.9.4涉屏终端控制测试
测试人员通过语音进行被测设备的控制,如:增大音量、减小音量、打开设置页面、关机。 通过上述测试方法验证是否满足7.6.4的要求
8.3.10服务安全测试
8. 3. 10. 1基础服务安全要求测试
按照GB/T22239—2019中8.1.2的规定执行。
DB35/T1979202
8. 3. 10. 2 麦克风关闭测试
测试人员在离被测设备正面1m处用唤醒词进行唤醒,确认麦克风是正常工作,然后关闭被测设备 的麦克风,使用唤醒词在同一位置连续唤醒5次,被测设备应处于无响应的状态。 通过上述测试方法验证是否满足7.7.2.1的要求。
8.3.10.3摄像头关闭测试
测试人员首先通过视频应用确认摄像头处于正常工作状态,然后关闭被测设备的摄像头,通过视频 应用判断设备是否已经关闭摄像头, 通过上述测试方法验证是否满足7.7.2.2的要求
附录给出了语音测试集录音质量的组成部分及对
DB35/T1979202
附录A (规范性) 语音测试集录音质量要求
应满足以下要求: a)本底噪声小于25dB(A); b)混响时间小于0.3S。 注1:本底噪声又称为等效噪声电平,是话筒本身产生的电噪声 注2:混响时间指声源停止发声后 安全生产标准,
应满足以下要求: a)本底噪声小于25dB(A); b)混响时间小于0.3S。 注1:本底噪声又称为等效噪声电平,是话筒本身产生的电噪声。 注2:混响时间指声源停止发声后,声压级减少60dB所需要的时间,单位为秒(s)
录音语料(唤醒词、命令词)应提前准备,语音测试集音频应在A.2要求的录音棚中进行录制,音 频应满足以下要求: a)音频波形采样范围在5000smpl~20000smpl; b)音频采样率为44.1kHz,16bit,单声道; C 音频时长至少在2s~3S; d) 音频底噪波形采样范围控制在100smpl以内; e)录制音频时需检查、确定不能存在固定频率现象
附录给出了语音测试集录音质量的组成部分及对
DB35/T1979202
附录A (规范性) 语音测试集录音质量要求
应满足以下要求: a)本底噪声小于25dB(A); b)混响时间小于0.3S。 注1:本底噪声又称为等效噪声电平,是话筒本身产生的电噪声 注2:混响时间指声源停止发声后型钢标准,
应满足以下要求: a)本底噪声小于25dB(A); b)混响时间小于0.3S。 注1:本底噪声又称为等效噪声电平,是话筒本身产生的电噪声。 注2:混响时间指声源停止发声后,声压级减少60dB所需要的时间,单位为秒(s)
录音语料(唤醒词、命令词)应提前准备,语音测试集音频应在A.2要求的录音棚中进行录制,音 频应满足以下要求: a)音频波形采样范围在5000smpl~20000smpl; b)音频采样率为44.1kHz,16bit,单声道: C 音频时长至少在2s~3S; d 音频底噪波形采样范围控制在100smpl以内; e)录制音频时需检查、确定不能存在固定频率现象
....- 相关专题: