T/CESA 1199-2022 人工智能 智能字符识别技术规范.pdf

  • T/CESA 1199-2022  人工智能 智能字符识别技术规范.pdf为pdf格式
  • 文件大小:5.7 M
  • 下载速度:极速
  • 文件评级
  • 更新时间:2022-10-10
  • 发 布 人: 13648167612
  • 原始文件下载:
  • 立即下载

  • 文档部分内容预览:
  • T/CESA 1199-2022  人工智能 智能字符识别技术规范

    图像采集功能应符合以下要求: a)支持对包含但不限于JPEG、GIF、PNG、TIFF、BMP、PDF等常见的图片格式进行读取。图片分 辨率支持范围应该包含128×128dpi~4096x4096dpi; b)支持对包括但不限于自然场景卡证、票据、文档、表单等常见文本场景文字的检测和识别。

    5. 3. 1字符检测

    在原始图像或图像中间样本识别从预定义范围的字符符合以下要求: a)应支持设置待检测字符类型范围,如:Unicode字符集; b)应检测出预先定义范围内的字符类型管道标准规范范本,包含但不限于:中文简体、中文繁体以及英语、阿拉伯 语、俄语等西文;宜支持藏语、蒙语、维语等少数民族语言,数字、特殊符号及其组合等; C 应在检测结果中包含字符在图像中的位置信息; d 宜支持对所检测图像中的最小、最大字符大小的设置,如:8px~256pX。

    对原始图像或图像中间样本进行文本行检测符合以下要求: a)应定位出图像中文字块的位置,位置信息支持水平矩形、旋转矩形、不规则四边形以及多轮廓 点等形式; b 应根据位置信息将含有文本行的区域,通过算法,如:仿射、最小外接矩形等归一化算法,处 理成规则的图像数据; c)应支持对所需检测图像分辨率的设置,如:128×128dpi~4096×4096dpi; 宜支持不同语言种类的检测,如对中文、英文、混合语种的检测;支持印刷体和手写体的混合 模式、不同字体类型大小、不同角度倾斜、不同程度遮挡物等情况的文字区域检测,

    T/CESA 11992022

    对图片中的文本行检测区域进行定位后,对检测区域内文本内容进行识别,应符合以下要求: a)对印刷文字和手写文字的识别; b)对字符、字母、混合语种中的文字内容进行识别; 对数字、数学公式以及特殊符号的识别: d 英文识别的最小尺寸为16x16px,中文识别的最小尺寸为32x32px; e) 对方向有旋转的文字,支持文字与水平轴<土15°夹角偏转; f 支持对如中、日、韩文等有比较多竖排文字呈现的文字识别

    内结构化数据,应符合以下要求: a)可对文本中的特定词汇进行纠错: 可根据特定的语言上下文的关系,对识别结果进行校正。对于需要校正的字段,应支持定义校 正规则,并依据校正规则进行处理,如日期、地址、金额类等; c) 可支持对文本版式结构的还原,包括但不限于标题、章节、段落、图表、脚注、页眉、页脚等 版本格式; d)可支持识别表格区域行列信息,并对表格区域结构单元信息进行恢复还原

    3.1文本检测性能要求

    6. 1. 1交并比 (IoU)

    交并比是用来评价文本目标框和文本预 测框之间的重合度。计算公式如式1,

    6.1.2精确率(PR)

    IoU = area (BpnBgt). area (B,UBgt)

    精确度包括字符精确度、单词精确度和字段精确度。其中: a)字符精确率:适合中文ICR评测,字符包括单个文字以及标点符号; b)单词精确率:适合英文ICR评测,单词以空格分隔; c)字段精确率:适合卡证类、发票类、车牌ICR评测,能提取到结构化的字段信息。 精确率用于衡量正确检测出的字符(串)框数量占所有检测出的字符(串)框数量的比例。计算方 法见公式2: 正确检测是指预测框与目标框的IoU不小于0.5。

    式中: PR—精确率; C——正确检测出的字符(串)框数量; M 检测出的字符(串)框总数量。

    6.1.3召回率(RR)

    T/CESA 11992022

    召回率包括字符召回率、单词召回率和字段召回率。召回率用于衡量正确检测出的字符(串) 占图像上真实存在的字符(串)框数量的比例。计算方法见公式3:

    式中: RR召回率; C一一正确识别的字符(串)框数量; 图像上应该被正确识别的字符(串)框总数量

    6. 1.4F Score

    6. 1. 5AP 测度

    FScore =(1 +β) B2(PR+RR)

    式中: AP 不同召回率下的平均精确率; RR 召回率; PRonis 平滑后的精确率。

    1 PRsmooth(RR) RRE(0,0.1...1.0)

    AP = PRsmooth(RR) RRE(0.0.1 ...1.0

    电子/扫描、拍照、自然街景、网络、多语音等场景下的文本检测性能要求应符合表1的要求。

    6.2文本识别性能要求

    6.2.1精确率(PR)

    精确率用于衡量正确识别出的字符(串)数量占所有检测出的字符(串)数量的比例。计算方法见 公式6:

    式中: PR精确率; 一正确识别的字符(串)数量; M 一识别的字符(串)总数量。 注1:若引擎将两个单词之间的空格漏掉,则两个单词都算识别错误 注2:字段中如有一个错误识别的文字则整个字段算作识别错误

    6. 2. 2 编辑距离

    编辑距离表示一个学符串修改为和另外一个字符串一致,总共需要修改的学符数。编辑距离越大表 示两字符串之间的差异越大。编辑距离包括全图编辑距离、最小编辑距离和平均编辑距离。 归一化编辑距离可以衡量两个字符串之间的相似性,在编辑距离的基础上加入归一化操作可规避字 符串长度带来的指标差异。计算方法见公式7:

    词错误率(WordErrorRate,wER)是一种基于编辑距离的评价文本识别准确率的指标。而在评价 文本,通常采用此错误率,该指标的定义为公式8:

    EDITDIS(label,pred) WER= LENGTH(label) ×100%

    EDITDIS(label,pred)表示标签label与预测的结果pred之间的编辑距离; LENGTH(label), 表示标签的字符数

    6.2.4不同场景下文本识别性能要求

    、手写文字等场景下的文本识别性能要求应符合

    智能字符识别系统的测试流程见图2

    T/CESA 11992022

    7.2 确定系统质量目标

    图2智能字符识别测试流

    应运用以下步骤确定智能字符识别系统的质量目标: a 场景分析:分析智能字符识别系统的应用场景、运行环境与使用流程,既要考虑系统正常使用 的情况,也要考虑可预见的异常情况; D) 风险分析:根据智能字符识别系统的不同应用场景,分析误识别与漏识别可能出现的风险,分 析针对字符识别系统可能产生的对抗攻击手段: C) 确定系统质量目标:根据系统的应用场景和风险,确定智能字符识别系统的质量目标检测标准,包括: 确定系统功能有效性、性能、兼容性、维护性、可移植性、训练数据集的质量、对抗样 本的影响、对应用场景数据的鲁棒性、可解释性、安全性的指标要求; 2石 确定测评指标评价的准则

    在测试开始前,应根据不同场景制作测试数据集。采集数据要均衡,避免场景单一、学体单一、文 字信息单一,尽量均衡覆盖常用汉字和各类字符。 测试场景及对应的测试数据集要求如下: a)印刷文字场景:测试数据集应包括但不限于卡证类、票据类、车牌类和文档类数据;每种类型 的测试数量应不少于200张;样本图片类型应包括不同拍摄角度、不同光线场景;样本字符应 包括中文简/繁体、生僻字、英文、特殊字符、多语言字符; b) 手写文字场景:测试数据集应包括作文类、试卷类、批注类数据;每种类型的测试数量应不少 于200张;样本图片类型应包括不同手写字体、不同版面类型、和不同拍摄光线及可能出现的 遮挡、涂改、污损等:样本字符应包括中文简/繁体、生字、英文、特殊字符、多语言字符:

    c)其他文字场景:除了常规场景,也需要考虑一些数据增强场景。例如:加噪、图像压缩、旋转、 图像缩放等。该阶段需要完成数据集的采集,数据清洗,数据标注,标注结果校验的工作。保 证测试数据的完整、标注数据的准确性

    根据被测的智能字符识别服务所需要的软硬件参数构建出完整的软硬件环境,保证被测服务在环境 中运行正常。 软件提供与扫描仪的接口,如扫描仪驱动软件。硬件配置如影像扫描仪、传真机或任何摄影器材等 设备。 若无法复现出测试服务需要的软硬件环境,则要能够通过其他方式支撑服务的运行道路标准规范范本,并且人为可控 因运行环境带来的测试差异

    根据制定的系统质量目标,选择第6章中描述的若于测试指标作为测试目标。

    确定被测服务的应用场景(例如:自然街景或电子扫描、手写体或印刷体、检测服务或识别服务) 然后检出相应的测试集数据按照指定的请求协议,获取每个测试图片的服务处理结果。 将得到的服务处理结果转化为指定的数据文件格式。 根据第6章给出的不同场景的指标统计方式,结合被测服务的应用场景,使用指标统计工具,计算 出具体测试场景的指标。

    ....
  • 相关专题:

相关下载

常用软件