DA/T 77-2019 纸质档案数字复制件光学字符识别(OCR)工作规范

  • DA/T 77-2019  纸质档案数字复制件光学字符识别(OCR)工作规范为pdf格式
  • 文件大小:659K
  • 下载速度:极速
  • 文件评级
  • 更新时间:2020-04-26
  • 发 布 人: 13648167612
  • 原始文件下载:
  • 立即下载

  • 文档部分内容预览:
  • 图像质量控制程序应自动检测图像处理质量。对无法达到质量要求的图像进行标注。

    7.3.1.1对比识别前应对图像中的字符块结构进行版式分析,把图像中相似的版块信息划分到一起 如横排文本、竖排文本、表格、图形等。 7.3.1.2版式分析可采取多种分析方法,自动检测各版块类型,对图像内部区域进行逻辑归类,记录名 版块的位置,存储版面信息

    抽样标准7.3.2档案特征分析

    7.3.2.1归档章分析。建立归档章式样库,自动识别图像中的归档章,并根据归档章样式,识别出字段 立置,如全宗号、年度、机构、保管期限、件号、页数等 7.3.2.2公文要素分析。建立公文格式库,可准确识别公文的版头、主体、版记三部分,识别公章、签章 等区域,比照公文样式,识别密级和保密期限、紧急程度、发文字号、签发人、标题、主送机关、正文、附件 说明、发文机关署名、成文日期、附注、附件、抄送机关等公文要素。公文要素OCR识别要求见附录A。 7.3.2.3表格分析。建立单独表格处理模块,建立专用表格模板定义工具,自定义文件处理单、发文稿 纸、备考表等表格模板,识别表格中的字段位置,

    DA/T 772019

    7.3.2.4印章分析。识别印章图像位置,存储印章图像,建立印章名称与印章图像的关系库,用于版式 恢复

    7. 3. 3识别和匹配

    7.3.3.1识别时应抽取字体、字号、粗体、斜体、首行缩进等字符特征,通过相似度计算方法,与特征数 居库比对,识别为计算机文字内码 7.3.3.2特征数据库应存储多种印刷体字符、常用签名和批注手写体字符,具备可更新和可扩充性。 对使用频率高的汉字、英文、数字以及常用的符号、常用签名和批注手写体字符应建立高频库。应将无 法识别的手写体筛选出来,通过人工识别,并将识别结果存人字符库。 .3.3.3应通过将比对后的识别文字根据上下文在可能的相似候选字群中找出最合乎逻辑的字词对 识别文字进行除错或更正,以提高OCR识别准确率

    7.4.1应对识别的文本进行自动语义识别和校正,通过词汇库和语义库,对识别后文本中的字符、词 汇、语句自动进行逐层分析更正。词汇库和语义库应具备更新和自动学习功能, 7.4.2应对候选字、拒认字和可能有问题的字词、语句进行标记。 7.4.3应支持以人工方式对OCR结果进行图像与识别文字对照、修正等校正的功能,以满足更高识 别准确率的特殊要求。

    7.5.1.1支持接照纸质档案数字复制件的版式对OCR结果的段落和表格进行版面理解与重建。重 建后OCR结果的段落编排、表格样式应与纸质档案数字复制件图像一致。 7.5.1.2应自动分析、提取党政机关公文的各公文要素,包括密级和保密期限、紧急程度、发文字号、签 发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、附注、附件、抄送机关等。档案OCR 成果结果中各公文要素位置应与纸质档案数字复制件图像一致, 7.5.1.3应支持调用、编辑、备份、导出OCR结果,支持对文字、符号的搜索等功能。

    7. 5. 2成果输出

    7.5.2.1档案OCR成果应同时保存为纯文本形式和双层PDF/OFD文件形式。 7.5.2.2应以纸质档案的件或页为单位输出、保存纯文本形式档案OCR成果。纯文本形式OCR成 果保存规则参见表1:

    表1OCR成果保存规则

    7.5.3.1应采用计算机自动检验与人工检验相结合的方式对纸质档案OCR成果进行验收检验。 7.5.3.2验收检验内容包括OCR成果、提取的党政机关公文要素、数据挂接情况、OCR工作文件和存 诸载体等。 7.5.3.3能够采用计算机自动检验的项目应采用计算机自动检验的方式进行100%检验,对于无法用 计算机自动检验的项目,可根据情况以件或卷为单位采用抽检的方式进行人工检验。抽检比率不得低 于5%。

    2.1档案OCR应当具备对噪点的强抵抗能力,识别过程中能够有效屏蔽较大程度的噪点干扰。 2.2档案OCR应能准确判别纸质档案数字复制件上的污点、污线、黑边、纸张褪变斑点、水渍 装订孔等,提高识别准确率。

    8.3.1识别速度指标与识别准确率指标应同时适用。 3.3.2在主流计算机软硬件平台下,A4纸幅面中文识别速度不低于1000字/秒,英文识别速度不低 于2000字/秒

    3.4.1应实现复杂版面的精确还原,采用分栏技术,智能分析中文(简体、繁体)、英文字体,文、表、图 混排文本,识别后无需人工干预,自动还原排版 3.4.2识别后的文档与原导人图像版面还原度应达到90%以上

    3.4.1应实现复杂版面的精确还原,采用分栏技术,智能分析中文(简体、繁体)、英文字体, 混排文本,识别后无需人工干预,自动还原排版 8.4.2识别后的文档与原导入图像版面还原度应达到90%以上

    9档案OCR成果的管理与应用

    DA/T 772019

    9.1.1应保持档案OCR成果各组成要素对应的纸质档案数字复制件、档案目录、元数据之间的逻辑 层次和关联关系。 .1.2以纯文本形式保存的档案OCR成果应使用档号作为文件名,可在存储载体中以档号为基础逐 级建立层次文件夹单独保存,也可与纸质档案数字复制件统一保存。 9.1.3支持全文检索的双层PDF或OFD文件可与对应的纸质档案数字复制件统一存储。数字档案 馆(室)应用系统应记录并维护不同文件版本之间的联系。 9.1.4档案OCR成果文件管理权限应与纸质档案数字复制件相同, 9.1.5OCR成果应与纸质档案

    9.1.1应保持档案OCR成果各组成要素对应的纸质档案数字复制件、档案目录、元数据之间的逻辑 层次和关联关系。 9.1.2以纯文本形式保存的档案OCR成果应使用档号作为文件名,可在存储载体中以档号为基础逐 级建立层次文件夹单独保存,也可与纸质档案数字复制件统一保存。 9.1.3支持全文检索的双层PDF或OFD文件可与对应的纸质档案数字复制件统一存储。数字档案 馆(室)应用系统应记录并维护不同文件版本之间的联系。 9.1.4档案OCR成果文件管理权限应与纸质档案数字复制件相同。 9. 1.5OCR 成果 数据备份工作

    9.2.1档案OCR成果应通过数字档案馆(室)应用系统实现全文检索土方机械标准规范范本,提高档案信息:

    可发挥档案OCR成果提取的归档信息和党政机关公文要素的作用,辅助开展档案自动著录 核查,以及纸质档案数字复制件挂接准确性核查等业务工作, 可利用档案OCR成果,结合数据挖掘技术开展数据分析、知识管理、词库建设等工作

    .2.3可利用档案OCR成果,结合数据

    附录A (规范性附录) 公文要素OCR识别要求 公文要素OCR识别要求见表A.1

    公文要素OCR识别要求见表A.1。

    角钢标准公文要素OCR识别要

    ....
  • 档案标准
  • 相关专题:

相关下载

常用软件