DA_T 77-2019纸质档案数字复制件光学字符识别(OCR)工作规范.pdf

  • DA_T 77-2019纸质档案数字复制件光学字符识别(OCR)工作规范.pdf为pdf格式
  • 文件大小:0.5 M
  • 下载速度:极速
  • 文件评级
  • 更新时间:2021-03-01
  • 发 布 人: yanqunic
  • 原始文件下载:
  • 立即下载

  • 文档部分内容预览:
  • 档案 数字化 规范

    一般应包括图像分辨率、偏斜度、清晰度、失真度、亮度、对比度、灰度等。 7.1.2纸质档案数字复制件的图像分辨率应不低于200dpi。特殊情况下,如文字偏小、密集、清晰度 较差等,可以适当提高分辨率。文件命名应符合DA/T13、DA/T22、DA/T31的规定。 7.1.3对质量不能达到档案OCR工作基本要求的纸质档案数字复制件,应按照DA/T31的要求重新 数字化后导人。

    特征对待识别图像进行降课处理,提 升识别处理的精确度, .2.2.2降噪处理应去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,去除档案页面 原有的纸张褪变斑点、水渍、污点、装订孔等影响识别的地方

    7.2.3.1对图像进行识别前抽样标准,应进行图像方向检测并进行自动水平或垂直倾斜校正。

    7.2.3.1对图像进行识别前,应进行图像方向检测并进行自动水平或垂直倾斜校正。 7.2.3.2应支持由用户指定图像倾斜的角度,采用相应的图像旋转算法进行手工倾斜校正。

    7. 2. 4图像监测

    图像质量控制程序应自动检测图像处理质量。对无法达到质量要求的图像进行标注。

    7.3.1.1比对识别前应对图像中的字符块结构进行版式分析,把图像中相似的版块信息划分到一起 如横排文本、竖排文本、表格、图形等。 7.3.1.2版式分析可采取多种分析方法,自动检测各版块类型,对图像内部区域进行逻辑归类,记录各 版块的位置,存储版面信息。

    7.3.2档案特征分析

    7.3.2.1归档章分析。建立归档章式样库,自动识别图像中的归档章,并根据归档章样式,识别出字段 立置,如全宗号、年度、机构、保管期限、件号、贞数等。 7.3.2.2公文要素分析。建立公文格式库,可准确识别公文的版头、主体、版记三部分,识别公章、签章 等区域,比照公文样式,识别密级和保密期限、紧急程度、发文字号、签发人、标题、主送机关、正文、附件 说明、发文机关署名、成文日期、附注、附件、抄送机关等公文要素。公文要素OCR识别要求见附录A。 7.3.2.3表格分析。建立单独表格处理模块,建立专用表格模板定义工具,自定义文件处理单、发文稿 纸、备考表等表格模板,识别表格中的字段位置。 7.3.2.4印章分析。识别印章图像位置,存储印章图像,建立印章名称与印章图像的关系库,用于版式

    7.3.3.1识别时应抽取字体、字号、粗体、斜体、首行缩进等字符特征,通过相似度计算方法,与特征数 居库比对,识别为计算机文字内码。 7.3.3.2特征数据库应存储多种印刷体字符、常用签名和批注手写体字符,具备可更新和可扩充性。 时使用频率高的汉字、英文、数字以及常用的符号、常用签名和批注手写体学字符应建立高频库。应将无 法识别的手写体筛选出来,通过人工识别,并将识别成果存入字符库。 7.3.3.3应通过将比对后的识别文字根据上下文在可能的相似候选字群中找出最合乎逻辑的字词对 识别文字进行除错或更正,以提高OCR识别准确率

    7.4.1应对识别的文本进行自动语义识别和校正,通过词汇库和语义库对识别后文本中的字符、词汇 语句自动进行逐层分析更正。词汇库和语义库应具备更新和自动学习功能。 7.4.2应对候选字、拒认字和可能有问题的字词、语句进行标记, 7.4.3应支持以人工方式对OCR成果进行图像与识别文字对照、修正等校正的功能,以满足更高识 别准确率的特殊要求

    .5.1.1支持按照纸质档案数字复制件的版式对OCR成果的段落和表格进行版面理解与重建。重 建后OCR成果的段落编排、表格样式应与纸质档案数字复制件图像一致。 .5.1.2应自动分析、提取党政机关公文的各公文要素,包括密级和保密期限、紧急程度、发文字号、签 发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、附注、附件、抄送机关等。档案OCR 成果中各公文要素位置应与纸质档案数字复制件图像一致。 7.5.1.3应支持调用、编辑、备份、导出OCR成果,支持对文字、符号的搜索等功能

    7. 5. 2成果输出

    7.5.2.1档案OCR成果应同时保存为纯文本形式和双层PDF/OFD文件形式。 7.5.2.2应以纸质档案的件或页为单位输出、保存纯文本形式档案OCR成果。纯文本形式OCR成 果保存规则参见表1:

    表1OCR成果保存规贝

    应以档号为基础对纯文本形式档案OCR成果命名,命名方式的选择应确保档案OCR成果

    7.5.3.1应采用计算机自动检验与人工检验相结合的方式对纸质档案OCR成果进行验收检验。 7.5.3.2验收检验内容包括OCR成果、提取的党政机关公文要素、数据挂接情况、OCR工作文件和存 诸载体等。 7.5.3.3能够采用计算机自动检验的项目应采用计算机自动检验的方式进行100%检验,对于无法用 计算机自动检验的项目,可根据情况以件或卷为单位采用抽检的方式进行人工检验。抽检比率不得低 于5%。

    7.5.3.1应采用计算机自动检验与人工检验相结合的方式对纸质档案OCR成果进行验收检验。 7.5.3.2验收检验内容包括OCR成果、提取的党政机关公文要素、数据挂接情况、OCR工作文件和存 诸载体等。 7.5.3.3能够采用计算机自动检验的项目应采用计算机自动检验的方式进行100%检验,对于无法用 计算机自动检验的项目,可根据情况以件或卷为单位采用抽检的方式进行人工检验。抽检比率不得低 于5%。

    8.1.1档案OCR对档案中文、数字、英文印刷体的识别准确率在95%以上。 8.1.2档案OCR对常用签名识别准确率达到90%以上,手写体识别准确率达到80%以上。

    能力,识别过程中能够有效屏散较大程度的噪点十扰。 2档案OCR应能准确判别纸质档案数字复制件上的污点、污线、黑边、纸张褪变斑点、水渍 装订孔等,提高识别准确率

    8.3.1识别速度指标与识别准确率指标应同时适用。 8.3.2在主流计算机软硬件平台下,A4纸幅面中文识别速度不低于1000字/s,英文识别速 2000字/s。

    1应实现复杂版面的精确还原,采用分栏技术,智能分析中文(简体、繁体)、英文字体,文、表、图 本,识别后无需人工干预,自动还原排版。 2识别后的文档与原导人图像版面还原度应达到90%以上。

    9档案OCR成果的管理与应用

    9.1.1应保持档案OCR成果各组成要素对应的纸质档案数字复制件、档案目录、元数据之间的逻辑 层次和关联关系。 9.1.2以纯文本形式保存的档案OCR成果应使用档号作为文件名,可在存储载体中以档号为基础逐 及建立层次文件夹单独保存船舶标准,也可与纸质档案数字复制件统一保存 9.1.3支持全文检索的双层PDF或OFD文件可与对应的纸质档案数字复制件统一存储。数字档案 官(室)应用系统应记录并维护不同文件版本之间的联系。 9.1.4档案OCR成果文件管理权限应与纸质档案数字复制件相同

    9.1.1应保持档案OCR成果各组成要素对应的纸质档案数字复制件、档案目录、元数据之间的逻辑 层次和关联关系。 9.1.2以纯文本形式保存的档案OCR成果应使用档号作为文件名,可在存储载体中以档号为基础逐 级建立层次文件夹单独保存,也可与纸质档案数字复制件统一保存, 9.1.3支持全文检索的双层PDF或OFD文件可与对应的纸质档案数字复制件统一存储。数字档案 馆(室)应用系统应记录并维护不同文件版本之间的联系。 9.1.4档案OCR成果文件管理权限应与纸质档案数字复制件相同 9.1.5OCR成果应与

    当案OCR成果应通过数字档案馆(室)应月 提高档案信息检索效率 发挥档案OCR成果提取的归档信息和党政机关公文要素的作用,辅助开展档案自动著录 核查,以及纸质档案数字复制件挂接准确性核查等业务工作 可利用档案OCR成果,结合数据挖掘技术开展数据分析、知识管理、词库建设等工作

    .2.3可利用档案OCR成果桥梁工程,结合数据

    附录A (规范性附录) 公文要素OCR识别要求 公文要素OCR识别要求见表A.1.

    公文要素OCR识别要

    ....
  • 档案标准
  • 相关专题:

相关下载

常用软件