T/CECS761-2020 数据中心运行维护与管理标准及条文说明.pdf

  • T/CECS761-2020 数据中心运行维护与管理标准及条文说明.pdf为pdf格式
  • 文件大小:17.7 M
  • 下载速度:极速
  • 文件评级
  • 更新时间:2021-04-08
  • 发 布 人: easygoing1982
  • 文档部分内容预览:
  • T/CECS761-2020 数据中心运行维护与管理标准及条文说明

    4.0.8数据中心应对运行和维护人员进行岗前培训及能

    在岗位能力测评合格前,运行和维护人员不得独立承担 护工作。

    绩效考核和岗位调整的考核内容 4.0.10数据中心应建立运行和维护人员管理制度,管理制度应 包括招聘、资质管理、岗位职责、绩效考核、安全与保密等。

    .1数据中心应建立运行、维护和管理的工作制度和流 角运行和维护的工作目标,并应按近期与远期的工作目标制 乍计划和任务书。

    5.1.2数据中心应对工作计划和任务的实施效果进行后评价煤矿标准规范范本

    服务台应受理来自内部和外部的服务请求,并应记录相关 信息。

    5.1.4服务台应根据运行和维护的系统、服务等级协议

    咨询的内容及自身管理要求对服务请求进行分类,并应将服务请 求分派至相应的处理团队或责任人。

    5.1.5服务台应跟进服务请求的处理过程,监督服务请求处理

    1服务请求履行完毕应向用户反馈并确认; 2应按月、季、年回顾、统计和分析服务请求的受理和处 理的过程,形成月度、季度和年度报告; 3宜对服务请求的完成情况进行满意度调查,

    数据中心应制定事件管理流程,明确事件处理人的职责。 数据中心应根据对事件的容忍程度进行分级,事件宜划 级~5级,事件分级宜符合表5.2.2的规定

    5.2.1数据中心应制定事件管理流程,明确事件处理人的职责。

    5.2.1数据中心应制定事件管理流程,明确事件处理人

    分为1级~5级,事件分级宜符合表5.2.2的规定

    表 5. 2. 2事件分级要求

    5.2.3当儿个事件同时发生时,应根据事件的等级、影 服务等级协议确定事件处理的优先顺序。

    5.2.4数据中心应建立事件处理的升级机制。在规定时

    完成事件的处理或处理过程中引发新的事件时,应对事件 能性或结构性升级处理。

    5.2.5事件处理人应调查和分析事件发生的原因,当在

    5.2.6对已查明原因的事件,应给出解决方案并执行;对暂时

    去查明原因的事件,应采取应急措施,并将事件转为问题管 呈进行处理。

    5.2.7事件处理应包括关闭和回顾流程,并应符合下列规定:

    5.2.7事件处理应包括关团和回顾流程,开应符合下列规定: 1关闭事件前应由用户确认发生事件的系统已恢复正常 运行; 2 记录事件处理过程的信息应完整准确,技术文件应齐全; 3 对事件处理和系统恢复情况宜进行满意度调查

    2记录事件处理过程的信息应完整准确,技术文件应齐 3对事件处理和系统恢 复情况宜进行满意度调查。

    5.3.1数据中心应建立问题管理流程和人员职责,应识别发生 或潜在的问题,采取纠正或预防措施,并应持续改进。

    数据中心应建立问题管理流程和人员职责,应识别发生 勺问题,采取纠正或预防措施,并应持续改进。 当同时存在儿个问题时,应根据问题发生频度、严重程 务等级协议确定问题处理的优先顺序。

    变更申请,进入变更流程;未查明问题原因时,应增加监控措施 和制定应急预案

    5.3.4问题处理应包括关闭和回顾流程,并应符合下列

    1 关闭问题前,应确认问题已得到解决或可以接受留置 问题; 2 应记录问题分析和处理过程的信息; 3 应完善相关的技术文件和应急预案; 4 应对问题的解决过程和结果进行回顾: 宜对问题处理和恢复情况进行满意度调查。 S

    5.4.2数据中心应建立变更管理程序,变更方案和变更时间应

    5.4.3数据中心应记录变更请求,并对变更请求进行

    古的内容应包括下列内容: 1 变更的原因; 2 变更的技术方案,技术说明,变更操作手册; 3 变更需要的测试验证; 变更涉及的系统以及影响范围; 5 变更需要的人力和设备等资源; 6 变更的风险和应急方案;

    急回退的窗口。当变更异常或失败时,应组织资源实施回退或采 取其他应急措施。变更上线运行前应对变更实施结果进行验证

    关闭变更前应由用户确认变更后系统恢复正常运行: 应记录变更过程信息; 应完善相关的技术文档、操作手册和应急预案: 宜对变更执行和运行情况进行满意度调查

    5.5.1数据中心应建立涵盖运行维护管理全过程的文

    分类、分级、文件版本等相关信息。文件版本管理应包 识别文件编制、审批、发布、变更、废止的信息,各版本 行回溯和跟踪。

    5.5.5数据中心应根据文件的重要程度,对各类文件送

    数据中心应根据文件的重要程度,对各类文件进行密级 不同密级的文件应有不同的授权和保密规定,文件密级应 的固定位置有明确的标识

    5.5.7各类文件在发布前应由数据中心统一组织审查、

    5.5.8数据中心应明确各类文件的保管部门,并应建

    管理制度和使用流程。归档文件应每年进行1次完好性检 子文件宜做备份

    顾,对各类文件进行清理、归档和修订,过期的文件应做 废止处理。

    5.6.1数据中心应建立安全管理体系,应根据各区域的功能和 安全要求,划分安全区域和安全等级。安全区域应分为核心、重 要、普通和公共4个区域,安全等级应对应为一级~四级。安全 区域和等级划分应符合表5.6.1的规定

    表5.6.1安全区域和等级划分

    5.6.2数据中心应明确安全管理职责,应根据基础设施物理环 境和运营管理的特点,制定人流和物流管理制度。

    据中心的运行情况,视频记录保存时间不应少于3个月,门禁记 录保存时间不应少于1年。A级数据中心主机房的视频监控应无 盲区。

    5.6.4数据中心应配置专职安全保卫人员,安全保卫

    数据中心应配置专职安全保卫人员,安全保卫人员应设

    置在园区和数据中心出入口。核心区域、高压配电室、消防和安 防控制室、动力环境监控室应安排专职人员24h值守。

    5.6.5数据中心的人流和物流通道应畅通;应配备人

    护器材;每年应进行1次消防系统运行状况检查,并组 练;每年应组织1次应急和安全器材的使用和演练

    5.6.8数据中心应按照安全区域的等级和运行维护人员

    职责设置访问权限,进入安全区域的人员应采用有效身份识别方 式。未授权但需要进入安全区域的人员应提出申请并通过审批, 访问时应做好记录和人员全程陪同

    5.6.9数据中心应指定部门负责安全区域的日常管理,每年应

    门禁系统访问权限进行审查。工作人员岗位变动时应修改 系统操作的访问权限,人员离职时应注销访问权限

    有效标志和电子识别装置,外来车辆应提前申请、审批, 核对、检查,发放临时通行证。

    5.6.11数据中心应对出人的物品实行分类管理,并应木

    种类制定相应的管理制度。物品出人数据中心应填写申请 审批确认后,方可出人数据中心,并应保存出入审批和记 危险品应严格管理,应在相关部门监督下进行操作,并做 防护措施和应急预案

    5.12数据中心应明确日常操作、故障处理、应急处理、 工作的安全要求,制定操作安全管理制度,控制操作带来 风险。

    5.6.12数据中心应明确日常操作、故障处理、应急处理、施工

    5.6.13运行维护人员必须按照操作手册进行操作。有风险的操

    作和施工应得到批准,且应在非生产时间或对运行影响最小的时 段进行,重要时段严禁进行有风险的操作及施工。对有风险的操 作应实行双人临岗,操作时实施复核和相互监督。

    用明火作业。必须使用明火作业时,应提前申请和批准,并应采 取安全防范措施。按指定的时间和地点完成作业后,应检查确认 无火灾危险隐患后方可离开作业现场

    5.6.15施工和维修用电器设备和电动工具应使用维修电源或临

    5.6.17数据中心应对新入职的人员进行安全培训;对运行维护 人员应每2年进行不少于1次的安全培训与考核以及保密教育与 考核。

    足安全运行、过程管理和可持续改进的要求。运行维护人员宜参 加数据中心建设期间的质量管理

    5.7.2数据中心应制定运行维护的质量管理目标及质量保障计

    制度,监督和检查运行维护服务工作的质量,制定量化考核管理 指标,改进和完善运行维护的服务质量和效率

    制,质量管理应贯穿运行维护全生命周期,并应通过测试、验 证、定期巡检、预防性维护、演练等方式对运行维护的质量进行 控制和提升

    5.7.5运行维护部门应在数据中心工程竣工验收前组

    ,完成技术文档的检查和接收。测试验证的内容应包括单 系统测试验证、系统联调测试验证、带载测试验证和故障 证。测试验证可由第三方检测评估机构完成

    运行维护部门在投产接管时应明确工作范围、界面划分

    5.7.7A级数据中心应安排24h运行维护值班,每日每个班次 现场巡检次数不应少于1次。消防和安全防范系统应24h保持正 常工作状态,不得随意中断。

    5.7.8 数据中心应按照日、月、季、年的时间要求

    间、服务质量和服务人员的能力进行评估

    6.0.4应急管理机构的工作人员应包括管理、运行维护、后勤、

    6.0.5数据中心应建立应急人员保障机制,确保应急

    6.0.5数据中心应建立应急人员保障机制,确保应急人员能够 胜任应急处理的工作,并应符合下列规定: 1每年应组织1次人员培训和应急演练,确保人员具备熟 练的应急处置能力; 2关键岗位相互备份的人员应相互轮换角色; 3明确提出设备厂商技术服务的能力要求,确保应急处置 过程中设备厂商能够提供及时和有效的技术支持。 6.0.6数据中心应对运行维护过程中的应急事件进行分类,并 根据分类制定相应的应急预案。应急事件宜分为公共灾难危害事 件、基础设施故障事件及电子信息系统故障事件,应急事件的分 类应符合表6.0.6的规定。

    表6.0.6应急事件的分类

    审核和批准。应制定应急预案的管理和使用制度,指定和明确应 急预案的存放位置和保管人。 6.0.12应急演练应包括应急预案的培训、制定应急演练计划 实施应急演练、记录演练过程、评估演练效果。 5.0.13演练形式应分为桌面演练、模拟演练、实战演练。每年 的桌面演练和模拟演练应覆盖所有的应急预案,对基础设施重要 系统的实战应急演练每年不应少于1次,实战演练宜每3年覆盖 所有应急预案的场景

    7.0.1数据中心应建立运行和维护的成本与能效管理系统,开 宜建立电子化管理平台。运行和维护的成本与能效管理应贯穿数 据中心运行和维护的全生命周期

    .2容量管理应统计已用容量,开计算可用容量与已用 差,包括电力容量、制冷容量、空间容量,宜包括网络端 宽及电子信息设备的处理能力。

    包括资产分类方法和资产档案,操作流程应包括采购、入库、领 用、维修、调拨、折旧和报废。管理的资产应有唯一标识,宜采 用电子标签

    7.0.4数据中心应建立资产定期盘点制度,每年宜盘点2次,

    7.0.5运行和维护的成本管理应记录数据中心运行和

    发生的各类费用。运行和维护的成本宜包括建筑物和设备的折旧 或租金、能源费用、网络通信费用、维修和耗材费用、改造费 用、管理费用、保险费用、税费和财务费用等。

    7.0.7能效管理系统应包括能耗的采集、分析、评估

    管理对象应包括所有能耗设备。能效管理应覆盖数据中 中涉及的所有能源

    能利用效率和水利用效率,能耗采集应采用自动化监控 测点应满足能效采集和计量的要求,计算时间应以1年

    周期。 7.0.9能效管理系统应对采集和计量的能耗数据进行统计和分 析,形成能耗分析和评价报告。能源使用效率可自行评估,也可 由第三方机构进行评估。数据中心应每年召开1次能效状况分析 会,落实能效改进和优化措施。

    1为便于在执行本标准条文时区别对待,对要求严格程度 不同的用词说明如下: 1)表示很严格,非这样做不可的: 正面词采用“必须”,反面词采用“严禁”; 2)表示严格,在正常情况下均应这样做的: 正面词采用“应”,反面词采用“不应”或“不得”; 3)表示允许稍有选择,在条件许可时首先应这样做的: 正面词采用“宜”,反面词采用“不宜”; 4)表示有选择,在一定条件下可以这样做的,采用 “可”。 2条文中指明应按其他有关标准执行的写法为:“应符 合………·的规定”或“应按………执行”。

    《数据中心设计规范》GB50174 《数据中心基础设施运行维护标准》GB/T51314

    《数据中心设计规范》GB50174 《数据中心基础设施运行维护标准》GB/T51314

    中国工程建设标准化协会标准

    中国工程建设标准化协会标准

    数据中心运行维护与管理标准

    目次2术语(26)4 组织架构与人员管理(27)5日常运行维护与管理(29)5. 1一般规定(29)5. 2事件管理(29)5.3问题管理(30)5. 4变更管理(30)5. 5文件管理(31)5. 6安全管理(32)5. 7质量管理(33)6应急管理(37)7成本与能效管理(41)25

    故障包括基础设施和IT设备故障;软件故障包括操作系统、应 用和开发类产品故障;服务请求包括业务操作、咨询和其他服务 请求。

    4.0.1经营模式是指数据中心定位是自用、外包还是部分外包 方式;管理模式是指集中式管理还是分散式管理;业务模式是指 数据中心是用于生产、灾备还是研发测试。数据中心组织架构宜 包括:基础设施运维部、电子信息系统运维部、监控中心、安全 管理部、客户服务部、行政管理等部门,也可以根据各自的运行 要求设置符合数据中心运行要求的部门。 4.0.2数据中心运行、维护和管理岗位包括下列职位,并承担 相应的职责: 1电子信息系统运行岗位:监控服务器和网络等业务设备 和系统的运行状态,并进行现场操作; 2电子信息系统运维岗位:承担服务器和网络等业务设备 和系统的运行维护工作; 3基础设施运行岗位:监控基础设施的运行状态,并进行 现场操作; 4基础设施运维岗位:承担数据中心基础设施运行维护 工作; 5安全与质量控制岗位:承担数据中心安全检查和质量控 制工作; 6综合管理岗位:承担数据中心人力资源、行政和后勤等 日常工作;

    包运行维护、部分外包运行维护模式: 1自主运行维护模式:所有运行维护团队和人员均为

    中心自有人员,日常运行维护自主实施; 2全外包运行维护模式:由外包服务商提供全部运行维护 服务团队和人员,承担数据中心的运行维护,数据中心只保留少 量运维管理人员对外包服务商进行服务监管; 3部分外包运行维护模式:将部分运行维护岗位外包,或 将部分设施或系统的运行维护进行外包。 4.0.5对于人员资格的确认,可以采用多种方式,包括相关机

    培训,可以采用内部培训,也可以采用外部培训的方式。运行维 护人员在新设施和设备投产前或在变更岗位前,应参加相应的岗 前培训。

    4.0.10人员绩效考核包括安全运行状况、岗位纪律、

    5.1.1工作计划宜按照年、季、月度制定,一般包括业务发展

    5.1.1工作计划宜按照年、季、月度制定,一般包括业务发展 计划,员工业务技能培训计划,产品投产、变更、巡检、预防性 维护、系统升级改造计划等。工作计划和任务书应在审核和批准 后执行。

    5.1.2计划与任务管理是一个编制计划、执行计划、检

    5.1.4通过对服务请求的分类,规范服务

    服务请求的处理次序,调度相应的资源,加快服务处理的时效和 提升服务质量,同时有助于对各类服务请求进行统计、分析和 管理。

    5.2.1事件管理的目的是及时恢复发生事件的系统,减少事件

    5.2.1事件管理的目的是及时恢复发生事件的系统,派 对服务的影响

    件应进行排序,优先处理重要和紧急的事件。影响度是指事件影 响的用户范围、业务数量和造成的损失

    1职能性升级:调动更多的资源(高级、资深或厂家的技 术人员、跨部门跨地区的协作)加快事件的处理。 2结构性升级:升级到上级或更高的管理部门,通过管理

    层的权力调动需要的资源,加快事件的处理速度,并做好与受影 响用户的沟通

    请求处理的时间、报告人和受理人、事件处理的派发时间和处理 人接单时间,恢复的时间、事件处理的耗时、事件处理过程、发 生事件的原因、解决方案等。

    巡昌理乙美佰 动。被动性问题管理的目标是找出导致已发生事件的根本原因, 提出解决办法;而主动性问题管理是通过跟踪系统运行状态和趋 势,分析潜在安全隐患和风险,采取相应的措施来防止潜在事件 的发生。

    5.3.4当发生下列2类留置问题时,可关闭此问题

    1发生的某个问题在规定的时间内虽未查明原因,但该问 题再未发生。 2问题虽已查明原因,但无法解决,或解决问题的成本大 于问题对运行造成的影响,权衡利后可接受该问题

    5.4.1紧急变更是解决突发的运行故障、排除重

    5.4.1紧急变更是解决突发的运行故障、排除重大生产隐患或 因紧急原因无法提前安排而需紧急实施的生产变更;例行变更是 常规的已知定期维护,且技术成熟、对运行无影响或影响可控的 变更;标准变更在变更实施时会影响生产运行,部分变更请求需 要用户的配合,变更需要根据数据中心实际的运行状态进行排 期,选择合理的时间实施的变更,降低变更的风险和对运行的 影响。

    5.4.2紧急变更需要设立授权机制,工作时间应

    方式,事后补办审批手续;例行变更可采用定期预批准的方式, 集中审核、审批;标准变更可采用一请求、一批准的方式,也可 定期或不定期召开变更审批会,审批多个变更请求

    5.5.2外部文件是指来自政府、行业或上级主管部门下发的文 件,包括各类决定、通知、标准等;内部文件是指数据中心内部 为运行维护管理发布的各类文件。工作文件是数据中心为各部门 运行维护管理建立的实施细则,包括各种规章制度、机构设置 人员任用、岗位职责、工作程序等。技术文件包括国家标准、行 业标准、设备资料、产品图纸、生产流程、过程控制文件等

    业标准、设备资料、产品图纸、生产流程、过程控制文件等, 5.5.3一级文件为整体策略的纲领性文件,反映数据中心的基 本管理策略、规章、方针,为所有下级文件的编写指南。 二级文件为程序文件,为开展某项具体运行维护活动所规定 的途径或方法,是针对某项具体运行维护活动的专门规定,是该 项活动的操作指引。程序文件的内容一般包括制定本程序的目 的、本程序适用的工作范围和发放范围、本程序的主要责任者的 职责和权限,以及规定配合团队的职责和权限职责、程序内容和 要求的描述。 三级文件为作业指导书或操作手册,描述特定运行维护活动 的具体操作步骤和方法,用于指导日常操作。三级文件应包括标 准操作流程、维护操作流程和应急操作流程的内容。作业指导书 的内容包括使用对象、相关职责、需要的资源和要求、操作步骤 及需要的记录等。 四级文件是上面几级文件执行后产生的记录。记录作为运行 维护活动持续进行的证据,应防止未经授权的修改并规定记录的 保存期,

    5.5.5文件的密级可规定为“公开”“内部使用”

    的完好性;对电子文件应通过阅读设备验证文件的完好性,必要 时需要进行修复、备份和转录,

    对过期的文件做回收和废止处理。纸质文件废止时应有 只,并统一回收保存,如果需要销毁,应用碎纸机进行销 文件座止时应在由子文件上打上废止标然

    5.5.9对过期的文件做回收和废止处理。纸质文件

    废止标识,并统一回收保存,如果需要销毁,应用碎纸机进行销 毁:电子文件废止时应在电子文件上打上废止标签。

    安全访问的权限、出人控制和安全管理制度等。

    5.6.3数据中心安全防范系统包括视频安防监控、入侵报警、

    出入口控制、电子巡查等,各系统之间应具备联动控制功能。对 设置安检机和手持金属扫描仪的数据中心,应增加对进出人员和 物品的检查。

    5.6.5人身应急保护器材包括空气呼吸器或氧气呼

    edi标准人员的防爆、防袭击器材等;消防系统包括火灾探测、报警、火 火、疏散通道、疏散指示灯、门禁与消防的联动、应急照明等。

    5.6.8访问权限包括进出不同安全区域的门禁权限和访问相关

    系统操作的权限。有效身份识别方式包括门禁卡、指纹、掌纹、 人脸识别、身份证、临时通行证等。对未授权但有需要进人安全 区域的人员需要提出申请并通过审批,审批通过后由门卫核对放 行,进入前在门卫处登记备案,注明日期、时间和进入原因,进 人数据中心需要由内部本区域访问权限的人员全程陪同。

    5.6.11物品可按危险品、机电设备、安防设备、IT设

    体检标准,如油料、燃气、氧气、乙炔等;机电设备包括配电设备、蓄 电池、空调设备、电梯、送排风设备、给水排水设备;安防设备 包括门禁、摄像、监控、消防等设备;IT设备包括服务器、存 诸、网络设备等:耗材和备件包括过滤器、润滑油、除菌药、制 冷剂、皮带、磁盘、板卡等;操作和维修设备包括仪器仪表、电 脑、工具、材料等。危险品申请表应包括危险品的种类、数量、 用途、使用部门、使用区域等

    5.6.13有风险的操作包括电力系统倒闸、双路电源切换、发电

    5.6.17对新入职人员的培训包括安全教育、制度

    ....
  • 数据标准
  • 相关专题: 运行维护  

相关下载

常用软件