CECS 761-2020-T 数据中心运行维护与管理标准.pdf

  • CECS 761-2020-T 数据中心运行维护与管理标准.pdf为pdf格式
  • 文件大小:19.2 M
  • 下载速度:极速
  • 文件评级
  • 更新时间:2021-05-20
  • 发 布 人: messi1990
  • 文档部分内容预览:
  • 3.0.1数据中心的运行、维护和管理应依据现行国家标准《数 据中心设计规范》GB50174及《数据中心基础设施运行维护标 准》GB/T51314的有关规定,结合数据中心自身的运营性质、 管理要求及其在经济和社会中的重要性,建立运行、维护和管理 团队,制定运行维护管理制度和工作流程。 3.0.2运行、维护和管理体系应覆盖数据中心运行的全过程 宜采用电子化管理平台,并应制定持续运行、维护和管理计划。 3.0.3运行、维护和管理团队应满足数据中心业务开展的需要, 人员岗位与执业资格应符合运行维护要求。 3.0.4运行、维护和管理应识别数据中心潜在的风险,制定风 险预防措施,并组织演练。 3.0.5运行、维护和管理应在确保数据中心可用性和可靠性不 受影响的前提下,实现节能减排

    4.0.1数据中心应建立满足运行、维护和管理要求的组织架构。 组织架构应根据数据中心的等级以及经营、管理和业务模式设置 部门,并应明确各部门的工作范围和职责。

    (1寸 组织架构应根据数据中心的等级以及经营、管理和业务模式设置 部门,并应明确各部门的工作范围和职责。 4.0.2数据中心应设置电子信息系统和基础设施的运行、维护 和管理岗位,并应设置安全、质量控制、综合管理和客户服务等 岗位。对关键技术岗位,应穴余配置。

    0.2数据中心应设置电子信息系统和基础设施的运行、 管理岗位,并应设置安全、质量控制、综合管理和客户服 位。对关键技术岗位,应穴余配置。

    同轴电缆标准数据中心应建立符合自身特点和需求的运行、维护和管

    4.0.3数据中心应建立符合自身特点和需求的运行、维护和管 理模式。

    4.0.4管理人员应熟悉运行、维护和管理体系和流程;

    制定工作计划和年度绩效目标,下达工作任务,并指导和监督各 项工作的落实;应确保承担运行和维护的人员具备所在岗位应有 的技术和技能,

    4.0.5管理人员入职或职位变动时,应进行资格、从业经历或 业务能力测评。

    4.0.7数据中心应制定年度运行和维护人员培训计划,培训计

    应涵盖数据中心运行和维护的各个岗位:培训内容应满足 乍的要求,并应与当前和预期的任务相适应

    4.0.8数据中心应对运行和维护人员进行岗前培训及能

    在岗位能力测评合格前,运行和维护人员不得独立承担送 护工作。

    4.0.9数据中心应对员工培训的执行情况进行管理,应

    绩效考核和岗位调整的考核内容 4.0.10数据中心应建立运行和维护人员管理制度,管理制度应 包括招聘、资质管理、岗位职责、绩效考核、安全与保密等。

    5.1.1数据中心应建立运行、维护和管理的工作制度 明确运行和维护的工作目标,并应按近期与远期的工作目 工作计划和任务书

    5.1.2数据中心应对工作计划和任务的实施效果进行后评价,

    服务台应受理来自内部和外部的服务请求,并应记录相关 信息。

    5.1.4服务台应根据运行和维护的系统、服务等级协议

    咨询的内容及自身管理要求对服务请求进行分类,并应将服务请 求分派至相应的处理团队或责任人

    5.1.5服务台应跟进服务请求的处理过程,监督服务请求处理

    1服务请求履行完毕应向用户反馈并确认; 2应按月、季、年回顾、统计和分析服务请求的受理和处 理的过程,形成月度、季度和年度报告; 3宜对服务请求的完成情况进行满意度调查

    5.2.1 数据中心应制定事件管理流程,明确事件处理人的职责。 5.2.2数据中心应根据对事件的容忍程度进行分级,事件宜划

    5.2.1数据中心应制定事件管理流程,明确事件处理人

    内1级~5级,事件分级宜符合表5.2.2的规定

    表 5.2.2事件分级要求

    3当儿个事件同时发生时,应根据事件的等级、影响度 各等级协议确定事件处理的优先顺序

    完成事件的处理或处理过程中引发新的事件时,应对事件 能性或结构性升级处理。

    5.2.5事件处理人应调查和分析事件发生的原因,当在

    5.2.6对已查明原因的事件,应给出解决方案并执行;对暂时

    对查明原因的事件,位结出辉决方柔升;刘首 去查明原因的事件,应采取应急措施,并将事件转为问题管 呈进行处理。

    5.2.7事件处理应包括关闭和回顾流程,并应符合下列规定:

    5.2.7事件处理应包括关闭和回顾流程,并应符合下列规定:

    5.2.7事件处理应包括关团和回顾流程,开应符合下列规定: 1关闭事件前应由用户确认发生事件的系统已恢复正常 运行; 2记录事件处理过程的信息应完整准确,技术文件应齐全 3对事件处理和系统恢复情况宜进行满意度调查,

    5.3.1数据中心应建立问题管理流程和人员职责,应识别发生 或潜在的问题,采取纠正或预防措施,并应持续改进。 5.3.2当同时存在几个问题时,应根据问题发生频度、严重程

    变更申请,进人变更流程;未查明问题原因时,应增加监控措施 和制定应急预案

    5.3.4问题处理应包括关团和回顾流程,并应符合下列

    关闭问题前,应确认问题已得到解决或可以接受留置 问题; 2 应记录问题分析和处理过程的信息; 3 应完善相关的技术文件和应急预案; 4 应对问题的解决过程和结果进行回顾; 5 宜对问题处理和恢复情况进行满意度调香

    5.4.2数据中心应建立变更管理程序,变更方案和变更时

    5.4.3数据中心应记录变更请求,并对变更请求进行

    古的内容应包括下列内容: 变更的原因; 2 变更的技术方案,技术说明,变更操作手册; 3 变更需要的测试验证; 4 变更涉及的系统以及影响范围: 5 变更需要的人力和设备等资源; 6 变更的风险和应急方案; 7 与变更相关的其他要求

    急回退的窗口。当变更异常或失败时,应组织资源实施回退或采 取其他应急措施。变更上线运行前应对变更实施结果进行验证。

    关闭变更前应由用户确认变更后系统恢复正常运行: 应记录变更过程信息; 应完善相关的技术文档、操作手册和应急预案; 宜对变更执行和运行情况进行满意度调查。

    5.5.1数据中心应建立涵盖运行维护管理全过程的文

    5.5.4数据中心应建立文件命名规则,文件命名应包括文件名

    分类、分级、文件版本等相关信息。文件版本管理应包 只别文件编制、审批、发布、变更、废止的信息,各版本 行回溯和跟踪

    5.5.5数据中心应根据文件的重要程度,对各类文件送

    5.5.7各类文件在发布前应由数据中心统一组织审查、

    管理制度和使用流程。归档文件应每年进行1次完好性检 子文件宜做备份

    ,对各类文件进行清理、归档和修订,过期的文件应做 废止处理。

    5.6.1数据中心应建立安全管理体系,应根据各区域的功能和 安全要求,划分安全区域和安全等级。安全区域应分为核心、重 要、普通和公共4个区域,安全等级应对应为一级~四级。安全 区域和等级划分应符合表5.6.1的规定

    表 5.6.15 安全区域和等级划分

    5.6.2数据中心应明确安全管理职责,应根据基础设施物理环 境和运营管理的特点,制定人流和物流管理制度,

    据中心的运行情况,视频记录保存时间不应少于3个月,门禁记 录保存时间不应少于1年。A级数据中心主机房的视频监控应无 盲区。

    数据中心应配置专职安全保卫人员,安全保卫人员应设

    5.6.4数据中心应配置专职安全保卫人员,安全保卫

    置在园区和数据中心出入口。核心区域、高压配电室、消防和安 防控制室、动力环境监控室应安排专职人员24h值守。

    5.6.5数据中心的人流和物流通道应畅通;应配备人

    护器材:每年应进行1次消防系统运行状况检查,并组 练;每年应组织1次应急和安全器材的使用和演练。

    5.6.8数据中心应按照安全区域的等级和运行维护人员

    职责设置访问权限,进入安全区域的人员应采用有效身份识别方 式。未授权但需要进入安全区域的人员应提出申请并通过审批, 访问时应做好记录和人员全程陪同

    5.6.9数据中心应指定部门负责安全区域的日常管理,每年应

    对门禁系统访问权限进行审查。工作人员岗位变动时应修 和系统操作的访问权限,人员离职时应注销访问权限

    有效标志和电子识别装置,外来车辆应提前申请、审批, 核对、检查,发放临时通行证

    冲类制定相应的管理制度。物品出人数据中心应填写申请 审批确认后,方可出入数据中心,并应保存出入审批和记 危险品应严格管理,应在相关部门监督下进行操作,并做 方护措施和应急预案

    5.12数据中心应明确日常操作、故障处理、应急处理、万 工作的安全要求,制定操作安全管理制度,控制操作带来 风险。

    5.6.12数据中心应明确日常操作、故障处理、应急处理、施工

    5.6.13运行维护人员必须按照操作手册进行操作。有风险的提

    作和施工应得到批准,且应在非生产时间或对运行影响最小的时 段进行,重要时段严禁进行有风险的操作及施工。对有风险的操 作应实行双人临岗,操作时实施复核和相互监督。

    用明火作业。必须使用明火作业时,应提前申请和批准,并应采 取安全防范措施。按指定的时间和地点完成作业后,应检查确认 无火灾危险隐患后方可离开作业现场

    5.6.15施工和维修用电器设备和电动工具应使用维修电源或临

    5.6.17数据中心应对新入职的人员进行安全培训;对运行维护 人员应每2年进行不少于1次的安全培训与考核以及保密教育与 考核。

    足安全运行、过程管理和可持续改进的要求。运行维护人员宜参 加数据中心建设期间的质量管理

    制度,监督和检查运行维护服务工作的质量,制定量化考核管理 指标,改进和完善运行维护的服务质量和效率。

    5.7.4运行维护质量管理应包括在线维护、离线维护禾

    质量管理应贯穿运行维护全生命周期,并应通过测试 定期巡检、预防性维护、演练等方式对运行维护的质量 制和提升。

    5.7.5运行维护部门应在数据中心工程竣工验收前组

    完成技术文档的检查和接收。测试验证的内容应包括单 系统测试验证、系统联调测试验证、带载测试验证和故障 证。测试验证可由第三方检测评估机构完成。

    运行维护部门在投产接管时应明确工作范围、界面划分

    5.7.6运行维护部门在投产接管时应明确工作范围、寻

    5.7.7A级数据中心应安排24h运行维护值班,每日每个班次 现场巡检次数不应少于1次。消防和安全防范系统应24h保持正 常工作状态,不得随意中断。

    施的健康检查和预防性维护,并应根据健康检查的结果分析和评 估各系统运行状况,做出评估报告,提出改进建议和措施,

    5.7.9数据中心应对主用机和备用机进行轮流循环运行操作、

    5.7.11在数据中心改建和扩建期间,应对正在运行的设 隔离保护,并制定应急预案。

    5.7.13 数据中心应对维保服务单位的服务计划、服务响应时

    5.7.13数据中心应对维保服务单位的服务计划、服务响应时

    6.0.1数据中心应建立应急管理体系,在发生影响服 时,应启动应急处理程序

    6.0.4应急管理机构的工作人员应包括管理、运行维护、后勤

    胜任应急处理的工作,并应符合下列规定: 1每年应组织1次人员培训和应急演练,确保人员具备熟 练的应急处置能力; 2关键岗位相互备份的人员应相互轮换角色; 3明确提出设备厂商技术服务的能力要求,确保应急处置 过程中设备厂商能够提供及时和有效的技术支持。 6.0.6数据中心应对运行维护过程中的应急事件进行分类,并 根据分类制定相应的应急预案。应急事件宜分为公共灾难危害事 件、基础设施故障事件及电子信息系统故障事件,应急事件的分 类应符合表6.0.6的规定

    表6.0.6应急事件的分类

    验证。 6.0. 9 数据中心应制定应急事件处置的恢复时间目标和恢复点 目标。 6.0.10数据中心应对应急事件进行风险评估,风险评估应包括 风险识别、风险分析和风险评价。数据中心应根据风险评估的结 果制定应急预案。

    审核和批准。应制定应急预案的管理和使用制度,指定和明确应 急预案的存放位置和保管人。 6.0.12应急演练应包括应急预案的培训、制定应急演练计划 实施应急演练、记录演练过程、评估演练效果。 5.0.13演练形式应分为桌面演练、模拟演练、实战演练。每年 的桌面演练和模拟演练应覆盖所有的应急预案,对基础设施重要 系统的实战应急演练每年不应少于1次,实战演练宜每3年覆盖 听有应急预案的场景。

    宜建立电子化管理平台。运行和维护的成本与能效管理应贯穿数 据中心运行和维护的全生命周期

    据中心运行和维护的全生命周期, 7.0.2容量管理应统计已用容量,并计算可用容量与已用容量 之差,包括电力容量、制冷容量、空间容量,宜包括网络端口和 带宽及电子信息设备的处理能力。

    之差,包括电力容量、制冷容量、空间容量,宜包括网络端口和 带宽及电子信息设备的处理能力

    包括资产分类方法和资产档案,操作流程应包括采购、入库、领 用、维修、调拨、折旧和报废。管理的资产应有唯一标识,宜采 用电子标签

    应提供盘点统计数据和分析报告。

    7.0.5运行和维护的成本管理应记录数据中心运行和

    发生的各类费用。运行和维护的成本宜包括建筑物和设备的折旧 或租金、能源费用、网络通信费用、维修和耗材费用、改造费 用、管理费用、保险费用、税费和财务费用等。

    7.0.7能效管理系统应包括能耗的采集、分析、评估

    管理对象应包括所有能耗设备。能效管理应覆盖数据中 中涉及的所有能源

    利用效率和水利用效率,能耗采集应采用自动化监控系统 点应满足能效采集和计量的要求,计算时间应以1年为

    同期。 7.0.9能效管理系统应对采集和计量的能耗数据进行统计和分 析,形成能耗分析和评价报告。能源使用效率可自行评估,也可 由第三方机构进行评估。数据中心应每年召开1次能效状况分析 会,落实能效改进和优化措施,

    1为便于在执行本标准条文时区别对待,对要求严格程度 不同的用词说明如下: 1)表示很严格,非这样做不可的: 正面词采用“必须”,反面词采用“严禁”; 2)表示严格,在正常情况下均应这样做的: 正面词采用“应”,反面词采用“不应”或“不得”; 3)表示允许稍有选择,在条件许可时首先应这样做的: 正面词采用“宜”,反面词采用“不宜”; 4)表示有选择,在一定条件下可以这样做的,采用 “可”。 2条文中指明应按其他有关标准执行的写法为:“应符 合的规定”或“应按执行”。

    《数据中心设计规范》GB50174 《数据中心基础设施运行维护标准》GB/T51314

    《数据中心设计规范》GB50174 《数据中心基础设施运行维护标准》GB/T51314

    中国工程建设标准化协会标准

    中国工程建设标准化协会标准

    目次2 术语(26)组织架构与人员管理(27)5日常运行维护与管理(29)5. 1一般规定(29)5. 2事件管理(29)5.3问题管理(30)5. 4变更管理(30)5. 5文件管理(31)5. 6安全管理(32)5. 7质量管理(33)6应急管理(37)7成本与能效管理(41)

    故障包括基础设施和IT设备故障;软件故障包括操作系统、应 用和开发类产品故障;服务请求包括业务操作、咨询和其他服务 请求。

    4.0.1经营模式是指数据中心定位是自用、外包还是部分外包 方式;管理模式是指集中式管理还是分散式管理;业务模式是指 数据中心是用于生产、灾备还是研发测试。数据中心组织架构宜 包括:基础设施运维部、电子信息系统运维部、监控中心、安全 管理部、客户服务部、行政管理等部门,也可以根据各自的运行 要求设置符合数据中心运行要求的部门。 4.0.2数据中心运行、维护和管理岗位包括下列职位,并承担 相应的职责: 1电子信息系统运行岗位:监控服务器和网络等业务设备 和系统的运行状态,并进行现场操作; 2电子信息系统运维岗位:承担服务器和网络等业务设备 和系统的运行维护工作: 3基础设施运行岗位:监控基础设施的运行状态,并进行 现场操作; 4基础设施运维岗位:承担数据中心基础设施运行维护 工作; 5安全与质量控制岗位:承担数据中心安全检查和质量控 制工作; 6综合管理岗位:承担数据中心人力资源、行政和后勤等 日常工作; 7客户服务岗位:协调客户关系,满足客户需求

    包运行维护、部分外包运行维护模式: 1自主运行维护模式:所有运行维护团队和人员均为

    中心自有人员,日常运行维护自主实施; 2全外包运行维护模式:由外包服务商提供全部运行维护 服务团队和人员,承担数据中心的运行维护,数据中心只保留少 量运维管理人员对外包服务商进行服务监管: 3部分外包运行维护模式:将部分运行维护岗位外包,或 将部分设施或系统的运行维护进行外包。 4.0.5对于人员资格的确认,可以采用多种方式,包括相关机

    培训,可以采用内部培训,也可以采用外部培训的方式。运行维 护人员在新设施和设备投产前或在变更岗位前,应参加相应的岗 前培训。

    4.0.10人员绩效考核包括安全运行状况、岗位纪律、日常工

    4.0.10人员绩效考核包括安全运行状况、岗位纪律、日常工 作、培训、奖惩和能力提升等内容。

    5.1.1工作计划宜按照年、季、月度制定,一般包括业务发展 计划,员工业务技能培训计划,产品投产、变更、巡检、预防性 维护、系统升级改造计划等。工作计划和任务书应在审核和批准 后执行。

    1.2计划与任务管理是一个编制计划、执行计划、检查结 结和改进循环的过程

    5.1.2计划与任务管理是一个编制计划、执行计划、检

    5.1.4通过对服务请求的分类,规范服务请求类别,合理安

    服务请求的处理次序,调度相应的资源,加快服务处理的时效和 提升服务质量,同时有助于对各类服务请求进行统计、分析和 管理。

    5.2.1事件管理的目的是及时恢复发生事件的系统,减少事件

    5.2.1事件管理的目的是及时恢复发生事件的系统,派 对服务的影响

    服力日 5.2.2数据中心应根据对用户承诺的服务等级协议(SLA)确 定“短时”和“一定时间”,并在规定时间内完成事件的处理。 5.2.3为加快事件处理时效和提升服务质量,对同时发生的事 牛应进行排序,优先处理重要和紧急的事件。影响度是指事件影 响的用户范围、业务数量和造成的损失。

    2.3为加快事件处理时效和提升服务质量,对同时发生 应进行排序,优先处理重要和紧急的事件。影响度是指事 的用户范围、业务数量和造成的损失。

    1职能性升级:调动更多的资源(高级、资深或厂家的技 术人员、跨部门跨地区的协作)加快事件的处理。 2结构性升级:升级到上级或更高的管理部门,通过管理

    层的权力调动需要的资源,加快事件的处理速度,并做好与受影 响用户的沟通

    请求处理的时间、报告人和受理人、事件处理的派发时间和处理 人接单时间,恢复的时间、事件处理的耗时、事件处理过程、发 生事件的原因、解决方案等。

    5.3.1问题管理包括主动性问题管理和被动性问题管理2类活 动。被动性问题管理的目标是找出导致已发生事件的根本原因 提出解决办法;而主动性问题管理是通过跟踪系统运行状态和趋 势,分析潜在安全隐患和风险,采取相应的措施来防止潜在事件 的发生。

    5.3.4当发生下列2类留置问题时,可关闭此问题

    1发生的某个问题在规定的时间内虽未查明原因,但该问 题再未发生。 2问题虽已查明原因,但无法解决,或解决问题的成本大 于问题对运行造成的影响,权衡利整后可接受该问题

    5.4.1紧急变更是解决突发的运行故障、排除重

    5.4.1紧急变更是解决突发的运行故障、排除重大生产隐患或 因紧急原因无法提前安排而需紧急实施的生产变更;例行变更是 常规的已知定期维护,且技术成熟、对运行无影响或影响可控的 变更;标准变更在变更实施时会影响生产运行,部分变更请求需 要用户的配合,变更需要根据数据中心实际的运行状态进行排 期,选择合理的时间实施的变更,降低变更的风险和对运行的 影响。

    5. 4. 2紧急变更需要设立授权机制,工作时间应

    方式,事后补办审批手续;例行变更可采用定期预批准的方式, 集中审核、审批;标准变更可采用一请求、一批准的方式,也可 定期或不定期召开变更审批会,审批多个变更请求

    件,包括各类决定、通知、标准等;内部文件是指数据中心内部 为运行维护管理发布的各类文件。工作文件是数据中心为各部门 运行维护管理建立的实施细则,包括各种规章制度、机构设置 人员任用、岗位职责、工作程序等。技术文件包括国家标准、行 业标准、设备资料、产品图纸、生产流程、过程控制文件等。 5.5.3一级文件为整体策略的纲领性文件,反映数据中心的基 本管理策略、规章、方针,为所有下级文件的编写指南。 二级文件为程序文件,为开展某项具体运行维护活动所规定 的途径或方法,是针对某项具体运行维护活动的专门规定,是该 项活动的操作指引。程序文件的内容一般包括制定本程序的目 的、本程序适用的工作范围和发放范围、本程序的主要责任者的 职责和权限,以及规定配合团队的职责和权限职责、程序内容和 要求的描述。 三级文件为作业指导书或操作手册,描述特定运行维护活动 的具体操作步骤和方法,用于指导日常操作。三级文件应包括标 准操作流程、维护操作流程和应急操作流程的内容。作业指导书 的内容包括使用对象、相关职责、需要的资源和要求、操作步骤 及需要的记录等。 四级文件是上面儿级文件执行后产生的记录。记录作为运行 维护活动持续进行的证据,应防止未经授权的修改并规定记录的 保存期。

    消防安全5.5.5文件的密级可规定为“公开”“内部使用”

    的完好性;对电子文件应通过阅读设备验证文件的完好性,必要 时需要进行修复、备份和转录

    产发月 废止标识,并统一回收保存,如果需要销毁,应用碎纸机进行销 毁:电子文件废止时应在电子文件上打上废止标签

    5.6.1安全管理体系包括:安全区域的划分、安全等级白 安全访问的权限、出人控制和安全管理制度等

    出入口控制、电子巡查等,各系统之间应具备联动控制功能。对 设置安检机和手持金属扫描仪的数据中心铁路标准规范范本,应增加对进出人员和 物品的检查。

    5.6.5人身应急保护器材包括空气呼吸器或氧气呼

    ....
  • 数据标准
  • 相关专题: 数据中心  

相关下载

常用软件