CQC 8302-2018 数据中心基础设施运行与维护评价技术规范_[书签版]
- 文档部分内容预览:
可用性availability 在所有要求的外部资源得到提供的情况下,数据中心在规定的时刻或规定的时间段内处于能执行要 求的功能状态的能力。它是衡量数据中心等级、运维水平的重要指标。 可用性的计算如下:
绿色运行greenoperation
下列缩略语适用于本文件。 PUE:电力使用效率(PowerUsageEffectiveness) WUE:水使用效率(WaterUsageEffectiveness) CUE:碳使用效率(CarbonUsageEffectiveness) SLA:服务级别协议(ServiceLevelAgreement) MOP:维护作业程序(MethodOfProcedure) SOP:标准操作流程(StandardOperatingProcedure)
(平均无故障时间十平均故障修复时间
铆钉标准EOP:应急操作流程(EmergencyOperatingProcedure) CMMS:计算机化维护管理系统(ComputerizedMaintenanceManagementSystem) RTO:复原时间目标(RecoveryTimeObjective) RPO:复原点目标(RecoveryPointObjective)
评价方法由现场审核(收集查看运维体系文件、历史运行记录、运维周期性统计分析报告、检测 和现场岗位角色访谈组成。本文件所涉及的管理要求依据GB/T33136要求制定。
数据中心应建立管理方针或战略目标,并确保数据中心组织的各级人员得到理解
数据申心应编写运维财务预算,应对预算执行情况进行跟踪监督,根据规定的时间间隔进行财务核 筒和成本分析。
数据中心应建立对运行维护的各类人员的能力和管理制度制定成文件,包括招聘、资质管理、 、团队建设等。各类人员应持证上岗,特定岗位的人员应满足法定要求。数据中心应按照当前 作的需要,制定人员培训计划,并保留培训记录。对数据中心人员宜进行绩效考核。
数据中心应提供独立的监控调度指挥空间。针对多数据中心管理,除本地具备监控调度指挥室外 宜具有区域覆盖或总控总调监控管理团队。监控中心值守人员应为7x24小时值班制度,应根据值班管理 文件,值班人员不得长时间离开监控岗位,应根据警情,通报给运维人员处置,紧急情况可协助处置 为保障监控工具的功能的完整性易用性可靠性 要求提供持续的改善维护管理制度
数据中心应将值班岗位人员的职责、 工作记录和行为制定成文件。值班人员交接班时应对当班执行 的操作、变更及观察到的任何异常数据或现象进行交接和签收。接班人员未到岗时,应留置到替班人员 到岗,如果替班人员超时规定时间未到岗,应及时汇报。 运维管理团队应根据数据中心的等级和服务要求,安排专职人员,值守设施监控系统、消防系统 安防系统。A级数据中心应7*24小时有人值守,其他等级宜7*24小时值守。非业务运行期间或中小规模 数据中心可远程值守或自动模式。
数据中心应制定日常邀检和预防性维护计划,按照规定执行并记录。日常巡检和预防性维护计划的 周期和项目,可以按照设备供应商的建议。关键基础设施设备在各种情况下的常用操作应制定标准操作 流程SOP,数据中心关键基础设施设备的每次维护、维修、安装操作,应制定MOP,标准操作流程和标 准维护流程应得到批准后执行。运维团队还应定期对设备的运行状态数据进行统计和趋势量化分析,制 定预防措施或预案
户请求和标准服务的渠道,并建立服务请求流程
数据中心应制定事件管理程序,包括事件的分级、通知、目标时间、升级、复发事件的策略, 重件关闭的策略
欠发生。暂时无法查明的问题,应提供给事件管理临时解决方案;原因查明但无法解决的问题应 亲的措施解决问题。数据中心应保存问题处理的记录
数据中心应对所有类型的变更实施审批后执行,可按照变更请求的分类,采取不同的审批形式。 任何对生产环境的改变均应考虑控制风险,编写变更方案,变更方案至少应包括详细的实施方案、风险 点及应对措施、回退方案、实施时间计划等。变更方案应经过审批方可实施。对于风险可控的变更,可 以实施简化变更管理流程。运维团队应建立紧急变更程序,并应严格控制该程序的适用范围
5.15资产与配置管理
数据中心应建立完整及实时更新的资产数据库,至少应包括所有关键基础设施设备的清单,应 设施的运行情况、事件情况、变更情况、维护保养频次等信息。资产管理应覆盖工具及计量器 品备件。数据中心应建立标识标签管理系统,应按照规定的周期对资产进行盘点。
5.16服务级别管理 明确运维团队所能提供的服务目录,以及与基础设施所制成的IT运维相关方达成一致的服务级别协 议,保证服务能力符合相关方需要,且可衡量
明确运维团队所能提供的服务目录,以及与基础设施所制成的IT运维相关方达成一致的服务级别协 议,保证服务能力符合相关方需要,且可衡量
5. 17 可用性管理
确保基础设施的可用性满足业务运行的需求,并
运维团队应与IT部门定期沟通,动态了解IT需求的预测,并通报设施容量的使用情况。可制定3个月 至36个月周期的基础设施可支持IT需求容量表, 当场地基础设施不能满足IT增长的需求时,应提前制定并上报扩容计划
数据申心运维团队应在确保信息系统及其支撑设备安全运行的条件下,最天限度地节约资源并保护 环境,在取得最大化的资源效率的同时造成最小化的环境影响。了解国内外数据中心节能最新科技成果 发展趋势、成功案例等,熟悉当地政府数据中心相关用能政策,最低要求需满足当地政府节能降耗相关 政策标准。 数据中心运维团队应监测并记录数据中心在不同工况及不同外界气候条件下的PUE、WUE及综合
CUE的变化情况,持续跟踪和分析趋势,持续优化节能运行方案。
5.20业务连续性管理(应急管理)
基础设施运维业务连续性管理(应急管理)应面向其所服务的业务,与最终支撑的业务服务连续 生保持一致。 确保在灾难发生之后基础设施和IT服务能够在规定的时间内得到恢复,从而支持总体的业务连续性 要求。 应建立、实施和保持一个正式的、形成文件的业务影响分析和风险评估过程。对场地、设施及服务 存在的可能影响运维目标和持续提供服务能力的风险进行识别、分析和评价,并进行业务影响分析,确 定RTO与RPO,对评估出风险进行处置,并按照风险发生的可能性以及发生后果的严重性制定应急预案, 应急预案应确保对应应急场景下的RTO与RPO的实现。 运维团队应针对可能出现的各种严重事件,制定应急操作流程EOP,以便在该事件发生时,运维团 队能采取正确的操作程序,以防止事件扩大为严重故障。 应按计划的时间间隔或者当运营环境出现重大变化时演练和测试其应急预案和恢复程序。应行成正 式的演练总结报告,内容包括输出结果、建议和实施改进的措施。 主要包括: 沙盘演练:参与演练的运维人员集合,并分别口述在发生紧急情况下自身所应承担的职责及将会执 行的方案及步骤; 跑位演练:参与演练的人员跑位到模拟故障现场,模拟处理故障,参与人员应清晰地说出故障的处 理方案及步骤。 模拟演练:在确保生产安全的前提下,模拟真实中断场景,进行实际操作演练。可结合某些特殊工 作来开展此类演练。 应急演练的演练原则是:尽量接近真实情况,在条件允许的情况下尽量真实地处理故障。在运行中 的一些特定场景下也可以进行应急演练,如发电机带载实验等
应该按照数据中心基础设施运维的资质、以往的经验、业界的口碑等因素,以注重预防性和预测性 维护和提高可用性的相同标准来选择合格的供应商。规范供应商管理,确保供应商向数据中心提供优质 的外部技术资源和支持
数据中心的门禁系统、各类监控系统、环控系统、访客系统、DCIM、DCOM等各类弱电系统是支持 数据中心运行的关键系统,应制定并采取必要的安全控制措施。针对信息资产在运行环境中所面临的风 险,制定信息安全策略和措施,将风险减少至可接受的程度,从而保障信息的可用性、保密性和完整性。
里规划和管理数据中心审计,从而控制运营管理
通过组织架构设置和岗位职责的设定,确保数据中心各项职能有效落实,管理目标得以实现。
加强数据中心与其客户、监管或上级机构、合作伙伴、供应商、政府单位等相关方之间的沟通 护,实现互利双高。
识别外部法律法规、监管部门对数据中心的要求,合理规划并落实,从而控制潜在风险。
数据中心运维团队,应充分识别数据申心运行中的外部不可控风险对数据中心运营的影响,定期评 估已识别风险的影响变化,并提高运维团队的认知范围识别可能新生的风险,并基于最新的评估制定和 更新预案,以便采取有效措施,消除或控制风险的影响。通过考量不确定性及其对目标的影响,采取相 应的措施,提高风险应对的效果。
保证数据中心各级组织及员工的产出与数据中心目标保持一致,通过改善组织及员工工 动数据中心战略目标实现。
通过对组织文化的梳理、深植和持续建设,确立数据中心的价值核心,为数据中心健康发展创 文化环境,提供有力的思想保障和行为保障,
“数据可引用自依据《CQC1312/CQC1324数据中心场地基础设施认证技术规范》或《CQC1313/CQC1325信 力及环境系统认证技术规范》出具的第三方检测报告,要求第三方测试报告报告有CNAS及CMA标识
居可引用自依据《CQC1312/CQC1324数据中心场地基础设施认证技术规范》或《CQC1313/CQC1325信息系统机 环境系统认证技术规范》出具的第三方检测报告给排水造价、定额、预算,要求第三方检测报告报告有CNAS及CMA标识。
评价等级分级方式参照《CQC1312/CQC1324数据中心场地基础设施认证技术规范》及 《CQC1313/CQC1325信息系统机房动力及环境系统认证技术规范》制订,并依据数据中心基础设施运维 平价对象特性分为四级。 评价等级全部为四级划分见表1,分别为: L1基础级:基础式管理,具备数据中心运行的基本运维功能特征; L2标准级:流程管控,为进一步提升协作能力和运行质量,建立管理程序; L3增强级:规范运维管理和运维执行的过程,推动标准化流程化进一步落地,强化风控管理和提高 运维效率实现多维联动; L4卓越级:精细化管控,在规范级的基础上进一步细化管理颗粒度,实现全周期全场景过程数据的 监测和采集,基于这些数据支持管理提高优化精度,推动运维团队理解运维所支撑的业务战略规划,推 进服务导向的运维模式(可转变为运营)
表 1 认证等级划分表
针对三大管理领域的33个管理子域,按照L1~L4级别的总体要求园林工艺、表格,划定等级的评定范围和基本 管理域审核项评定的认证等级应同时满足:达到认证目标等级的分值区域;满足认证目标等级
表2管理领域评价对应表
本:①制定基本制度规范②提供数据记录和功能支持的初步技术手段 善:①细化制度规范②提供精细化数据记录和功能支持的技术手段③实现可量化过程管控 保持管理成本,执行成本的平衡。
....- 数据标准
- 相关专题: 数据中心