T/CIE 052-2018 数据中心设施运维管理指南
- 文档部分内容预览:
4.4.4测试验证内容
4.4.5设施健康评估
在接手已运行的数据中心基础设施的运维工作前,运维团队宜对设施的情况进行健康评估和风 了解设施的状态和潜在风险点,其中能够整改的部分,应该申请予以优化整改。不能整改的部 核作为风险点在运维中予以特别的重视,并制定相关措施和方案。
完整并准确的技术文档是后期运行、维护、维修、故障诊断、优化改造的基础。运维团队在开展运 维工作前,宜在建造过程中收集整理,或从业主及原运维单位得到本场地基础设施的全套相关文档,包 括但不限于:数据中心的规划设计资料及竣工图纸、反映机房最近一次改造后真实现状的图纸、全套设 备的清单及相关操作文档和保修保养资料、机房自动操作系统的逻辑图及说明文档、监控系统的点表、 验收测试文档、数据中心所在建筑的建筑设计资料、竣工图纸。 整体文档宜在限定时限内进入运维管理系统知识库,并按照质量管理的原理和要求设定文档的起 草、变更、审核、批准、保存、分发等职责权限。
数据中心设施运维,可引入或外包给第三方运维服务商。双方应签订运维服务协议防火标准规范范本,并明确约 的职责。
T/CIE 0522018
运维外包服务商是设施运维工作的 常运维的管理者。但数据中心业主或设施管理 者应按照责任与风险不能转嫁的原则,对所有供应商进行监督和管理。
质量是数据中心设施管理的重要目标,安全是数据中心运维管理的底线,在确保安全的前提下追求 质量最佳。
5. 1. 2 质量管理
在数据中心基础设施运维过 是保障数据中心心基能设施运维超阜趣 的重要保证和手段。数据中心场地设施运维团队宜落实以下的质量管理体系:
5. 1. 4 质量控制
设施管理团队,对影响质量目标的关键事件和流程,宜采取适当的控制措施,以防质量失控。包括 但不限于: 事件回顾; 一质量检查和检验: 定期质量审核
5. 1. 5 质量改进
设施运维团队,宜建立质量持续改进的思想,研究和制定质量改进措施,特别是对于已经发生或类 似数据中心发生过的质量和安全事件,宜研究分析并总结经验教训,制定和落实改进计划。 一故障分析; 一经验教训; 优化及创新计划。
安全是数据中心设施管理中不可妥协的底线,设施运维 合安全要求。 应制定安全管理工作的总体方针和安全策略,说明安全工作的总体目标、范围、原则和安全框 架等,并编制形成安全制度文件: b)应形成由安全策略、管理制度、操作规程等构成的全面的安全管理制度体系:
T/CIE0522018
C 由数据中心运维管理者统一制定并发布,安全管理制度应具有统一的格式,并进行版本控制: ? 应定期组织相关人员对制定的安全管理制度进行论证和审定,对存在不足或需要改进的安全管 理制度进行修订; e 安全管理制度应通过正式、有效的方式发布,应注明发布范围,并留存3年收发记录,
5.3职业健康与环境安全管理
数据中心应对进入数据中心场地的人员(员工、合作伙伴及访客)的健康和身心安全负责,确保数 据中心相关设施的运行对数据中心内外环境的影响符合规定。 a 应对危险源和环境影响因素进行识别,并根据识别和评估的结果制定相应的措施和计划。 危险源包括但不限于伤害和疾病、电气安全、消防安全等;环境影响因素包括但不限于对电磁 环境的影响、噪声、废弃资源和设备、尾气排放等等。 b) 可采取的相应的措施和计划包括但不限于危害和危险源公示、伤害和疾病预防计划、火灾疏散 预案、安全培训、配置合适的防护装备等, c) 应建立对危险源及对人员或环境有危害的物品的标识、保存、使用和处置的程序。 d) 应识别并遵守国家、地方、 行业及有关监管机构有关安全的标准、规范、法律、规章。 建立重
应建立物理安全边界的控制措施、物理入口的控制措施、机房设施的安全保护措施、外界和环境威 胁的安全防护措施、在机房区域的工作规程、卸货平台等交接区域的控制措施,以防止用户的信息和信 息处理设施的未授权的物理访问、损坏和干扰;应采取措施防止资产(包括设备、设施、布缆、存储介 质等)的丢失、损坏、失窃或危及资产安全及业务的中断 a) 应根据数据中心各功能区域重要等级设立安全区等级(参考ISO27001信息安全管理中的物理 安全控制),并制定分区访问控制策略。 b) 应建立物理安全边界控制措施。 c) 应根据访问控制策略,确定不同身份(员工、客户、供应商等)、不同职能的人员的访问授权 策略及进入陪同策略。对于重要及金融数据中心,需进入机房的来访人员应经过申请和审批流 程,由专人陪同,并限制和监控其活动范围,对于重要区域还应限制来访人员携带的随身物品。 d) 机房出入口应配置电子门禁系统,控制、鉴别和记录进入的人员。 e) 应建立门禁卡管理控制程序,包据采购、发行、授权、变更、使用、注销与挂失、回收、销毁 等环节。应对应到人,一人一卡,最小授权。 采用生物特征(指纹、掌纹、虹膜等)识别的,应建立生物特征信息的采集、保存、销毁等控 制程序,确保信息安全。
T/CIE0522018
g)重要区域应建立出入口控制程序,包括但不限于身份及权限确认、安全检查、设备、工具、配 件携带许可确认等需要控制的出入口包括但不限于人员出入口、设备出入口及卸货平台、应急 出入口等。 h) 应采用和维护好防盗窃和防破坏设施。 1)应将主要设备放置在机房安全区域内; 2)应将贵重设备或主要部件放入机柜中进行固定放置,并设置明显的标签,标注不易除去的 标记; 3) 应对磁带、光盘等介质分类标识,存储在介质库或档案室的金属防火柜中; 4) 应建立机房设施与场地环境安防监控系统,进行24h连续监视,并对监视录像进行记录, 监控对象包括机房空调、消防、供电系统、门禁系统等重要设施,监控记录至少保存3个 月; 5)机房主要设备工作间应安装红外线探测设备等光电防盗设备,一旦发现有破坏性入侵即时 显示入侵部位,并驱动声光报警装置。 )应制定各类人员在各级别安全区域内工作的规则。 )应建立动火管理控制程序。 K)应建立生产区域施工管理控制程序。 1)应建立易燃易爆污染物品控制程序, m)应建立高空作业控制程序。 n)应了解周边社会环境信息,评估潜在的安全风险并制定预案。这些信息宜包含但不限于:周边 交通路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通信线路等。可建立周 边社会环境管理资料库。 )1 应了解数据中心所在地的历史自然灾害情况。包含但不限于GB50174中提到的所有评估机房 选址的外部因素,并制定相应的管理预案。数据中心的运维应满足GB50174、GB/T2887等相 关标准的技术要求,包括但不限于电能质量、防静电、防雷接地、温湿度、照度、洁净度、防 火、防水、电磁防护等。 D)接待参观的数据中心应建立生产设施参观控制程序
数据中心的门禁系统、设施监控系统、环控系统、访客系统、DCIM、DCOM等各类弱电系统是支 持数据中心运行的关键信息系统,应制定并采取必要的信息安全控制措施。需要来取的控制措施包括但 不限于: a) 时钟同步控制措施; b) 恶意软件控制措施(病毒防护); c) 各类各层次系统用户访问控制措施: d) 口令管理控制措施: e) 网络访问控制措施; f) 网络隔离控制措施; g) 信息备份与恢复策略; h) 日志保护控制措施; i) 运行软件控制措施。
5.7.1消防安全通则
设施运维管理团队应确保数据中心场地符合国家的消防法规要求
设施运维管理团队应确保数据中心场地符合国家的消防法规要求。
5.7.2消防安全制度
T/CIE0522018
消防安全应: 制定消防安全管理工作的总体方针,明确消防安全责任人、明确消防安全管理人、明确消防维 护保养单位,并编制形成消防安全制度文件; 制定消防设施巡检与维保制度,明确责任主体,并编制形成消防设施巡检与维保记录表; 制定消防设施故障报告与维修流程,并编制形成消防设施维修故障记录表; 制定消防突发事件响应机制与应急预案,明确事件处理责任人、处置流程,且定期进行消防应 急演练。
5.7.3消防系统目常管理
数据中心运维团队宜有清晰的组织架构,同时对各岗位有明确的岗位职责说明并在计算机化维护管 理系统(CMMS)中实现权责匹配,同步更新。 中大型数据中心基础设施运维团队中除现场负责人外,可按照工作内容分设以下几个主要职能岗 立: 一运维巡检团队 主要职责:对基础设备设施进行巡检,担任值班工作,第一时间发现故障或问题,并作为管理 程序的执行者。 技术管理团队 主要职责:对数据中心基础设施提供运维技术支持,解决技术问题,承担数据中心基础设施 般性的优化改造工程的项目管理工作,宜包括电气、空调、弱电等系统的技术人员。 物理环境安全管理团队 主要职责:对物理环境安全进行管理,进行安全巡检等工作
6. 1. 2 人员配制
基础设施运维人员的配备宜根据运维管理目标或SLA来确定。高要求的数据中心,可按照7X24的 运行要求配置运维人员。上岗人员应具备国家要求的相应资格证书。应在运维管理程序中明确规定资质 等级与操作权限的一致性。 高要求以及具有一定规模的数据中心,每个班组应配备具有电力、暖通、弱电专业能力的运维人员, 以达到“即时应急响应”的工作状态。规模小且要求相对低的机房,每个值巡班至少配备一人,达到“即 时报警”的工作状态;处置班组至少配置2人。 运维团队的关键岗位应有人员备份和储备。 数据中心场地基础设施运维管理团队的关键管理人员或关键岗位人员在正常运维工作开展中应采 用A、B角色配置,日常工作中应注意角色的分配和工作的配合。其它岗位人员宜建立良好的循环机制, 人员可进行岗位轮换和交叉培训,使所有人员掌握全面的基础知识。
为了提高运维人员的技术技能、职业素养和提倡团队合作精神,专业地、高效率地运行利 基础设施,有必要建立人员的关键绩效指标,定期对所有人员的短期和长期绩效进行评估, 推动整个运维团队技术和素质的发展和改进,
6.1.4人员管理制度
为了保障基础设施运维团队的创新性、稳定性、持续性,宜通过建立合理的人员管理制度,约束人 员的工作态度、行为规范,提高人员的工作热情、工作效率和执行力,激发人员正面影响,使团队一直 保有活力来共同努力达成服务等级协议的要求,运维团队宜建立运维人员的各项管理制度。管理制度主 要包含(但不限于): 《日常活动管理制度》; 《运维人员基本素质要求与员工行为规范》; 《考勤管理制度》; 《人员晋升制度》; 《人才储备制度》。
6.2.1员工培训及资格认证计划
对于基础设施运维团队新员工应进行完整及严格的培训,以确保其尽快具备岗位需要之知识及能 力。培训内容应包括数据中心基础设施的所有系统的工作原理、操作流程、应急预案、以及管理制度等; 对于所有运维人员宜设定以知识更新、技能提高为目标的年度培训及认证计划。宜要求运维人员不 断提升理论知识,以便于在缺乏操作程序的应急状态下进行正确的处置。 可借助行业第三方专业培训及职业 台,积极开展运维人员任职资格的评定工作
.2.2历史事件分析学
运维团队宜将数据中心基础设施历史事件的总结分析作为培训的重要素材,进行全员培训;对于新 员工应在上岗前予以培训,以避免相同的事件再次发生。
6. 2. 3 组织学习
T/CIE0522018
团队管理者不仅要倡导组织内的学习,推动组织能力的提高,还宜积极参与行业交流,了解行 维管理实践,并从行业故障案例中总结经验,做好自身整改。也可向同行主动分享经验案例。
6.3.1设施运维外包服务商的选择
数据中心基础设施属于关键性设施,选择外包运维团队时宜考察其数据中心基础设施的运维服务的 资质、能力和经验案例。如数据中心作为商业物业的一部分整体外包运维,应要求外包运维组织针对数 据中心基础设施部分设立专门的有数据中心基础设施运维经验的团队,并严格按数据中心基础设施的运 维规程规范执行。
6.3.2运维外包服务商的管理
对于外包服务商的员工管理应该参照运维团队内部员工同等要求,相关人员只有在进行培训并 的认证后才能从事相关的工作。 外包服务商需要严格遵循数据中心基础设施所有的操作流程和安全守则
7.1.1资产管理制度
数据中心设施管理者,宜建立并督促团队执行资产管理制度,以保全资产,防止资产被未 使用、损失、破坏、丢失或混灭,防止信息和数据资产的泄漏。资产管理制度也是资产的维执 指导依据。
数据中心宜建立完整及实时更新的资产数据库。数据库宜包括所有关键基础设施设备的清单,还宜 记录设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。 资产数据库应最少包括以下信息: 资产ID:每个资产的唯一标识号; 种类:一级分类(如电气、制冷、消防系统); 一子类:二级分类(如UPS、电池、PDU等); 一系统号:多个同类系统的标号(如1#供电系统,2#并联发电机组); 制造商:资产的制造厂家; 型号:制造厂家的产品型号; 规格:资产的规格或者标称值; 配置:资产的功能模块或容量模块配置; 位置:位置ID(房间或区域); 购买人:资产维护的负责人; 序列号:制造厂家的序列号; 安装日期:资产的投产日期: 保修期限:保修到期的日期:
更换:预计的资产更换日期; 维护频次:年检、季检、月检等。
7.1.3标签标识管理
宜建立针对数据中心基础设施设备和物理环境完整的、清晰的标签标识管理系统。应至少包括: 设备标识:包括设备名称、型号、编号、资产编号等; 线缆标识:包括起始端信息、终止端信息、设备名称等; 警示标识:如“设备已带电危险”、“禁止合闸”、“禁止分闸”等; 物理环境标识:如位置标识、区域标识等; 系统图展板标识:如电气、暖通、消防、弱电系统图展板。 标识便于运维人员清晰、快捷地掌握区域及整个数据中心系统的配电、制冷、消防、弱电的原理及 关键点位。 标签标识要做到统一、规范,便于快速辨识,不应产生歧义、误解。 标签标识宜简洁、实用、明了。
7.2.1设施操作流程通则
7.2. 2 标准操作流程
7.2.3维护作业程序
7.2.4应急操作流程
T/CIE 0522018
运维团队宜购置、保管、维护好运维工作必须的、合格的、质量可靠的工具、仪器、备件和耗材。 运维团队宜根据资产分类清单及其分类制定最低备件库存清单并及时补充备件。 测试分析仪器仪表方面可配备进行电气性能参数测试、电池测试、接地电阻测试、绝缘性能测试、 设备运行温度测试、风速测试、环境温度测试、噪音测试等的仪器仪表。仪器仪表应该定期校准并标注 在仪器上。 应制定相关规定对操作工具、仪器仪表实行人员负责制或者交接班负责制等管理制度。备件和工具 应定期进行盘点。
宜基于设施设备的合理生命周期,结合风险评估,制定设备各阶段的维护、升级或更换的计划及预 算,及时报告给运维管理部门。 风险评估主要评估内容包括: 资产重要性识别; 资产威胁识别; 资产脆弱性识别; 风险值的计算。
T/CIE 0522018
在评估更换设备的方案时,可综合考虑原有设备的维护费用以及新设备在能效方面的改进,做好综 合投资回报分析。 对于穴余设备宜设立轮换运行机制,以延长整体设备的生命周期。
数据中心宜建立自动化维护管理系统(MMS),集中实现资产管理、维护调度、信息安全、 理、工单管理的职能并记录所有的运维工作任务及完成情况。 宜配备环境、动力、消防、安防等监控系统以便于运维人员及时了解设施各系统及设备的运行 及时发现异常情况。
8.1.1值巡管理制度
8.1.2运维管理制度与流程
8.1.3问题/事件处理管理制度
8.1.4经营相关管理制度
运维管理团队宜建立相关制度,促进运维工作的改进,鼓励团队进步。包括但不限于: 《安全运行奖惩制度》; 《节能运行奖惩制度》; 《技术创新奖励制度》; 《绩效管理考核制度》
8.1.5工单管理系统
运维团队宜建立整改、维护及保养的工单管理系统, 工单应列出工作内容、完成相应工作需要的工 具及备件、工作预计完成的时间、工作负责人、 工作可能对其他系统或业务的影响等信息。 计算机化维护管理系统宜对每份工单从产生到完成进行全程的跟踪。
8.2监控中心值守管理
运维管理团队宜根据数据中心的等级和服务要求,安排专职人员,值守设施监控系统、消防系统、 安防系统。A级数据中心应7×24h有人值守,其他等级宜7×24h值守。非业务运行期间或中小规模数 据中心可远程值守或自动模式。 监控中心值守人员,不得离开监控岗位,发现警情,应根据警情等级,通报给运维人员处置,紧急 情况可协助处置。 值守人员交接班时应对当班执行的操作、变更及观察到的任何异常数据或现象进行交接和签收。接 班人员未到岗时,应留置到替班人员到岗,如果替班人员超时4h未到岗,应及时汇报主管。 值守人员连续值守时间不得超过12h。
应划定保洁区域,定期做好机房保洁工作,保证地板及地板下的无尘状态。重要区域进行保洁工作 时应有运维人员现场监督和指导。 应保持设施设备的干净,定期做好设施设备清洁工作,设备安全部分的外壳可以由清洁工完成,但 可能涉及改变设备运行状态或有危险的部分,应有专业维护人员进行。 机房内的清洁工作,不应使用吹风设备,也不应使用未拧于的湿抹布
8.4.1预防性维护计划
预防性维护是为了延长设备的使用寿命和减少设备故障的概率而进行的有计划的维护。其目的是通 过定期检查和保养,使设备的某些缺陷或隐患在变得更严重之前被发现。 运维团队应根据系统设备情况与供应商进行沟通,按照供应商的建议提前制定年度、季度、月度预 防性维护计划。各专业运维人员需按照各设备系统特性、维护流程及规范,及时、完整地落实维护工作 并形成客观实际的记录和报告予以存档。运维团队还应定期对设备的运行状态数据进行统计和趋势量化 分析,对于异常的趋势,做出报警及相关预案。
8.4.2预防性维护内容
消防系统和监控系统检验; 蓄电池放电测试; 配电装置(高低压配电装置)的绝缘性定期试验: 二次保护定值核准; 柴油发电机启动带载测试; 每年雨季之前进行的数据中心防雷接地装置测试等。
任何对生产环境的改变均宜通过变更管理控制风险。应编写变更方案,变更方案至少应包括详细的 实施方案,风险点及应对措施,回退方案,实施时间计划等。变更方案应经过审批方可实施。变更前须 通知到相关方做好准备。 为优化工作效率,风险已被充分的评估和识别,已经有通过测试的标准实施方案的变更,且事先应 已经得到审批并记录在案,可遵循简化的变更管理流程执行, 为应对突发事件处置,运维团队应建立紧急变更程序,并应严格控制该程序的适用范围
采取有效措施,消除或控制风险的影响。 风险可能有: 自然灾害风险:暴雨、暴雪、暴风、雷电、地震、冰、滑坡等; 环境影响风险:噪音、废气、排烟; 市政风险:长时间的停电、限电、停水、停热、停冷、停气、道路施工、交通管制 其他风险:危化品爆炸、重大事故、恐怖袭击、传染疾病爆发:
设施风险:核心设备故障、设施起火、大面积宕机
8.7.2温度热点管理
8.7.3建立应急预案
数据中心宜建立、实施和保持一个正式的、形成文件的业务影响分析和风险评估过程。对场地、设 施及服务存在的可能影响运维目标和持续提供服务能力的风险进行识别、分析和评价,并进行业务影响 分析,确定RTO与RPO,对评估出风险进行处置,并按照风险发生的可能性以及发生后果的严重性制定 应急预案。应急预案宜确保对宜场景下的RTO与RPO的实现,其内容宜包括: a) 确定在事件发生时和发生后相关人员和团队的角色和职责; b) 动响宜的过程; c) 处理中断事件所造成的直接后果的详细说明; d) 如何以及在何种情况下组织与员工(及其亲属)、关键相关方以及紧急联络人进行沟通; e) 运维团队将如何在预定的时间里继续或恢复其优先活动,包括启动应急操作程序(EOP),应 急期间的运行调整等; 事件发生后,运维团队的媒体响应的详细说明; 事件一旦结束后的退出过程; h) 资源的要求: D) 信息流和存档过程。
数据中心宜建立用以在事件发生后能快速恢复业务运行的临时措施,并从所采用的临时措施中恢复 并重新开始业务正常活动的文件化程序
数据中心宜按计划的时间间隔或者当运营环境出现重大变化时演练和测试其应急预案和恢复程序。 宜形成正式的演练总结报告,内容包括输出结果、建议和实施改进的措施。 主要包括: 沙盘演练:参与演练的运维人员集合,并分别口述在发生紧急情况下自身所应承担的职责及将 会执行的方案及步骤。 跑位演练:参与演练的人员跑位到模拟故障现场,模拟处理故障,参与人员宜清晰地说出故障 的处理方案及步骤。 模拟演练:在确保生产安全的前提下,模拟真实中断场景,进行实际操作演练。可结合某些特 殊工作来开展此类演练。
T/CIE0522018
应急演练的演练原则是:尽量接近真实情况,在条件允许的情况下尽量真实地处理故障。在运行中 的一些特定场景下也可以进行应急演练,如发电机带载实验等,
8. 7. 6 人员安全应急流程
身事故制定应急流程并定期演练。应急流 回包活设置现场急救包以及 构的方式等
数据中心设施团队宜定期进行消防演练,将消防事故控制在初期,避免事态扩大和减少人员、资产 的损失。演练周期宜不长于一年。
8.8.1容量管理通则
设施运维团队宜与IT部门定期沟通和互动,动态了解IT需求的预测型钢标准,并通报设施容量的使用情况 可制定3个月至36个月周期的IT需求及设施可用容量两者的对比分析表。 当场地基础设施不能满足IT增长的需求时,宜提前制定并上报扩容或者新建数据中心的计划。 需识别到短期的高峰容量需求。 容量管理可包括但不限于以下方面
能力容量主要包括: 电力供应容量; 空调供应容量: 综合布线信息点容量; 互联网带宽或接入容量。
能力容量主要包括: 电力供应容量; 空调供应容量; 综合布线信息点容量; 互联网带宽或接入容量
数据中心场地基础设施运维团 收据中心在不同工况及不同外界气候条件下的电力
8.9.2了解IT设备运行特征
污水标准规范范本T/CIE0522018
....- 数据标准
- 相关专题: