当前位置: 首页 > 其他范文 > 应急预案

运维应急预案

作者:型章 | 发布时间:2021-09-18 18:07:01 收藏本文 下载本文

第1篇:运维应急预案

运维应急预案随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,反应迅速、处置有力的安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低,特制定本应急处置预案。一、系统故障流程说明1.故障发生获取途径1.1 监控系统告警发现故障1.2 用户发现故障1.3 维护中心发现故障2.故障受理

系统故障发生后,运维人员立即响应,并向相关人员了解系统故障情况。3.信息研判处理

运维人员根据了解到的系统故障情况进行分析判断,以确定采用哪种处理方式。4.故障解除

故障解除时间由运维人员及现场技术人员根据现场的实际进展情况,在与用户协调后确认故障解决。5.结果处理

故障解决后,书写详细的故障报告提交给相关人员。二、日常维护1.正常工作日内,对设备及系统的运行情况做监控,发生异常情况及时处理。2.节假日期间,保持通信畅通,遇有问题,尽快及时解决。3.认真做好数据备份工作,定期做好数据库的备份,每周检查服务器的运行和备份情况。三、故障处理1.故障流程

故障发生

判定

硬件故障

软件故障

服务器提示的硬件错误信息

查看系统、应用日志、其它异常等

综合判断,快速查找原因

解决故障

编写故障文档2.故障预案2.1 发生通信线路中断、路由故障、流量异常等,经初步判断后及时联系IDC机房或者其它相关人员,配合他们及时解决网络故障。2.2 发生服务器软件系统故障,如有备份服务器,立即切换到备机上;如果没有备机,以快速解决为首要目标,故障出现的原因后续去排查;总之优先保证服务器能正常运行。2.3 发生大流量网络攻击时,立即联系IDC机房及时处理。2.4 发生服务器硬件故障后,联系硬件设备厂商,要求其快速上门处理。2.5 发生业务数据损坏时,检查和备份当前业务系统数据,再调用备份数据来恢复。

第2篇:运维故障应急预案

运维故障应急预案

V 1.0

精品资料

深圳市 XX 科技有限公司

修订记录

版本编号 1.0 1.1 1.2

版本日期 2014-5-13

修订人 CC

说明 初稿

1 机房失火,断电,断网

1.1 紧急预案

1)全国各区域陆续反馈访问网站出现无法访问。

精品资料 2)运维人员通过监控状态,无法远程登录服务器,ping 不通服务器。并紧急联系机房人员,询问初步情况,则可判断是否出现机房失火,断电,断网。3)技术部给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一 部分是对公司内的通告,包括事故的影响、恢复的时间;

一部分是对公司外,描述因为系统升级,而导致网站不能访问。再次紧急联系机房供应商,询问故障的发生原因,故障的严重性,是否后续能正常恢复 服务。

5)如故障严重,先能否挽救服务器,以存储服务器为优先。若存储服务器受损,则想办法恢复数据;若无法恢复数据,则修改通告内容,告知业务部门要重新导入全部数据。6)视故障影响范围,统计出未受影响的服务器。

7)如果是机房失火,断电,断网导致机房不可用,则尽快联系新的机房,开始重新搭建服务。

8)评估网站恢复的时间点,修改通告内容。

1.2 风险预防

杭州和深圳均实施数据跨机房备份。

2.区域性网络故障问题

1.1 紧急预案

1)全国某个区域短时间内有多个客户反映无法访问网站,其他区域访问正常。

2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。

精品资料

4)

3)如机房服务正常,运维人员测试出现故障区域的网络连接与 dns 解析是否正常。4)如果网络连接或者 dns 解析不正常,则可认为出现了区域性网络故障问题。5)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是 对公司内的通告,包括事故的影响、恢复的时间; 一部分是对公司外受影响的区域客户,描述因为客户所在区域网站故障,而导致网站不能访问。6)尽快联系当地运营商,询问网络故障的情况及恢复时间。

1.2 风险预防

网站 CDN 镜像。

3.域名失效故障

1.1 紧急预案

1)全国各区域陆续反馈访问网站出现无法访问。

2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。

3)如服务器服务正常,再通过

DNS 检测工具并发现域名 IP 指向异常,则认为出现了域名失效故障。4)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是 对公司内的通告,包括事故的影响、恢复的时间; 一部分是对公司外,描述因为域名运营商

DNS 解析故障,导致网站不能访问。

5)登录并查看域名供应商平台设置解析配置,若是域名供应商配置有问题,则修正该配置;

若是 DNS 解析平台故障,则寻找另外的DNS 解析平台,重新配置 DNS 解析。

精品资料 6)告知业务部门,临时处理解决方法。发出修改 hosts 的 bat 脚本给各区域销售和客服团队,并告知允许脚本前要先退出

7)跟进全国域名解析的进展。

QQ 管家。

8)全国域名恢复后,撤出通告,并通知内部人员。

1.2 风险预防

1)DNS 加固安全锁。

2)每个月更换域名供应商和

DNS 解析平台的密码。

4.机房网络设备,服务器故障

1.1 紧急预案

1)全国各区域陆续反馈访问网站出现无法访问。

2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。

3)如无法正常登录服务器,ping 服务器不通,并紧急联系机房人员,并询问初步情况,则

判断是否出现机房网络设备,服务器故障。

4)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是

对公司内的通告,包括事故的影响、恢复的时间; 一部分是对公司外,描述因为网站升级改造,导致网站不能访问。5)逐个设备,服务器登录检查,找出有故障的设备,服务器。再次联系机房人员,检查相 应的设备,看是否能正常恢复运作。

6)收到机房人员的反馈后,若设备,服务器还可用,则与机房供应商共同执行修复措施;

精品资料 若设备,服务器完全损坏,则让机房供应商协助购买新设备,服务器或者借用现有设备,服务器。

7)配置新设备,服务器搭建运营环境。

1.2 风险预防

1)HA 热备,消除重点设备的单点问题。

2)确保配置文件均有备份。

精品资料

Welcome To Download!!

欢迎您的下载,资料仅供参考!

精品资料

第3篇:IT系统运维事故应急预案

项目事故应急预案

1.编制目的建立健全项目事故应急机制,提高XXXXXXXX应对项目实施过程中突发事故的能力,保持实施体系稳定,保障客户方权益和客户满意度,促进业务健康、可持续发展

1.1.编制依据

依据XXXXXXXXPMO发布《项目质量事故预防与处理制度》,制定本预案。

1.2.事故分级

按照突发事故严重性和紧急程度,突发质量事故分为特别重大质量事故、严重质量事故、一般质量事故和轻微质量事故四级。

a)重大:由于项目组的不规范操作、不规范管理,对系统生产环境造成严重的数据丢失、系统崩溃、当机,以及造成重大经济损失,严重影响客户满意的质量事故,定义为重大质量事故。

b)严重:由于项目组不规范的情况下对系统生产环境所做操作,而造成对系统生产环境的严重影响(如造成数据丢失、数据混乱)、造成一定程度经济损失,但能通过应急措施补救、挽回部分损失的事故,定义为严重质量事故。

c)一般:由于项目组在未得到客户方授权的情况下对系统生产环境所做操作,而造成对系统生产环境数据损坏或混乱,但未造成较大程度经济损失,通过应急措施可以有效保证数据完备的事故,定义为一般质量事故。

d)轻微:未对系统生产环境造成数据影响,但不符合规范化操作和管理要求,对系统整理质量存在较大风险,且造成项目资产的不完整,造成轻微经济损失的。如未对代码做及时定期的备份,导致代码版本的不完整或代码版本管理混乱的,定义为轻微质量事故。

1.3.适用范围

本预案适用于XXXXXXXX负责实施、管理的全部项目。2.组织指挥与职责

2.1.应急责任人

项目经理为项目应急责任人。

2.2.应急协调人

项目经理必须在发生质量事故后2小时内,向所在部门经理客观反馈问题,由项目经理初步判定项目事故等级。

级别在一般(包含)以下的事故,由项目经理作为应急处理协调人,负责总体监督、协调。

级别在严重(包含)以上的事故,由部门经理作为应急处理协调人,负责总体监督、协调。

2.3.专家组

实施支持中心作为实施专家团队,负责应急处理支持,由应急责任人在接到事故时,进行协调通报。

级别在严重(包含)以上的事故,实施专家团队必须指定专人参与事故应急处理,负责支持进行项目影响评估、损失弥补方案等工作。

2.4.涉及外包项目

整体或部分外包项目发生事故时,外包商必须指派项目经理的直属上级作为应急处理外包方协调人,外包方项目经理作为外包方负责人,由外包方负责人直接参与项目事故应急处理,协调人负责资源协调;涉及外包人员事故,该人员必须直接参与应急处理。事故应急处理完毕后再根据公司制度对上述公司或个人执行惩罚。

2.5.涉及第三方供应商

涉及第三方供应商的项目事故,第三方商必须指派专人负责,直接参与项目事故应急处理,事故应急处理完毕后再根据公司制度执行惩罚。

3.事故处理程序

3.1.事故响应 事故发生后,应成立事故应急处理小组,由责任人、协调人、专家组组成,第一时间响应事故处理。

3.2.事故通报

根据《项目质量事故预防与处理制度》和事故级别,及时进行内部通报,内部通报后即时向客户方相应人员进行通报。

3.3.事故分析

事故发生2个工作日内,应急责任人必须到达客户现场,并由专家组或其他技术人员开始事故分析,找寻事故发生原因,进行事故损失评估,制定修复方案。

3.4.修复

根据事故原因,修复系统问题,杜绝后续问题复现。根据修复方案,进行事故修复,降低事故损失。

3.5.善后

出具系统事故报告,并由客户方签字,至客户方签字标志事故处理结束。

第4篇:维保应急预案

维保应急预案

一、日常应对紧急故障的准备

为应对紧急故障发生日常应做到以下几点: 1、建立应急小队

故障急小队应由维保人员(吴育群、王鑫、王程)组成,每次紧急事故的处理人员应根据事故的大小和现场确定,每次事故派遣人员应不少于两人。2、备用易坏部位的备品备件

为确保发生紧急故障时能及时更换损坏部件,应购买相对应的备品备件以作应对,如法兰、弯头、垫片、喷头、模块、探头、手报、继电器、小型抽水泵等。3、保持通话畅通

维保人员应保持24小时电话畅通,随时接听紧急电话,确保及时赶到现场。4、对用户单位进行消防操作培训,强化消防意识

平时对用户单位安保人员进行消防操作培训,如关闭蓄水阀门,控制阀,开启关闭配电箱、控制箱等有助于对突发事件的处理和控制,减少财产损失。二、发生紧急故障时应对方法

在紧急故障发生时维保人员应在2小时之内赶到故障发生地点,进行维保抢修。

1、接到维保单位紧急故障电话,首先应询问具体故障情况,包括故障发生时间、故障部位、故障现象、故障持续时间、故障危害程度。如故障比较严重,应让用户单位保卫人员立即将故障发生现场戒严起来,阻止外来人员进入故障现场,以免发生不必要的人员伤害。

2、了解紧急故障的情况后,应赶紧制定故障解决方案。为减少故障时间、避免财产损失,故障解决方案应在维保人员到达前制定完成。故障解决方案至少应在两套,一套主用,一套备用。制定的故障解决方案,应是安全的、可行的、符合故障现场要求及国家规范的、能够达到解决故障效果并且不带来任何损失的方案。紧急故障的解决方案制定应由维保负责人员及维保人员共同参与讨论,维保负责人员制定,并得到部门领导审批同意。紧急故障解决方案应包括以下内容:(1)故障分析(2)解决方法(3)执行步骤

(4)执行人员的职责及分配(5)需要协助的事项

如需用户单位人员协助,应在到达故障现场之前联系好,并将需要协助的事项交代与用户单位协助人员,提前准备好。

3、解决紧急故障应按提前制定的方案逐步执行,不得随意更改。在执行方案过程中维保人员应注意用电安全、用水安全、机械使用安全。不得随意乱接乱搭电线,不得随意拆卸阀门。在用电前应测试电流电压;在拆卸阀门管件之前应确定拆卸的位置是否准确,管道内是否待压待水及老化程度等;在使用机械时应安操作规范使用。

4、故障解决完毕之后,应做详细的记录留底,便于以后的维保及故障原因的查明。故障解决记录应做成表格形式,一试两份,用户单位一份,维保单位一份,并让用户确认签字,证明故障解决。为了故障再次发生,还应制作故障汇总记录,故障汇总记录应包括故障发生的时间、地点、原因及故障解决的经过、结果。为下次解决紧急故障节约时间,积累经验。

江苏省钟星消防工程有限公司

编制人:闫 波

维稳应急预案

维保应急预案

维稳工作应急预案

信访维稳应急预案

运维工作汇报

本文标题: 运维应急预案
链接地址:https://www.dawendou.com/fanwen/yingjiyuan/604422.html

版权声明:
1.大文斗范文网的资料来自互联网以及用户的投稿,用于非商业性学习目的免费阅览。
2.《运维应急预案》一文的著作权归原作者所有,仅供学习参考,转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益,请联系我们,我们将会及时删除。

重点推荐栏目

关于大文斗范文网 | 在线投稿 | 网站声明 | 联系我们 | 网站帮助 | 投诉与建议 | 人才招聘 | 网站大事记
Copyright © 2004-2025 dawendou.com Inc. All Rights Reserved.大文斗范文网 版权所有