数据中心运维工作的提升技巧

IDC类

数据中心运维工作的提升技巧

2021-03-09 11:19


                                            




数据中心是一个复杂的信息处理系统,包括系统、网络、存储、协议、需求、开发、测试、安全、空调、供电、监控等多个环节,运维的工作就是要包含到所有这些方面,可见运维的工作是一个集多IT工种技能于一身的岗位。然而这里说的每一个部分都需要多种技术学科的支撑,比如系统可能有Linux、Windows的,应用有LVS、HA、WebServer、DB、中间件,网络就更复杂了,各种二三层协议,虚拟化,环路协议,路由协议等等。这么多的技术不可能每个人都精通,不可否认可能有这种全面精通的人存在,但人的精力毕竟是有限的,要有所得也要有所失。下面将结合一些实际工作经验讲述提升运维技能的一些方法。

 

首先是沟通能力、团队协作。运维的工作涉及跨部门、跨工种特别多,这样运维的人员需要善于沟通,团队协议能力要强,这样在处理问题时,可以充分调用各种资源和技术力量,迅速解决问题。对于数据中心时间就是利润,流量就是金钱,一年365天要保持数据中心的稳定运行,不出故障或者少出故障才行。当业务部门反馈有故障时,根据反馈的故障现象迅速锁定故障点,然后集中资源解决,这其中需要大量的沟通,有效的沟通将为排除故障节省下来大量时间。

 

其次是运维工作要胆大心细。胆大才能创新,不走寻常路。即使数据中心再小,它也有自己的特点,充分利用它的优势,才能发挥出数据中心最大的效能。数据中心本来就是一个技术更新很快的领域,愿意接受新事物,大胆引入先进运维的技术将可以大大提升数据中心的工作效率。

 

再次是做好日常监控工作,一个健壮的身体离不开每天的观察,我们需要时时刻刻观察我们的数据中心,看看数据中心发生的细小问题。每天都要对数据中心的所有方面运行参数进行全面检查和记录,慢慢地就会对数据中心运行状态有了掌握,当某些参数变化时及时做应对之策。比如设备运行的CPU占用率,平时监控所有设备CPU占用率都在30%左右,突然有一天几台设备的CPU占用率无缘无故升到了60%,这就需要进一步检查升高的原因,直到消除掉为止。如果没有这些平日里的统计记录,这样的参数变化就不会引起人们的注意,故障迟早会到来。

 

第四做好统计工作。一般的数据中心都拥有上千台的服务器设备,还有其它不少的电子设备,要做好统计工作。比如服务器多少台,都处于什么位置,都和网络设备如何互连的,每台设备的配置,应用的特性等等,这些统计工作马虎不得,都关系着数十万设备的物理安全。在平日接触到的运维人员让我们感受到不同的人员对自己数据中心的了解差异是非常大的,有的人可以对询问的某个网段IP给什么应用使用脱口而出,而有的人却对询问的服务器放在哪个机架上都一无所知,当遇到问题或者进行数据中心变更时,后者的表现是显而易见会出问题的。

 

最后是要至少精通一门技术,数据中心需要运维人员是通材,就是方方面面都要懂一些,但是都懂一些相当于都不懂,这样在数据中心里是无法立足的。还需要有自己精通的领域,至少有一门是自己精通,而别人无法替代的。比如精通Linux操作系统、精通网络技术、精通安全技术等等,这样才能在数据中心里立足,然后再向其它领域拓展,最终成为一个技术较为全面的运维人才。

 

数据中心运维的工作不像其它工作,比如测试工程师、研发工程师等,有非常明确的职责定位及职业规划,有职业认同感与成就感。运维工作可能给人的感觉就是哪个方面都知道一些,但又哪个方面都比不上专业工程师更精通,慢慢工作起来就会迷失方向。其实运维工作也有自身的特点,就是什么领域的技术都有机会学习与接触,掌握的深浅程度主要取决于运维人员的自身努力,可以在多个技术领域做到精通。新一代数据中心给运维工作带来了更多挑战,也使得运维成为一个融合多学科的综合性技术,提供了很好的个人能力与技术广度的发展空间,运维工作的相关经验变得越来越重要。正因为运维的工作面广,运维人员转到其它岗位也很容易,没有太大的局限性,而且只有运维工程师才有机会成为数据中心的系统架构师或者运维主管,这样的职业发展前景也比较好。如今的数据中心已经开始重视运维技能的提升,大批量引起了不少高精尖的技术人才,从事数据中心运维人员的技能水平在不断提高,将有越来越多的高技术人才加入到数据中心运维队伍中来。

 

服务器的事就找三叶虫