随着金融业的发展和改革,金融业务的运行和创新对于信息化建设的要求变得越来越高,在不断升级和扩充信息系统和机房改造的同时,管理难度和总体成本成为制约金融业务发展的障碍。虚拟化技术由于具有提高资源利用率以及节能环保、可进行大规模数据整合等特点,对推进信息化的发展具有重大战略意义。
工商银行浙江分行从2010年9月开展PC服务器虚拟化工作,利用虚拟化技术对机房的服务器与应用系统进行整合,充分利用服务器的有效资源,提高系统的运行速度和系统运行可靠性,同时降低能耗,提高对机房资源的集中管理能力并
且摸索出了一整套的虚拟化管理、监控、维护流程,为工商银行的
IT运维自动化管理奠定了扎实的基础,目前160余套虚机稳定运行在16台高性能PC服务器上,保障业务可持续运行。
一旦虚拟机规模增长到一定程度,依赖手工管理自然已无力确保系统稳定运行,挑战也随之而来。如何在虚拟化环境下对服务器进行高效管理,保障系统的高可用和业务的连续性,成为企业面临的巨大挑战,需要在虚拟化环境下实施IT运维自动化方能解决。
一、虚拟化技术和IT运维技术
1.虚拟化及其优点
为改变IT运维管理日益显现的被动局面,需要利用有效的手段来保障系统安全、可持续运行并可降低能耗,提高资源利用率,从而提高IT部门的运维管理水平。随着虚拟化技术的不断进步,基于虚拟化技术的管理解决方案也日趋熟,特别是虚拟化技术在安全、易部署、节能等方面的特点,可以有效缓解IT运维管理的压力。
虚拟化技术将物理硬件与操作系统分开, 用户访问的是逻辑资源,用虚拟化技术来实现和管理物理资源的访问,从而提高IT资源利用率和灵活性。虚拟化允许具有不同操作系统的多个虚拟机在同一台物理机上独立并行运行。每个虚拟机都有自己的一套虚拟硬件(例如内存、CPU、存储,网卡等),可以在这些硬件中加载操作系统和应用程序。无论实际采用了什么物理硬件组件,操作系统都将它们视为一组标准化的硬件。虚拟计算中心的物理拓扑结构如图1所示。
图1 虚拟计算中心的物理拓扑结构
(1)虚拟化技术的主要特点
①封闭。虚拟单元的所有的环境被存放在一个单独的文件中;为应用展现的是标准化的虚拟硬件,确保兼容性;整个磁盘分区被存储为一个文件,易于备份、转移和拷贝。
②隔离。虚拟化能够提供理想化的物理机, 每个虚拟机互相隔离;数据不会在虚拟机之间泄露;应用只能在配置好的网络连接上进行通信。
③分区。大型的、扩展能力强的硬件能够被用来作为多台独立的服务器使用;在一个单独的物理系统上可以运行多个操作系统和应用;计算资源可以被放置在资源池中,并能够被有效地控制。
④虚拟技术支持高可用性,动态资源调整,极大地提高系统的可持续运行能力。
(2)虚拟化技术的优点
虚拟化技术为IT环境提供集中化管理,实现操作自动化、快速部署、资源优化和高可用性,同时降低了管理的复杂度。虚拟化技术的这些特点,非常适合在企业IT运维管理中加以利用。通过虚拟化平台的搭建,企业IT运维管理可实现以下优势:
①提高运维自动化能力。日常工作中对旧服务器上应用系统的维护,往往因年久资料缺失而花费大量的人力,而服务器更换产生的系统迁移工作更困难;通过虚拟技术可将原有独立服务器上的操作系统整体迁移至虚拟环境,极大地提高系统的可维护性。随着物理设备的减少,有效地减少单点故障的发生率,管理人员可以有更多的时间管理有限的几台服务器。
②提高了单服务器的资源利用率,降低了总体能耗。多台服务器通过整合归并至少量服务器后,原有的旧服务器可顺利退役,节约了机房空间、UPS资源、空调资源等机房辅助设施的开销。
③低成本备份和恢复方案。虚拟操作系统的备份是以文件形式存放的,备份和恢复非常方便。
④ 对于一些临时用的测试环境、开发环境等, 可进行快速部署,提高系统部署效率,节省人力成本和运维成本。
2.IT运维自动化
IT运维自动化是指将IT运维中日常的、大量的重复性工作自动化, 把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程, 更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
虚拟化技术构建了一个坚实的IT运维基础,确保IT运维的安全性、可用性, 为业务稳定、持续健康发展创造良好的条件。虚拟化与云计算,已被IT运维部门广泛采用,在享受IT技术带来喜悦的同时,对虚拟化主机构成的数据中心的运维难度,要提前做好规划。开始虚拟化之前,IT运维部门应尽量开展、保持IT标准化管理,需要站在IT运维管理者的角度去考虑问题, 需要在资源配置管理、实体机容量规划、虚机和实体机性能监控、虚机的自动维护, 以及IT服务流程等诸多方面进行稳固和调整。
随着运维技术的进步以及运维体系的完善, 自动化运维也随着规模、场景的变迁迎来新的挑战和变化。运维的活动范围更多介于硬件与操作系统之上、应用之下,其与基础架构也像是人的两条腿,相辅相成,总是一前一后交替往前推进。基础架构决定运维方向,同样运维体系又使得基础架构发挥最大收益。故而自动化运维平台的根本,不是仅仅把操作界面化,让人们简单地在界面点击按钮就能管理系统,而是在底层的基础架构与上层的业务系统之间搭建一个良好的桥梁,使得业务系统能够充分、稳定而又不必过度关注底层架构特性。
自动化运维的目标已不再仅是消除故障、打扫设备的后置服务,而是能够在业务开发时期介入、伴随整个业务共同运行的一种特殊服务。应用本身就能满足对应基础架构下的可靠运维,无论是统一的运维状态接口,还是灾备、自动缩扩容,以及变更时的关系调整,都能够很好地应对。
3.虚拟化环境下IT维护面临的挑战
虚拟化实施是一个循序渐进的长期工程,不能一蹴而就。随着时间推移,主机的虚拟机越来越多,虚拟化会出现各种问题,给虚拟化基础环境的稳定运行带来隐患,也给IT运维自动化带来巨大的挑战,主要包括以下三个方面:
一是数据中心的虚拟机不受控制地蔓延。每个虚拟机都会占用系统资源,如果没有删除不再使用的虚拟机,它们就会继续占用资源。这将最终导致系统资源的短缺,因此需要管理员寻找合适的管理工具和流程管理程序帮助解决虚拟机蔓延问题,理解和掌握虚拟机如何部署、管理和维护。
二是如何在虚拟化环境下对服务器进行性能监控管理。虚拟化面临的一个长期挑战是将逻辑负载与底层硬件隔离的抽象层。几乎无法获知哪台物理服务器正运行哪台虚拟机负载,导致无法在虚拟化环境中直接进行优化与故障排查。同时,物理服务器故障会影响该宿主上运行的所有虚拟机,这将提高快速解决问题与主动防范的成本。因此,虚拟化对服务器监控与管理提出了新的要求, 需通过持续监控虚拟机负载, 发现那些长期占用CPU性能或性能不足需要增加资源的虚拟机, 发现未充分使用、可以释放回资源池供其他虚拟机使用的资源。
三是如何在虚拟化环境下实现IT运维自动化。当公司的服务器跨入几百甚至上千台规模,脚本化、批量化管理占据非常大的比例。运维主要精力需要放在监控(采集、报警、展现图表)、部署上线(配置管理)、数据备份方面,因为机器数量庞大,所以集中式的操作平台是必备的。如何选择适合企业环境并具备所需管理功能的工具,是部署虚拟化平台需要最终确定的关键点。
二、规划及其实施
工商银行浙江分行对虚拟化解决方案进行了充分的评估和测试之后,最终决定采用VMware数据中心虚拟化解决方案,利用VMware虚拟化技术有助于物理服务器的整合和优化,能够打造一个可以随需应变的IT基础架构,并在实施过程中,克服虚拟化的各种挑战,最终形成比较完整的虚拟化运行管理、系统备份、性能监控、性能调优等全生
命周期流程的解决方案。以“云计算”发展为指导,以IT基础设施虚拟化为基础,构建银行内部“私有云” , 最终实现基础设施即服务(Infrastructure as a Service,IaaS)的工作目标。
1 . 虚拟化的资源集中化管理,实现IT运维自动化,避免虚拟机蔓延
首先,根据目前各应用系统的使用情况,结合服务器虚拟化技术规范,制定PC服务器虚拟化实施的应用实施原则、部署架构、虚拟机命名规范、用户权限管理以及日常管理规范等。
其次,对目前环境梳理,在推广准备中需要按照虚拟化策略来确定哪些应用系统的物理机需要进行虚拟化迁移, 确定物理机迁移的准入条件和优先原则。经过环境梳理, 得到需要虚拟化服务器的范围。设定准入条件, 确认优先原则,收集虚拟化应用系统信息表,最后申请资源,包括物理机资源、存储资源、ip地址资源等。
最后,虚拟化生命周期管理是有助于管理虚拟机的一种策略,确保只有授权的管理员能够创建所需的虚拟机, 这些虚拟机能激活使用,并且最终能删除以释放计算资源给其他虚拟机, 避免虚拟机蔓延。虚拟化生命周期管理需要做好以下两方面:
(1)明确所有者及责任人。每当一套新系统被创建出来,最重要的是弄清楚系统是应谁的要求创建出来,谁又最终为这套系统的运作负责。通过为每套系统指派唯一负责人——可以是系统应用程序分析师,也可以是系统的直接服务对象——将虚拟机一一落实到具体持有者身上,这样当系统的生产状态发生转变时(包括开发、测试、生产、衰退并最终淘汰等过程),才能始终使其处于有人在管的良性运行轨道上。而一旦缺乏实际责任人,多年以后很可能根本不知道某套虚拟机系统是否需要进行备份或者能否直接停止运行。
(2)制定命名规则并坚持执行。随着企业虚拟化环境的不断扩展,应该密切关注如何为自己的虚拟机命名并加以分类。对于VMwarevSphere的用户,可以使用vCenter中的字段定义和搜索功能,更方便地追踪虚拟机信息。通过这种方式,能够在一大堆虚拟机系统中成功找到自己需要的用户接触点、创建日期、预计关闭日期、备份方案/进度甚至是供应商支持信息。
2.虚拟化性能监控和调优
如果虚拟化整合的比率过高,那么最终用户体验到的虚拟化性能将会很差。随着添加的虚拟机越来越多,管理员必须密切监控服务器的性能。虚拟化监控与管理工具对服务器整合项目的成功至关重要,虚拟化监控与管理工具的功能不相同。有些工具对性能进行实时监控,有些工具提供历史性能数据,有些工具提供历史统计数据以排除误报并能够为性能监控以及诊断性能问题提供帮助。
虚拟化性能监控能从几方面降低成本, 管理员能利用它决定某台物理机的负载,以便决定是否让更多服务器整合在一个硬件上。监控性能也能检测是否出现可用性问题,管理员就能在不影响数据中心有效性之前解决问题。对于实际的服务器容量规划也很必要,通过观察趋势,管理员能对未来升级做出预测,以适应业务的长期发展。
工商银行浙江分行在研究比较各种虚拟化管理工具后,采用一组管理工具集合,部署一套完整的性能监控方案, 确保能实时性能监控、报警,并定期进行健康检查。根据性能监控结果,实现不停机实时调整资源,保障应用对外服务的可持续性。
(1)定期进行虚拟化环境的全局健康检查
如果有问题,通知相关负责人调整,具体包括:
①管理工具RV Tools提供虚拟架构的小型报告和分类引擎。对于每台子虚拟机,都有一个关于虚拟CPU、虚拟内存、虚拟磁盘、虚拟网络、虚拟CD、虚拟快照和虚拟工具的报告,每个报告里的圆柱图能够显示哪台虚拟机使用了最多的主机内存。重点检查快照、磁盘、分区等使用情况。
②利用Veeam Monitor free的仪表盘功能,明确每个群集的实用情况和后续扩展能力;并利用VClient和Ve eam Moni tor f re e的性能分析,分析一天、一周、一月、一年的信息。
(2)进行实时虚拟化性能监控和优化
确保应用的对外服务的持续性,具体包括:
①先利用Veeam Monitor free的Email/SNMP陷阱报警功能,当关键资源超出设置参数时会发生警报,识别资源使用里的瞬间警告转移能够较早发出警告,而且该警告可通过邮件服务器发到管理员和机房值班人员的邮箱,这对于快速做出决定是必要的,更能最小化生产环境的损失。
②再使用VMware公司的虚拟机客户端VcClient登录虚拟化的数据管理中心,对整个虚拟化环境的物理主机和虚拟机的资源进行统一调整,实现在终端用户知道之前发现问题并解决。
3 .负载均衡提供高可用性,保持业务可连续服务
在虚拟化群集方面,首先要保障已经部署虚拟化的服务器可持续运行;其次要考虑物理服务器宕机引起虚拟机重启时,如何确保业务的对外服务不中断。
为保障系统可用性,工商银行浙江分行将多台高性能服务器连接后端到高端存储,通过VMware的VMotion、HA、DRS技术实现应用自动负载迁移,即当其中某台物理服务器上的资源不够用时,运行在上面的部分虚拟机可以平滑迁移到另一台物理服务器, 实现虚拟机服务器的负载均衡, 并方便网络调整。
通过设置HA集群,实现了任何一台生产服务器发生物理故障时,其上运行的所有虚拟机在集群的另一台物理服务器自动重启。同时为了确保故障切换的顺利完成,根据群集里服务器数量N,来保持服务器的利用率在50%~80%之间,计算公式为:服务器的利用率=(N-1)/N×100%。同时考虑到群集HA的“心跳”检测机制的效率,控制一个群集的服务器数量在2至8台。
对于关键的应用,物理机故障导致虚拟机重启,还是无法满足应用的7×24小时对外持续服务。工商银行浙江分行在对系统架构、存储、负载均衡、虚拟化与云计算等多种技术深入研究的基础上,实现应用的负载均衡方案。外部采用F5负载均衡器,为客户访问提供统一的接入访问地址;内部采用应用群集,支持并发,把同一个应用的虚拟机部署在不同的物理机,任何一台物理机的宕机都不影响应用群集的对外连续服务能力。
三、实施后的运行效果
虚拟化是系统管理和设备管理的趋势,也是今后工商银行实施云计算的基础。通过实施VMware数据中心虚拟化解决方案,工商银行浙江分行简化了服务器管理工作,实现业务的高可用性和资源集中化管理,降低了管理复杂度,提高了服务水平。通过虚拟化及其整合的服务管理,工商银行浙江分行实现了一个简化、扩展、高效的 IT 基础架构,从而灵活适应业务目标的需求,并交付更高质量的服务,为成功实现云计算打下强大的基础,利用更加高效、灵活而且经济的“IT 即服务”模式为业务部门提供服务。
1.资源共享、统一管理
在各类虚拟资源池基础上,实现IT资源的统一管理、快速扩展。提高IT服务提供能力,简化运维管理操作,提高系统运维的效率,最大化利用现有的软硬件资源,节省软硬件采购方面的投资。
2.IT资源自动化的统一运营管理
在资源统一管理的基础上,实现运营自动化, 实时监控, 简化运维管理操作,提高系统运维的效率。以IT基础设施虚拟化整合作为切入点,启动系统优化整改的相关工作。通过采用硬件设备的虚拟化,软件版本的标准化,系统管理的集中化、自动化和一体化等手段,建立一个资源共享、服务集中和自动化的动态系统架构,把传统IT系统基础设施改建成为一个以服务为中心的运行平台,资源的使用方式从专有独占方式转变为完全共享方式,运行环境可以自动部署和调整资源分配,随需掌控资源。
3.提高服务水平
虚拟化消除计划内停机时间,对硬件设备进行例行维护的同时不会对业务运行造成影响(或只需短暂停机),大大提高应用系统的业务连续性。利用负载均衡提供高可用性,保障应用的7×24小时对外持续服务。
虚拟数据中心的资源集中管理、自动容灾以及资源可伸缩调度的特点,容易实现IT运维自动化,保障服务的高可用性;而且运维自动化后,管理员会有更多精力关注各平台之间的联动性,更关注运维的本质,即真正的自动化,不是自动发现问题,更能自动协助解决问题,以保障服务的稳定。IT运维关注的重点也由可用性发展到易用性、灵活性,最终实现自动容灾以及资源可伸缩调度,最终自动化运维平台不但能满足常规的监控、部署备份等需求,更能站在服务的角度关注其最终状态。IT运维自动化不单纯是一个维护过程, 也是一个管理的提升过程, 未来的发展趋势。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:虚拟化环境下IT运维自动化管理探索
本文网址:http://www.toberp.com/html/support/11121510063.html