网络运维 设备管控

如何实现网络安全监控运维?

石油石化行业网络监控运维方案

石油石化行业网络监控运维方案
    马上咨询

            石油石化行业是一个高科技密集型行业,投资巨大、人员众多,各产业价值链的关联度较高,大型石油石化企业实现了上中下游产业的一体化协同发展。随着工业4.0时代的来临,信息化和工业化融合,物联网、云计算等新技术的普及推广,在驶入智能化赛道后,石油石化行业也在经济高速发展的大背景下,面临着经济全球化与社会信息化的双重挑战。

            在能源企业信息化进程中,随着石油石化行业信息化投资的不断增加,其IT基础设施规模和应用复杂度也不断增高,因分支站点众多且分布范围广泛,也对运维人员提出了高效管控多个数据中心及保障数据链路畅通等新技术要求。加上数据中心是7*24小时不间断运行,企业还面临着实现IT运维管理人员快速响应和处置、人机分离的高效运营管理以及智能化节能与可控等多重挑战。

    第1章 石油石化企业网络运维痛点

            伴随着“互联网+”的提出以及“两化融合”不断深入推进,石油化工企业信息化建设取得了一系列重大成果和重要进展,对企业提质增效、转型升级起到了重要支撑作用,但同时,因其网络覆盖面大、数据中心众多、终端众多,整体网络架构复杂性不断增高,在网络运维中面临种种难题。

    具体表现为如下:

    • 网络中存在大量的 IT 基础架构设施、云、虚拟化等,各种设备类型和设备厂家众多,难以统一管理;
    • 业务系统众多,网络使用情况缺乏有效监控,应用可用性要求高;
    • 网络结构复杂,链路多,运维人力不足,网络维护、业务保障工作量大;
    • 监控系统与告警平台缺乏联动,设备监察依赖人工巡检,告警发生仅靠被动发现,常常出现“救火式”被动运维场景;
    • 难以把控网络总体运行状况,各个地市、油库、加油站设备状态难把握;
    • 各地区,时段网络负载状况难以实时获取,故障节点难、问题根源,排障困难;
    • 缺乏可视化智能报表,其数据总览、运维指标不能直观呈现,缺乏提供管理决策依据的工具。

    第2章 智和信通石油石化行业IT运维方案

            石油化工行业信息化架构通常包括网络基础设施架构、业务架构以及应用架构三部分,一般而言网络基础设施架构,油田企业多采取集中分散式网络,炼化企业多采取园区式网络,销售企业多采取分布式网络。同时,运营逐步向总部集中,总部数据中心肩负不间断运营的重担,实现快速实时响应,即时完成故障排查、远程恢复与重启更新等自愈,成为运维人员更为关注的问题。

            北京智和信通石油石化IT运维方案,通过“智和网管平台”实现智能化集中运维管理,对全部IT基础设施进行跨区域、跨平台、跨设备远程集中管控,真正实现远程集中管控,有效提升管理效率。

    智和信通石油石化IT运维方案模型

    2.1.分布式部署网络可视化

            石油石化企业采取在总部设立网络运营中心,各企业设立分中心,协同进行态势监控和运维响应,形成上下一体、内外结合、协同联动的运维体系。但由于整体网络架构中软硬件环境涉及的技术复杂,厂商众多,协同运维具有一定难度。北京智和信通选择通过网络架构拓扑可视化能力,将网络数据从离线表格转移至平台内,从静态的网络架构数据转化为动态智能拓扑,实现全网设备、资源、链接关系、IP等实时更新、快速定位。

    分布式部署网络拓扑示意图

            在动态拓扑上展现设备实时状态,通过树形、平面结构联动展示设备间链接关系,通过按片区、按地域、按层级等多种布局方式划分网络,使用不同颜色、粗细、图标表示被管理对象的状态信息,助力运维人员实时了解网络架构及全网运行状态,快速感知资源、链路、流量等异常信息。

    核心架构网络拓扑示意图

    2.2.全网IT资源可视化监控

            本方案实现IT设备信息高频采集,并结合智能算法,实现对整体网络架构、设备运行状态、业务可用状态的实时信息采集和感知。针对石油石化企业网络内各类IT设备、业务系统构建统一、智能监控体系,屏蔽厂商、型号差异,掌握石油石化企业网络整体运行情况和运行效能,能高效、快速、精准进行故障定位诊断。

    设备资源可视化显示

    2.3.视频设备集中监控

            本方案可对不同品牌、不同型号的摄像头进行统一运维,融合网络高清、智能分析、多级管控为一体。支持监管视频监控体系涉及的视频前端设备(摄像头、卡口、编解码器),传输设备(光纤收发器、EPON 等)内场设备(网络与安全设备、主机/虚拟机、存储设备)、机房动力环境等多种设备,等统一接入、集中管理。

    2.4.端到端全链路可视化

            从整体维度到局部维度展示石油石化企业网络内IT设备间链路各项指标,整体可观测、可告警、可分析、可统计,通过实时监控各个端口以及每条线路的通断情况和性能指标,结合专业的流量监控分析能力,对链路容量进行即时监控,并生成流量分析报告,为容量规划提供依据。

    2.5.设备模型库监管无限制

            方案采取用户自定义设备类型及其设备资源的方式,赋予用户自定义适配设备的能力,更大可能地支持对不同设备类型的支持。通过自定义设备类型及其设备资源,更大限度上提高了智和网管平台的管理范围,真正实现了对设备及其资源的化管理,达到管控万物的目标。

    2.6.实时故障预警,及时洞察异常信息

            方案通过统一的故障管理平台,将各个模块中的监控信息统一采集、分析,实现整个石油石化企业网络中各种事件信息、设备故障、网络异常、流量异常等告警,以智能化手段进行标准化的分析、压缩、并归关联等,通过多种方式实时传达告警信息,保证落实到指定人员进行处理,为石油石化企业提供主动式的故障解决方案。

            采集石油石化企业内所有联网设备,如存储、服务器、路由器、工业交换机、安全设备、虚拟化、云、OLT、ONU、PLC、无线ACAP等设备、资源、应用、服务等状态信息,通过对告警机制以及阈值的设置,即时获取准确的告警信息,快速定位告警设备,提升告警处理效率,降低因设备故障带来的损失。


            实现快速的故障定位,一步定位到发生故障的源头设备,及时处理好故障,有效地预防故障发生。支持以拓扑图的方式回放历史告警下的设备告警变化、拓扑图和链路告警变化,支持快进、后退等播放操作。

    2.7.异常事件管理

            将事件和告警分离管理,接收设备/服务器主动发送的消息,集中处理后,及时地通知用户,并可以通过集中的管理界面进行管理。接收设备/服务器主动发送的消息,更大地提高了管理的主动性,通过统一界面集中管理事件,降低了管理的难度。


    2.8.全覆盖IT资源自动巡检

            传统的人工巡检,尤其是应用巡检,缺乏统一的规范、标准,导致巡检的范围和深度都存在一定的局限性,并且是基于人工的手工统计,工作效率比较低,同时耗费较大的人力资源。


            本方案依托平台将以前依赖手工进行的日常巡检转换为自动化、定时执行的巡检策略。制定统一的巡检指标、巡检方式、巡检频度等,保证巡检标准化、巡检范围、巡检深度;通过设计巡检作业、数据采集方式、自动化作业调度等实现日常巡检的自动化,代替手工工作,提高效率的同时,解放管理人员,释放管理人员更多的精力,使更多的精力处理更重要的事项。

    2.9.IP地址全生命周期监管

            对于石油石化企业的网络IP资产,采取统一数据标准,对整体网络中的IP和MAC进行梳理和管理,建立健全IP资产台账,端到端规划、部署、管理和监控IP 地址。通过智能IP扫描能力,定义多层次子网,然后扫描其范围内每个IP地址的当前状态,包括IP地址,MAC地址等信息,也可以查看IP段内地址使用详情,便于IP地址分配管理等。

            可手动、自动获取子网信息,并根据网络结构对子网信息进行管理。定时获取全网的MAC-IP信息,并自动保存,可根据MAC或IP对在线设备进行查询。以端口图的形式显示当前网段内端口的使用情况。


            支持通过端口视图及列表视图的形式,展示当前IP地址的使用情况,可查看某个子网的IP现网详情信息,如IP、掩码、主机名、设备类型、现网MAC、现网接入设备、现网接入端口、规划MAC、规划接入设备、使用人等,可批量分配IP地址。

    2.10.业务可用性管理

            中国石化业务应用复杂,上中下游、科研、工程、贸易、金融、电商,相应的业务信息系统复杂度更高。本方案以保障业务可用性为基础,通过对承载业务的IT基础设施构建真实的业务模型。

    石油石化企业业务系统示意图

            针对业务应用性能与用户体验进行检测分析,无需安装插件即可提供开箱即用的主动拨测试业务监测。从前端用户体验、网络延迟到后端的业务服务和基础架构,全栈溯源为用户提供端到端的完整全链路数据融合和关联分析,为用户快速发现业务性能瓶颈,提升用户体验奠定基础。

    石油石化企业业务看板示意图

            直观、便捷地帮助运维人员对石油石化企业内部办公系统、物资采购电子商务系统、ERP、语音业务系统、CRM系统、供应链/物流管理系统、油田开采与生产系统等进行监控,掌握业务的运行状态和健康水平,了解业务动态变化趋势,快速定位故障源,降低运营风险。

            方案实现完整全链路调用链追踪,包含详细的调用链访问路径和性能等访问信息,以及相关的各类请求参数等业务数据指标,为故障定位、根因分析提供详尽的参考数据。

    业务拓扑示意图

            通过构建包含各业务整体流程的调用依赖关系图谱,展示业务部署中网络设备间多维度关系拓扑。对从业务的前台受理到真正完成的整个业务流程所依赖的业务应用、服务器、中间件、数据库、操作系统等进行实时监控分析,通过可视化的方式呈现业务健康状况,联动设备监控,快速定位导致业务健康指数波动的原因,保障核心业务流程稳定、高效。

    2.11.全网带宽、流量监控与回溯分析

            随着石油石化企业信息化建设的加速,其业务、应用层出不穷,对网络带宽的需求越来越高。正常的业务需要良好的带宽环境保障机制,避免被一些与业务无关的杂事干扰,影响工作效率。方案基于海量流量数据的存储挖掘,实现对网络流量的侦测分析。

            提供设备、接口、IP、服务、应用、会话等层级的带宽监控,实时监控带宽使用趋势与带宽占用分布,并通过图表展示,快速识别网络带宽滥用,分析高带宽使用情况,识别带宽消耗较大的应用程序、服务、协议或 IP 地址,避免网络容量过载,并提升更终用户网络体验。


    2.12.无人值守的设备远程配置

            网络承载的业务经常发生变更,面对业务的变更运维工程师往往要对大量设备进行操作,此时如果依靠工程师逐一登录设备进行命令下发、策略配置,将产生大量重复性的工作,不但导致运维效率低下,也不可避免地产生人为配置错误。

            用户可通过网页对智和网管平台进行访问,通过对纳入监控的设备进行单独、批量的配置操作,设备策略远程配置管理,可以自动批量进行设备配置修改,并可对设备配置进行备份、对比、恢复,宕机后设备配置可快速复原,保障设备及时恢复运行,提升配置效率、质量和安全性。


            通过批量作业并行处理能力,实现多设备并发批处理操作。通过自动化流程,将简单的设备控制操作在大批量设备进行执行,并对执行过程进行监督,对执行结果进行检查。在安全合规的前提下,将运维人员从整体的变更流程及变更内容的准备中解脱出来,实现网络变更、设备配置自动化。

            对不同厂商,如Cisco、HP、Nortel、Juniper、3Com、D-link、Foundry、Dell、Proxim、NetScreen、华为、H3C、锐捷、中兴等多家厂商的网络设备。

            方案通过配置文件批量备份、下载、周期性备份、查看等功能,为用户管理网络做出合理的建议提供数据支撑。

    2.13.全场景自动化运维

            方案将石油石化企业网络运维中涉及的服务、命令、操作、执行组件化、策略化,将需要进行的运维服务、操作等以组件、策略的形式托管至平台中进行维护和管理,通过简单灵活地编排能力,使用者可以选择业务场景所需地测,通过可视化拖拽的编排方式进行组合,即可完成应用场景端到端的图形化编排,最后以多种方式触发执行即可完成期望的运维变更任务,从而实现高效、稳定、安全的智能运维。


            自动化运维编排,可实现完全根据用户场景,定制化设计运维剧本,真正将运维任务托管至平台,解放人力。

    • 故障自愈能力,如网口异常自动关闭、磁盘爆满自动清理、非法设备入侵阻断、CPU空间不足自动重启等。
    • 定时服务重启,如在工作日每天晚上定时关闭应用,每天早上自动重启应用等。
    • 智能批量设备管控,如批量设备策略执行,当设备的配置状态不一时,能够基于当前设备自身的状态自动决策适合于本设备的管控操作等。
    • 定期设备健康状况自检,如定期设备健康状态自检、服务运行状态自检等。
    • 虚拟化、云服务资源自动化扩容,如在虚拟化环境资源不足时自动化根据实际情况进行扩容。
    • 日常运维自动化,如自动化定期执行批处理cmd\sh脚本、自动化定期数据清洗、自动化定期环境检查并导出报表等。

    2.14.积累形成运维知识库

            在石油石化企业日常网络运维服务中,重复的故障和请求约占到70%,只有30%的故障真正需要专业人员来解决,知识经验对提升重复工作的效率起到了至关重要的作用。

            通过智和网管平台自动化运维的能力,将只能由专家处理的各类操作和判断转化为可存在于平台内的流程,形成可保留可复用的运维知识,减少因误操作带来的损失,保障运维效率。以规范的流程进行运维作业,保障关键数据的完整合规。

    2.15.可视化运维数据驾驶舱

            利用图形、图表、图表等易于理解的形式,提取和分析大量复杂的石油石化企业网络中各类运维数据,呈现分析结果,从而帮助运维人员在短时间内更好地理解和获得更多的信息,帮助运维部门能够实时了解业务和其所依赖IT资源的运行状况,以及提供系统运维和优化的指示和依据。

    石油石化企业网络拓扑大屏

    2.16.资产生命周期管理

            由于石油石化企业IT资产数量巨大,管理困难,一些防护薄弱、疏于管理以及废弃老旧资产成为网络故障的隐患,通过资产管理,将企业的网络资产管理,采取统一数据标准梳理和调用,明确资产归属,形成台账,免资产信息在运维系统和实物间的差异,减少网络运维过程中信息不一致、数据不统一等问题通过平台将资产实物与运维数据库一一对应,解决网络设备在日常运维过程中出现“脱管”或“半脱管”的问题。


            实现一机一档,通过自定义多级资产分类,细化资产类别,实现资产分类管控,提高资产精细管理程度。从资产入库、领用、变更、维修、调拨、到报废处置,资产每一步操作均实现完整记录,支持追溯,通过平台实现资产整个生命周期的全流程闭环管理,使得IT资产每一次生命周期变更,都有流程可依、都有迹可循,从而实现IT资产监管。

    2.17.定制化工单体系

            通过方案实现运维工单“无纸化”,支持于设备和故障管理页面快速创建工单,把控故障处理进度,通过工单平台简化故障处理流程,形成自动化故障处理机制,并在每个处理流程的节点上责任到人,实现在快速响应故障的同时,实现兼顾运维流程管控。


            结合石油石化的业务需求场景,自定义工单模板内的字段,并对字段排序进行调整,使工单根据业务的不同更加贴合用户实际使用情况,提供为不同工单模板设置不同状态的能力。

    第3章 自主研发安全可控 适配国产信创环境

            信创产业包含了从IT底层的基础软硬件到上层应用软件的全产业链的安全可控,涵盖了应用软件、信息安全、IT基础设施、基础软件四个领域。其中,基础软件是信息系统更核心的部件,是保障信息系统安全的重要阵地和防线,其创新应用与自主可控关系到国家安全和利益,也是产业自主发展的基础。


            本方案支持部署运行在中标麒麟、银河麒麟、红旗Linux等国产操作系统,支持在达梦、金仓、神州等国产数据库进行数据存储,通过东方通等国产中间件提供对外服务[8],支持龙芯、申威等国产CPU架构,并实现对国产化CPU、服务器、数据库、中间件等IT软硬件设备的综合监控与运维管理。

    第4章 方案应用价值

            随着5G、大数据、物联网、云计算、人工智能等高新技术的不断发展和应用,越来越多的石油石化企业正在由传统管理模式逐步向智能化、无人化运维模式发展。我国“十四五”规划纲要明确提出,“要加快数字化发展,建设数字中国”。在此背景下,数智化转型逐渐成为企业所关注的焦点,“少人化或无人化”、“可预测性维护”的运维模式已经成为石油石化企业数字化转型、强化本质安全、提高系统效率、实现高质量发展的关键支撑。

            通过部署北京智和信通石油石化企业一体化运维监控方案,通过远程集中管理,实现对所有IT设施的集中管控,对不同角色的人员进行分级授权访问权限,在发生故障的即时进行排、处置和恢复,改善石油石化企业网络运行环境、降低运维成本、提升运维效率,为其安全、智慧、低碳发展不断赋能。

    第5章 标杆案例

            智和信通石油石化企业IT运维方案成果,其可靠性在石油石化企业大规模、高复杂地网环境下得到了验证,并得到用户的充分认可。

    5.1.山东垦利石化集团-生产网络管理

            山东垦利石化集团有限公司始建于1970年,占地350万平方米,员工3123人,注册资本10339.18万元。是以石油化工为主业,集石油加工、石油化工、纺织、热电、酿酒、供热、科研为一体的综合性企业集团。

    5.1.1.核心需求

            随着集团的发展,生产规模的扩大,集团生产网络越加的复杂,因此,垦利石化急需一套网管软件对生产网络进行管理,并提出以下需求:

    • 用于管理生产网络;
    • 具有清晰明了地网络拓扑图;
    • 具有及时告警功能,支持告警信息通过短信发送;
    • 具有性能管理功能,能够监控设备性能;
    • 具有数据统计分析能力,提供网络/设备情况报表。

    5.1.2.智和信通方案

            经过和垦利石化的深入沟通,智和信通公司决定采用智和网管平台综合网管解决方案实现垦利石化的网管需求,具体方案如下:

    • 支持自动发现设备生成网络拓扑图,并识别设备类型、资源,生成设备的面板图;
    • 支持多种告警机制,自定义配置告警阈值,支持快速标示已经执行操作的告警,迅速定位告警设备;
    • 提供界面颜色、告警列表、Email、短信等告警方式;
    • 提供了多项已定义好的数据对象,用于从设备上采集系统信息、网络信息、交换信息、软件信息、磁盘CPU资源、流量信息,可以通过曲线图、趋势图等展示性能指标,可以按天、星期、月、任意时间段查看性能指标变化;
    • 支持多项数据的统计功能,包括对全网设备、资源、链路、性能、故障等进行统计,并支持将软件中的统计图表导出或打印,以便备份或对比查看。

    5.1.3.方案成果

            通过部署智和网管平台垦利石化实现了对集团生产网络的统一管理,将所有设备都被纳入网管软件中集中管理。通过清晰的网络拓扑使设备情况一目了然,设备出现故障时,做到了数秒内即可发现故障,更大地提高了设备故障的处理效率。

    5.2.东营石化-全网实时监控

            东营石化是大型国有企业,集团下设多家公司。由于集团的愈加发展壮大,集团网络环境愈加地复杂,网络设备数量不断增加,人工管理已经难以满足其需求。

    5.2.1.核心需求

            目前东营石化对网管软件的需求主要集中在能够对当前的网络情况整体监控,并对其进行梳理。因此,东营石化提出了以下核心需求:

    • 完备的拓扑图功能,能够自动发现网络设备,识别设备IP地址和MAC信息;
    • 故障告警功能,能够通过短信发送告警信息;
    • 能够对设备资源进行管理;
    • 能够通过手机对系统进行访问;
    • 能够对网络状况生产统计报表。

    5.2.2.智和信通方案

            经过和东营石化多次沟通,智和信通公司决定通过智和网管平台一体化网络管理解决方案实现东营石化的网管需求,具体方案如下:

    • 支持通过图形化的方式,将网络拓扑关系展示出来,支持树形结构和平面结构的联动展示,也可以按片区、按地域、按层级等多种布局方式划分网络。
    • 在拓扑中以不同颜色设备图标实时展现设备的实时状态信息,通过拓扑图对设备、设备资源、链路进行管理。
    • 支持进一步展示设备的细节,包括设备的物理组件、服务器上的服务:比如:Web服务器、中间件应用服务、数据库服务器、邮件服务器等;还可以用户定义的其他监控对象。
    • 支持多种告警机制,自定义配置告警阈值,支持快速标示已经执行操作的告警,迅速定位告警设备。
    • 故障可以通过界面颜色、告警列表、Email等方式发出通知,告警可以向上逐步追溯,按照从全局→网络→设备→设备资源的管理习惯来组织故障显示。
    • 支持多项数据的统计功能,通过多种类型的图表进行展现。
    • 智和网管平台支持B/S和C/S构架,支持通过PC端、Pad端以及手机端对平台进行访问。

    5.2.3.方案成果

            通过部署智和网管平台,东营石化实现了对集团网络的一体化管理。平台提供的拓扑图可以图像化、实时地展现集团网络结构和状态,可以在更短的时间内发现设备的故障,并直接定位故障设备,进行排查,更大地降低了因设备故障给集团带来的损失。网络部通过报表,对周、月、年的网络状况进行汇总,为网络结构的调整提供了依据。