网络运维 设备管控

如何实现网络安全监控运维?

电信运营商综合网管解决方案

电信运营商综合网管解决方案
    马上咨询

            随着新一代信息技术加快普及应用,5G、云和人工智能正加速智能社会的到来,三大技术正在重构网络。随着我国5G产业快速推进,中国移动、中国联通、中国电信加快步伐,全业务运营时代已经到来。全业务运营时代的特点是:网络规模大;业务种类将越来越多。越来越多的人开始进入信息通信网络且使用各种娱乐、商务、贸易等信息通信服务,一旦网络安全出现问题,必将带来十分严重的后果。因此,IT运维系统在逐步升级的过程中,除了要支撑多业务、融合计费等需求之外,还要提供高等级的安全保障。

    第1章 电信运营商网络运维痛点

            5G时代的到来,为运营商带来了全新的商业模式,随着运营商业务发展,业务支撑网络和业务系统越来越复杂。网络线路、网络设备、云资源等基础设施的不断增加,使得整个网络结构变得非常庞大而且复杂;同时随着业务系统的增加,业务场景越来越多,业务复杂度越也越来越高。在传统运维管理手段下,对于多段网络、多层架构的应用,在问题发生时,分析定位、排障的速度相对较慢。

    具体表现为如下:

    • 各电信运营商网络中都存在大量的 IT 基础架构设施、云、虚拟化等,各种设备类型和设备厂家众多,难以统一管理;
    • 设备多分布在大大小小很多个机房,运维管理效率低下,且各系统的分散建设,造成重复建设、重复投资,造成资源浪费、能耗无谓增加;
    • 随着业务系统逐步上云,电信运营商对云的监控提出更高要求,目前对云环境、容器环境的管控覆盖面及手段尚有不足;
    • 电信运营商网络中业务系统众多、网络结构复杂,其中的网络设备、服务器、数据库、中间件、分流设备、交换机、存储、云、虚拟化、应用等发生问题时定位困难;
    • 分层、多厂家、异构等多种场景下,问题诊断和分析的复杂度高,故障定位和根因分析困难,排障费时费力;
    • 运维监控产品能力参差不齐、运维数据分散,缺乏数据统计和分析,分析问题故障时无法形成有效联动;
    • 缺乏对IP地址等网络资产生命周期管理;
    • 运维人力外包形式普遍,手工运维+零散工具导致工作量居高不下,缺乏灵活定制和使用的能力,且对运维人员经验依赖较重

    第2章 智和信通电信运营商IT运维方案

            当前,电信运营商面临着5G、虚拟化、物联网等技术冲击的压力,为推进自身业务数字化,电信运营商建设了大量的IT系统,系统规模呈几何级增长,加之虚拟化微服务架构复杂多变,同时也急需提升效率、优化成本。北京智和信通电信运营商IT运维方案,通过对各类网络场景下的跨域资源整合、数据深度挖掘、异常监测、自动化运维等能力,实现电信运营商IT运维从标准化向自动化、智能化、数字化转型。

    智和信通电信运营商运维平台功能模型

    2.1.多网融合架构可视化

    运营商多采用多网融合架构,一般来讲,运营商网络包括省际和省内骨干网络,各省内又包含许多城域网,城域网下又有许多用户驻地网通过接入网连接进来。网络架构中软硬件环境涉及的技术复杂,厂商众多。北京智和信通通过网络架构拓扑可视化能力,将网络数据从离线表格转移至平台内,从静态的网络架构数据转化为动态智能拓扑,实现全网设备、资源、链接关系、IP等实时更新、快速定位。

    多网融合网络拓扑示意图

    2.2.核心网络架构可视化

            在动态拓扑上展现设备实时状态,通过树形、平面结构联动展示设备间链接关系,按片区、按地域、按层级等多种布局方式划分网络,使用不同颜色、粗细、图标表示被管对象的状态信息,助力运维人员实时了解网络架构及全网运行状态,快速感知资源、链路、流量等异常信息。

    IP承载网络拓扑示意图

    2.3.基站、机房架构可视化

            以2.5D管理视图对不同品牌、类型、版本的网络设备、安全设备、存储、主机、中间件、数据库、虚拟化、应用服务、视频监控、动力设备、环境设备等进行统一、全方位、多层次的综合管理,实时分析资源当前性能和运行状态,直观反映资源的动态变化对支撑业务的影响。

    2.5D机房监控示意图

    2.4.端到端全链路可视化

    从整体维度到局部维度展示电信运营商网络内设备链路各项指标,整体可观测、可告警、可分析、可统计,通过实时监控各个端口以及每条线路的通断情况和性能指标,结合专业的流量监控分析能力,对链路容量进行即时监控,并生成流量分析报告,为容量规划提供依据。

    链路综合信息示意图

    2.5.全网资源监控可视化

            本方案实现网络设备信息高频采集,并结合智能算法,实现对整体网络架构、设备运行状态、业务可用状态的实时信息采集和感知。针对电信运营商网络内各类设备、业务系统构建统一、智能监控体系,对业务系统、操作系统、基础设施、主机存储、数据库、中间件、虚拟化、云、数据中心机房等全方位监管。屏蔽厂商、型号差异,掌握电信运营商网络整体运行情况和运行效能,能高效、快速、精准进行故障定位诊断。

    设备资源可视化显示

    2.6.视频设备集中监控

            本方案可对不同品牌、不同型号的摄像头进行统一运维,融合网络高清、智能分析、多级管控为一体。支持监管视频监控体系涉及的视频前端设备(摄像头、卡口、编解码器)、传输设备(光纤收发器、EPON 等)、内场设备(网络与安全设备、主机/虚拟机、存储设备)、机房动力环境等统一接入、集中管理。

    视频监控效果示意图

    2.7.精细化私有云监控

            方案基于对私有云中的系统资源、租户资源的监控,实现云资源的生命周期管理,通过可视化运维编排,进行云管理策略预设配置、云策略批量/定时执行、智能监控巡检。支持多云纳管、持续监控,对云的容量进行智能化分析,为容量优化提供依据。

    2.8.设备模型库监管无限制

            方案采取用户自定义设备类型及其设备资源的方式,赋予用户自定义适配设备的能力,更大可能地支持对不同设备类型的支持。通过自定义设备类型及其设备资源,更大限度上提高了智和网管平台的管理范围,真正实现了对设备及其资源的化管理,达到管控万物的目标。


    2.9.实时故障预警,及时洞察异常信息

            方案通过统一的故障管理平台,将各个模块中的监控信息统一采集、分析,实现整个电信运营商网络中各种事件信息、设备故障、网络异常、流量异常等告警,以智能化手段进行标准化的分析、压缩、并归关联等,通过多种方式实时传达告警信息,保证落实到指定人员进行处理,为电信运营商提供主动式的故障解决方案。


            采集电信运营商所有联网设备,如存储、服务器、路由器、交换机、防火墙、虚拟化、云、PTN等设备、资源、应用、服务等状态信息,通过对告警机制以及阈值的设置,即时获取准确的告警信息,快速定位告警设备,提升告警处理效率,降低因设备故障带来的损失。

    2.10.人工运维与故障自愈结合

            将人工运维与故障自愈结合,无需针对告警进行手动处置,只需预编排告警处理流程,平台根据场景自动触发,实现故障自愈。

            通过实时发现告警,进行预诊断分析,判断告警类型和级别,如果是一般告警,平台进行自动恢复,如果是严重复杂告警则通过告警通知、运维工单等形式通知运维管理人员,进行人工处理。同时,将只能有专家处理的各类操作和判断转化为可存在于平台内的流程,形成可保留可复用的运维知识。

    2.11.IP地址全生命周期监管

            对于电信运营商的网络IP资产,采取统一数据标准,对整体网络中的IP和MAC进行梳理和管理,记录MCA和IP的对应关系、IP使用单位并关联合同附件,IP/合同到期后进行提醒。

    IP生命周期管理

            建立健全IP资产台账,通过自定义多级资产分类,细化资产类别,实现资产分类管控,提高资产精细管理程度。从IP分配、调用、回收等,每一步操作均实现完整记录,支持追溯,通过平台实现IP资产整个生命周期的全流程闭环管理,使得IP资产每一次生命周期变更,都有流程可依、都有迹可循,从而实现IP监管。

    IP变更记录

    2.11.1.子网及IP地址信息查看

            方案支持端到端规划、部署、管理和监控IP 地址。通过智能IP扫描能力,定义多层次子网,然后扫描其范围内每个IP地址的当前状态,包括IP地址,MAC地址等信息,也可以查看IP段内地址使用详情,便于IP地址分配管理等。


    2.11.2.IP地址分配与使用

            支持通过端口视图及列表视图的形式,展示当前IP地址的使用情况,可查看某个子网的IP现网详情信息,如IP、掩码、主机名、设备类型、现网MAC、现网接入设备、现网接入端口、规划MAC、规划接入设备、使用人等,可批量分配IP地址。


    2.11.3.IP地址异常追踪

            方案支持通过追踪IP地址的历史关联MAC、接入设备/端口变更记录等与规划绑定MAC、规划接入设备/端口进行对比分析,当与规划不一致时生成一条异常记录,从而审核IP/MAC是否正确使用。

    2.11.4.IP-MAC绑定

            对全网MAC和IP进行配对绑定,并周期性对MAC-IP进行检测。自动将规划表中的IP-MAC设置为绑定关系,自动扫描在线终端,当MAC-IP的绑定关系发生冲突时产生告警,保证入网终端安全可信。

    2.12.全覆盖IT资源自动巡检

            传统的人工巡检,尤其是应用巡检,缺乏统一的规范、标准,导致巡检的范围和深度都存在一定的局限性,并且是基于人工的手工统计,工作效率比较低,同时耗费较大的人力资源。

            本方案依托平台将以前依赖手工进行的日常巡检转换为自动化、定时执行的巡检策略。制定统一的巡检指标、巡检方式、巡检频度等,保证巡检标准化、巡检范围、巡检深度;通过设计巡检作业、数据采集方式、自动化作业调度等实现日常巡检的自动化,代替手工工作,提高效率的同时,解放管理人员,释放管理人员更多的精力,使更多的精力处理更重要的事项。

    2.13.业务可用性管理

            电信运营商业务系统流程从终端用户侧的柜面、手机APP、官网、CRM系统、在线客服系统,到在线计费系统,再到后端核心系统,每个环节互相关联影响。本方案以保障业务可用性为基础,通过对承载业务的IT基础设施构建真实的业务模型。直观呈现面向服务的业务系统体系架构;准确反映设备异常对核心业务、用户造成的影响和威胁,快速查明导致业务中断的故障源,帮助运维人员做出及时响应,保障业务连续性。

    电信运营商业务系统示意图

    2.13.1.业务可用性拨测分析

            针对业务应用性能与用户体验进行检测分析,无需安装插件即可提供开箱即用的主动拨测试业务监测。直观、便捷地帮助运维人员对电信运营商内办公系统、支付系统、在线客服系统、在线计费系统、CRM系统、官网、手机APP系统等进行监控,掌握业务的运行状态和健康水平,了解业务动态变化趋势,快速定位故障源,降低运营风险。

    电信运营商业务看板示意图

    2.13.2.业务依赖关系可视展示

            方案通过构建包含各业务整体流程的调用依赖关系图谱,展示业务部署中网络设备间多维度关系拓扑。对从业务的前台受理到真正完成的整个业务流程所依赖的业务应用、服务器、中间件、数据库、操作系统等进行实时监控分析,通过可视化的方式呈现业务健康状况,联动设备监控,快速定位导致业务健康指数波动的原因,保障核心业务流程稳定、高效。

    2.14.全网带宽、流量监控与回溯分析

            方案基于海量流量数据的存储挖掘,实现对网络流量的侦测分析。通过网络流量分析技术,采集、分析、存储所有网络流量,回溯分析数据包特征、异常网络行为,以多维数据分析和深度挖掘为手段,实现数据包层面的流量追踪,发现潜伏于网络中的未知攻击。


            提供设备、接口、IP、服务、应用、会话等层级的带宽监控,实时监控带宽使用趋势与带宽占用分布,并通过图表展示,快速识别网络带宽滥用,分析高带宽使用情况,识别带宽消耗较大的应用程序、服务、协议或 IP 地址,避免网络容量过载,并提升更终用户网络体验。

    2.15.无人值守的设备远程配置

            网络承载的业务经常发生变更,面对业务的变更运维工程师往往要对大量设备进行操作,此时如果依靠工程师逐一登录设备进行命令下发、策略配置,将产生大量重复性的工作,不但导致运维效率低下,也不可避免地产生人为配置错误。


            通过批量作业并行处理能力,实现多设备并发批处理操作。通过自动化流程,将简单的设备控制操作在大批量设备进行执行,并对执行过程进行监督,对执行结果进行检查。在安全合规的前提下,将运维人员从整体的变更流程及变更内容的准备中解脱出来,实现网络变更、设备配置自动化。

    针对不同类型的设备,支持进行各种控制、配置操作。

    • 对服务器/主机/虚拟化,支持一键开关机、进程管理、应用管理、容量管理等
    • 对交换机/路由器,支持ACL、QoS、流量策略、端口策略等
    • 对安全设备,支持防护管理、认证管理、NAT管理、VPN管理、内容控制等
    • 对数据库/中间件,支持空间管理、池管理、会话管理、连接控制等
    • 对传输设备,支持终端管理、链路管理、信号控制、功率配置等
    • 对其他设备,支持结合用户实际场景,通过拖拽流程的方式实现自定义管控策略

            支持不同厂商,如Cisco、HP、Nortel、Juniper、3Com、D-link、Foundry、Dell、Proxim、NetScreen、华为、H3C、锐捷、中兴等多家厂商的网络设备。

    2.16.全场景自动化运维

            方案将电信运营商网络运维中涉及的服务、命令、操作、执行组件化、策略化,将需要进行的运维服务、操作等以组件、策略的形式托管至平台中进行维护和管理,通过简单灵活地编排能力,使用者可以选择业务场景所需地测,通过可视化拖拽的编排方式进行组合,即可完成应用场景端到端的图形化编排,最后以多种方式触发执行即可完成期望的运维变更任务,从而实现高效、稳定、安全的智能运维。

    2.17.可视化数据分析

            利用图形、图表、图表等易于理解的形式,提取和分析大量复杂的电信运营商网络中各类运维数据,呈现分析结果,从而帮助运维人员在短时间内更好地理解和获得更多的信息,帮助运维部门能够实时了解业务和其所依赖IT资源的运行状况,以及提供系统运维和优化的指示和依据。

            适配各种应用场景,二十四小时不间断监控,细粒度可达网络中每个设备、资源和链路。所有的网络故障都一目了然地呈现,大大降低了管理成本,同时也提高了运维人员处理故障的能力,节省的故障处理时间,为运维人员管理网络提供了可靠的保证。

    运营商大屏示意图2.18.快速建设运维工单体系

            通过方案实现运维工单“无纸化”,支持于设备和故障管理页面快速创建工单,把控故障处理进度,通过工单平台简化故障处理流程,形成自动化故障处理机制,并在每个处理流程的节点上责任到人,实现在快速响应故障的同时,实现兼顾运维流程管控。

    业务工单示意图

            结合电信运营商开户、销户、彩铃、如装机、 拆机、 加三方通话、减增新业务等业务需求场景,自定义工单模板内的字段,并对字段排序进行调整,使工单根据业务的不同更加贴合用户实际使用情况,提供为不同工单模板设置不同状态的能力。

    第3章 自主研发安全可控 适配国产信创环境

            信创产业包含了从IT底层的基础软硬件到上层应用软件的全产业链的安全可控,涵盖了应用软件、信息安全、IT基础设置、基础软件四个领域。其中,基础软件是信息系统更核心的部件,是保障信息系统安全的重要阵地和防线,其创新应用与自主可控关系到国家安全和利益,也是产业自主发展的基础。


            本方案支持部署运行在中标麒麟、银河麒麟、红旗Linux等国产操作系统,支持在达梦、金仓、神州等国产数据库进行数据存储,通过东方通等国产中间件提供对外服务[8],支持龙芯、申威等国产CPU架构,并实现对国产化CPU、服务器、数据库、中间件等IT软硬件设备的综合监控与运维管理。

    第4章 方案应用价值

            通过部署智和信通电信运营商IT运维方案,构建了自动、自优、自愈、自治的智能运维模式,助力运营商达到统一标准、统一运营、统一管控、统一规划管理。

            实现对所有IT设施不同层次、不同维度的拓扑可视化及性能指标智能分析;建立面向宿主机、虚拟机、容器、5G网元的多维度网络监测视图,通过跨硬件层、虚拟层、网元层的统一可视化监控运维能力,降低各技术专业运维难度;实现跨层的可视化,解决了故障快速定界、定责的难题,快速定位故障源,提升排障时效。

    第5章 标杆案例

            智和信通电信运营商IT运维方案成果,其可靠性在电信运营商大规模、高复杂的网环境下得到了验证,并得到用户的充分认可。

    5.1.中国移动集中统一运维

    5.1.1.项目背景

            中国移动是我国三大移动运营商之一,公司主要经营移动通信业务,国内、国际固定电话网络与设施,语音、数据、图像及多媒体通信与信息服务,电信增值业务,IP电话业务等国家批准的其他业务,以及与通信及信息业务相关的系统集成等业务。

            2010年中国移动通信集团在全国建设了不良信息过滤系统,此系统由不良信息过滤软件、Windows 服务器、Linux 服务器、数据库、分流设备、交换机、存储服务器等构成。

    5.1.2.核心需求

            中国移动需要一套集中的OMC(操作维护中心)监控软件,对不良信息过滤系统的所有的设施进行监控,包括过滤软件、Windows 服务器、Linux 服务器、数据库、分流设备、交换机、存储服务器等。具体需求如下:

    • 集中部署OMC,分域管理:各省市管理人员从Internet登录到OMC系统,对本省的设备进行监控;
    • 穿透私网:要管理的设备分散在各省公司下不同城市的机房中, 网管服务器无法直接访问各省设备;在北京的中心机房,可以监控到其他机房的设备运行情况;
    • 严格的故障处理机制:故障发生、故障通知、故障清除、故障确认、故障恢复,需要符合中国移动的运维管理规定;
    • 时效性要高:发现故障的时间,平均不能低于30秒,更大不能过1分钟;每台设备 10—20个需要监控的故障/性能指标,监控周期为10秒钟;
    • 统一监控:所有的服务器、网络设备、软件系统在同一界面中统一监控;
    • 7*24 小时的监控画面:主监控屏幕需要7*24小时不间断展示告警和警报。

    5.1.3.智和信通解决方案

            智和网管平台已实现包括设备拓扑、故障管理、性能管理、配置管理以及安全管理等在内的过1000种基础网管功能,且支持功能扩展。针对中国移动的具体需求,智和信通提出以下解决方案:

    • 智和网管平台利用WebService技术采用集中式部署运维平台,分布式部署的网管采集代理,实现中心、片区的层级监测,片区独立运行,中心可以集中管理分部的监测数据;
    • 配置代理服务器的IP和端口,做到采集服务端的代理模式,可以做到监控私有网段下的设备;
    • 具备主动的故障监控功能,能从众多的事件和状态中,系统将零散的状态信息,总结成为当前工作状态,并产生告警,可以用声音、邮件、短信及时提醒网管人员;
    • 采用JAVA多线程任务并发技术,把监测频率提升到秒级,以保证监测数据的实时性和准确性,监控周期更低可以设置为5秒;
    • 智和网管平台采用了设备统一模型,可以统一管理Windows 服务器、Linux 服务器、数据库、分流设备、交换机等各种设备类型;
    • 客户端与服务端之间网络故障恢复后,网管客户端无需重启,自动恢复,数据库停机/故障恢复后,网管系统客户端、服务端无需重启,自动恢复,支持双机热备功能。

    5.1.4.方案成果

            智和运维平台凭借着优秀的秒级故障监控能力、直观的拓扑图界面展示、特有的分省Proxy SNMP网关技术、稳固的故障提示和警报提示,更终在中国移动不良信息过滤系统的北方区域:北京、天津、黑龙江、吉林、辽宁、山东、山西、甘肃、青海、西藏、河南、宁夏共13个省公司 上线使用,并通过了更为严格的功能验收和性能验收。

    按地域划分管理网络

    5.2.北京联通IPTV网络运维

    5.2.1.项目背景

            中国联通是我国三大移动运营商之一,公司主要经营移动通信业务,国内、国际固定电话网络与设施,语音、数据、图像及多媒体通信与信息服务,电信增值业务,IP电话业务等国家批准的其他业务,以及与通信及信息业务相关的系统集成等业务。

            IPTV业务管理平台提供统一业务监控模块,实现对华为能力平台(华为S9306、S5352、S930、华为E1000防火墙)、中兴能力平台(中兴2826、4507、8905交换机)、播控网关、IPTV盒端管理平台、IPTV业务管理平台等平台的统一业务监控,监控内容包括网络、主机、存储、应用、业务数据等。

    5.2.2.核心需求

            更终用户IPTV统一网管负责对IPTV系统涉及的所有网元(包括服务器、交换机、防火墙、存储设备)及系统和应用的故障告警、日志、性能、拓扑、历史数据(保留一年的历史数据)等信息进行集中管理和展现,并能够按时、日、月进行统计和输出报表。

    网元数据要求

            对于网络中的节点要求获取的信息包括但不局限于设备基本信息(IP、类型、名称等)、设备网卡、网卡流量、CPU内存、CDN信息、存储信息、设备性能等参数。

    故障告警的要求

            提供多种告警通知(声音、短信、邮件等),多种告警分类,登录失败应产生告警通知管理员,告警阈值可调节,可以分权分区域进行告警。

    日志管理的要求

            除了记录基本的操作外,系统中的各设备都需要建立自己的日志文件,定期传递给系统的日志管理,进行集中收集、分析和故障告警。

    性能管理的要求

            实时监控设备和网络的状态,获取有关CDN 网络运行的信息及统计数据;并能在所收集的数据的基础上,提供网络的性能统计。

    集中展现管理

            对所管理区域CDN 及EPG全网设备提供网络拓扑结构,提供分级的网络拓扑图像及其相关信息,并根据实际运行情况展现维护和管理网络资源,包括各网元设备。支持资源的查询以及统计功能,并且可以实现资源的自动更新。

    5.2.3.智和信通解决方案

            针对北京联通IPTV项目的实际需求,智和信通提出了基于智和网管平台定制开发的解决方案。通过开发扩展,让智和网管平台支持各平台通过SNMP、SNMP Trap、FTP、WebServer等协议接口方式进行数据上报的采集监控的采集方式,使平台监控模块可直接采集被监控设备信息。

    • 支持SSH协议监控主机、CLI、SMI协议监控存储,JDBC协议监控数据库、HTTP/JMX协议监控中间件;
    • 通过SNMP协议,自动发现设备上的资源,如网络接口、内存、CPU与磁盘等信息,通过TCP可以发现设备上存在的软件服务;
    • 平台通过SNMP 、SNMP Trap、FTP、WebServer等协议接口方式进行数据上报,平台监控模块直接采集被监控设备信息; 
    • 智和网管平台具备主动的故障监控功能,能从众多的事件和状态中,系统将零散的状态信息,总结成为当前工作状态,并产生告警,可以用声音、邮件、短信及时提醒网管人员;
    • 提供了多项已定义好的数据对象,用于从设备上采集系统信息、网络信息、交换信息、软件信息、磁盘CPU资源、流量信息,可以通过曲线图、趋势图等展示性能指标,可以按天、星期、月 、任意时间段查看性能指标变化。

    5.2.4.方案成果

            联通IPTV网管部署上线后,管理员可以通过IPTV网管对网络下的所有网元设备(包括服务器、交换机、防火墙、存储设备)及系统和应用的故障告警、日志、性能、拓扑、历史数据等信息进行集中管理和展现,并能够按时、日、月进行统计和输出报表,方便了管理员对系统的管理,提高了管理的效率。