北京农商银行:基于海量应用日志交易故障的快速定位实践

2024-09-11 阅读1887

数字化转型浪潮下,金融行业交易系统日益复杂,海量数据信息成为运维人员的挑战。如何从海量应用日志中快速、准确地定位交易故障,已成为提升金融系统稳定性和服务效率的关键课题。

 

鑫知课堂邀请到北京农商银行运行维护中心智能运维建设负责人孙嘉良老师,为我们带来课题为“基于海量应用日志交易故障的快速定位实践”的主题分享。

 

图片

点击观看回放

 

传统的运维方式,依赖人工经验和固定规则,难以应对海量数据和复杂系统,导致故障发现滞后、定位困难、处理效率低下等问题。随着人工智能和大数据技术的快速发展,AIops(智能运维)应运而生,为金融行业带来了新的机遇。

 

智能运维是通过引入大数据和人工智能技术从海量的运维数据中学习和总结规律,进行智能分析和决策,提升系统可用性,降低运维成本,提高运维效率。随着数字化转型、金融科技的发展、一些相关政策的出台以及导向,金融同业在智能运维领域不断保持着高度的重视,并且以比较迅猛的速度在发展。

 

智能运维的建设离不开大数据技术和海量运维数据的采集,基于此北京农商银行于2021年建设了运维大数据平台并运行至今。“上”有应用场景为业务赋能的目标逐层实现;“中”对于算法进行了全面的优化与适配,通过智能时序算法判断运维指标异常故障,提升告警效率;“下”以海量运维数据做支撑,规范日志标准,交易流水等基础数据,以全局视角观测核心IT业务系统的健康状态,以业务形态对象生成链路拓扑,对业务指标实时监控,动态展现,快速定位链路中故障,辅助汇总链路错误信息,定位根因业务系统告警。

 

图片

 

本项目是依托于运维大数据平台的数据采集分析能力进行的智能运维场景的创新建设,主要分为两个场景。

 

一是通过引入先进的时序算法,对运维数据提取到的比较重要的业务交易和运行指标如交易量、交易耗时、成功率等进行机器学习,从而实现故障的主动发现。

 

图片

指标性能监控面临的6大突破

 

为解决以上需要突破的六大问题,通过逐步的建设,我们引入了多种异常检测的算法。为应对高峰期带来挑战,我们也实现了百万级指标的实时检测。实时更新算法模型及参数。并且通过动静结合的方式,以动态阈值结合固定阈值的方式进行实时监控,达到故障的主动发现。

 

二是对交易日志串联的进一步改造,实现全行交易链路的自动生成。通过我们自研的算法去消费链路拓扑的数据,结合平台的告警数据,去实现告警的更新推荐,快速辅助排障。提升整个故障分析的决策效率,实现整个智能运维体系建设的目标。

 

运维大数据平台在建设后其实是具备交易串联的能力的,但是它的能力主要还是依托于人工自定义,那么就会引来三个比较大的困难。

 

图片

 

北京农商银行的应用服务网关系统,作为承载约99%以上的交易总线,通过推进网关系统对交易码注册表改造,新增详细的链路调用信息,通过批量的方式,每天定时同步到运维大数据平台供大数据消费分析。通过定时批量获取网关系统交易调用关系表,和基于日志智能拓朴系统间直连交易链路,自动化生成全行业务交易链路,实现全链路交易串联。联动告警平台产生的实时告警数据,通过定时任务消费全链路关系数据,智能判断、定位问题系统,生成推荐告警,并将并发的干扰告警归类。

 

该项目场景一的建设,实现各类业务运行指标监控如交易量、失败率、交易耗时等,协助生产运维事前发现风险隐患。场景二的建设实现了应用交易全链路自动生成,解决了运维人员难以梳理、维护交易链路的问题,在快速配置后,可在平台快速查看单笔交易在我行系统的走向、交易日志及各系统指标状态。统一监控告警平台,在链路自动生成的基础上,通过自研算法,生成业务系统的推荐跟因告警,系统根据已经生成的上万条链路,自动查询检、判断每条告警的原始告警,快速定位到具体系统,对故障系统单独生成推荐告警,同时将已经生成的多条告警进行归类,为一线排查人员排除干扰项,加快了事件的快速定位、分析及解决的进度,提升了运维效率

 

图片

 

整个项目是智能运维的一些场景建设,最终的愿景是通过结合我们各个场景,打造具有农商行特色的智能运维体系。

 

提高运维建设效率

各运维场景自动化及智能化的建设与实施,使得操作执行效率大大提升,操作完成时间得到保证。一键升级发布,大幅减少操作时间,降低手工升级误操作风险;灾备切换场景探索有效提高应用系统RTO和RPO水平;应急处置场景探索提高了应急效率,管控操作风险。

 

运维从被动到主动

 

通过智能预警,运维人员对生产系统的运维模式由被动式故障抢修转变为主动式故障预判。对通过运维大数据平台发现的生产异常预警指标或者系统,相关运维人员可以提前介入进行重点监控问题定位和故障排查,主动应对可能发生的生产事件,提高可生产系统的可用性。

 

运维的场景化体系化

 

建设统一的运维入口,避免工具割裂化的竖井管理,形成面向各位运维群体的标准化、可视化、服务化的操作平台,实现运维工具的流转和共享,让运维工作持续的模板化、服务化,将长期积累的经验和知识落地,形成运维生态化的发展体系,从而利于智能化场景的进一步扩大,提升数据中心服务质量和服务效率。

 

运维多领域深化赋能

 

将运维人力从低水平、重复性劳动中释放出来,将其知识和技能应用于更有价值的工作和任务上,沉淀运维经验,形成知识库,提升系统可靠性,提高运维人员工作价值,打造智慧型运维专家团队;除了传统的质量、效率类场景,为运维管理、安全管控等领域进行赋能也同样是智能化运维发展的重要方向。

 

总而言之,AIops技术为金融行业带来了新的机遇,将推动运维模式的变革,提升金融系统的稳定性和服务效率,为客户带来更好的体验。

本站所载课程视频等内容产品的版权归鑫知教育所有。未经授权,任何单位或个人不得擅自进行转载或用于商业目的。如有版权合作需求,请与公司联系。如有违者,公司将依法追究侵权者的法律责任。

关键词