jk708.com中山一院:新一代的智慧医院建设以流量分析为抓手提升

发布日期:2021-06-15 14:50   来源:未知   阅读:

  jk708.com中山大学附属第一医院,简称中山一院,位于广州市,始建于1910年,2019年中国医院排行榜发布,中山一院位居第六。

  作为一家现代化大型三甲医院,中山一院在信息化系统的建设上是较为全面的,基于HIE的可扩展基础架构建立了包括HIS、EMR、HRP、LIS、 PACS等应用的信息化管控体系。虽然信息中心投入了很大精力在IT系统的建设和基础架构的维护上,但还是会出现系统运行缓慢,用户体验感不佳等问题。由于医疗行业的业务特殊性,对系统的连续性和使用效率要求非常高,因此急需建设一套完善的网络流量监控分析系统。

  2020年,中山一院采用了新的智能流量分析平台,实现了网络质量和应用系统性能的实时监测,并实现了快速故障分析能力。本次IB资讯记者王永智采访了中山一院信息中心技术负责人刘翰腾,请他分享中山一院从流量角度实现稳定运维,提升用户体验的最佳实践。

  刘翰腾:医院信息系统,尤其是核心系统,都是7×24小时全年都不能停机的,最大的停机时间窗只有半小时左右,否则就会影响患者排队就医。这种行业特性,就需要网络运维能够快速定位故障,及时排查。业务的特殊性决定了对网络运维的要求,对连续性的保障程度要求是比较高的。因此,在网络监控工具的选择上,我们要求工具对信息系统传递的及时性,跟流程驱动的准确性,这是和其它行业有差异的地方。

  刘翰腾:医院的智能运维常规还是以软件运维优先的,但软件运维它又需要载体,就是硬件跟网络要有比较强的支撑。我们现在感觉智能运维这一块之所以难做的原因,就是软件跟硬件之间的衔接度不高,各种不同的系统各自独立,导致后面其它系统取数据的时候,底层资源的关联性较差,这种情况会导致后续的很多故障定位的问题,比如经常会出现整体资源够用,但是局部慢的情况。出现问题时,软硬件维护人员之间会互相推诿,没有快速定位的方法的话就会责任界定不清。

  刘翰腾:我们的用户分为终端内的用户、开发运维的用户以及患者,也就是前端互联网的用户。终端就是我们的医生、护士跟管理人员。我们内网大约有3000台左右的终端,医生站、护士站、收费处、取药处、自助机,这些我们都定位为内网的医疗业务终端;我们还有2000个左右的办公终端,就是上互联网做一些沟通协调的用途;开发运维工程师的电脑目前的规模有两三百台。患者、前端互联网用户的数量,我们是按门诊量去估算的,每天规模大概在15,000左右。

  刘翰腾:作为运维团队我们希望了解对于终端我们开放了哪些网络端口,哪些端口允许连入我们的网络;服务器开多少台,提供什么系统程序;开了哪些数据库,多少个服务端口等等,这些流程要有一个从发布到批准到后面上线的审核过程,也要有配套的监测运维的机制。我们会做一些日志审计,以及对于流量和数据库的操作行为审计。然后对这些审计的结果,建立巡检,把运作过程中的问题通过巡检发现出来,最后建立事件响应流程,有需要的话采取运维干预的措施,这是日常供给侧的。

  还有一侧是故障侧。前端业务是连续在用的,比如有医生、护士或者病人在使用,那么前端在使用的时候我们后台就会建立服务台的故障处理流程,比如去判断前端事故的类型,能够快速定位故障的话,就可以尽量缩窄故障的影响面。所以关于故障的定位的时效性跟准确性是比较头疼的问题,是希望找各种工具来完善的。

  我们这次采用的是智维数据的nCompass可视化智能流量监控平台。其实我们在采用现在这套工具之前,我们也上了很多运维监测类的其他工具,有关于主机性能的,数据库性能的,还有整个机房的环控这些,但是问题在于每个环节都是一个独立诊断模型,碰到一个跨系统的故障的时候,我们就需要运维团队的每个人都把自己负责的系统状态报一下,故障出在哪里只能凭团队的运维经验去猜测,导致我们的诊断机制跟定位的精度都不是太高,想要缩窄对业务的影响面那就更难了。

  刘翰腾:nCompass可视化智能流量监控平台(以下简称nCompass)就像保卫部安防监控的总控室,它可以知道医院整体的各个服务环节之间的通讯过程,知道谁找谁的时候变化量是多少,性能延迟是多大,流量有多高。各个环节之间的通讯流量回溯的时候,可以为定位诊断故障的原因提供一个更好的视角。从整体到局部的故障定位会加速很多,提高了人效和准确性。

  刘翰腾:我们影像有两类典型用户,一类是放射科的医生,因为他要根据检查的影像写报告,如果他的诊断报告没出来,那么外科比如需要做一些手术干预前,要等这些意见的时候,就会降低临床的工作效率了。另外一类用户是其他科室的医生,他可能也会自己直接去看影像结果,比如说门诊的医生,他要对病人的病情做评估,去做一些门诊处方的判定等,如果这个影像慢,也会直接影响到门诊病人流量的周转,就会导致门诊排队。还有我们正在开发的第三个业务,就是“云胶片”。以后可能会允许病人在手机端直接打开影像,病人可以拿这个影像给第三方的医生看。如果这个体验不好,那么其他医生在会诊时可能就会觉得这个资料我不看了,我就看其它的,这个对医疗质量的全面性就会有影响了。现在有了nCompass以后,就能精准定位到全景影像打开慢到底是哪里出了问题,知道该如何去优化。

  比如去年12月28日下午四点半左右很多用户反馈访问“全景影像系统”时出现页面打不开无法访问的情况。经过nCompass可以看到一些指标异常的情况,初步怀疑是F5负载节点出现了问题。

  通过HTTP分析模板和数据包验证,可以得到分析结论,是由于扫描漏洞设备的瞬间大量访问,触发了F5安全保护机制,导致部分正常的业务访问也无法进行,从而引发此次故障。那么我们就很快进行了针对性处理,使全景影像系统恢复了正常打开。

  刘翰腾:还有比如我们门诊的叫号系统,医生也经常反映说叫号很慢,但是又不是全部科室的叫号慢,可能只是某个科室慢。这种情况下独立看每一台服务器的性能都正常,但是通过nCompass就可以发现,原来服务器在调用某个科室时它的调用表的逻辑是有问题的。通过nCompass的模型可以细致定位出某个功能函数的入参有问题,这一点已经有很大的启发性了。

  刘翰腾:之前由于只是对设备的可用性进行监控,缺少应用可用性方面的监控,很多时候出现投诉时,很难找到问题所在。例如,门诊医生投诉访问电子病历慢,之前的工具只能对设备的可用性进行监控及排查,没有办法快速有效地评估客户的使用体验,判断具体是访问哪个URL慢,调用哪个参数以及查询的哪个数据库语句是有延迟的,无法对用户访问进行全程的跟踪。包括电子申请单,以前也是经常被门诊医生投诉,等待电子申请单弹出的时间太长了,导致医生门诊的效率变低,患者体验不好。

  现在我们也是通过这种流量模型来看,通过应用的端到端视图展现业务系统各节点的访问关系以及运行状态,可以做到实时监控,而且视图中的数据支持灵活的编辑、深度钻取等功能,可以进行业务逻辑梳理,形成各业务系统的端到端可视化监控。当故障发生时可通过指标颜色以及数值的变化快速锁定故障节点。这样就可以帮助我们运维人员很快找到到底是谁的通讯过程是有问题的。

  刘翰腾:去年我院获得“2020全国智慧医院建设优秀案例”授牌。这也是对我院坚持信息技术创新,提升服务能力的阶段性成果给予了充分肯定。作为医院的技术支持部门,信息中心一直以用户体验为核心,并积极探索优化医院IT资产管理效率的最佳实践路径。

  目前在智能监控方面我们已经基本实现了精准告警,那么在未来的运维建设上,我们还有一些目标想要实现,比如在应用的可用性监测方面,使用智能基线跟踪生产侧的变化过程,基于AI算法及产品内置的故障分析逻辑,实现告警事件自动化智能分析,提升故障的响应效率。而在性能侧方面通过深层次的隐患巡检分析,能帮我们及时发现业务系统运行中的隐患问题,规避严重故障的发生。在安全侧则想要建立及时预警的机制,比如基于网络流量和防火墙配置,监控防火墙实时状态,实现策略优化、合规检查和策略变更分析等。

  这些都是我们下一步想通过nCompass平台实现的技术能力,相信结合这些先进的技术能力,会进一步提升前端用户体验,提升我院的综合服务能力。开奖直播白鹿原影视城滑雪场