当前位置:首页 > 资讯 > 正文

益弘学院排行:企业如何拥抱智能运维

益弘学院排行是什么?益弘学院排行在哪里看?益弘学院排行怎么样?美国太平洋时间12月14日凌晨3点47分左右,谷歌突然遭遇全球大面积故障,导致旗下的YouTube、Gmail、Google Drive、Google Search等服务出现异常,用户无法正常使用,全球多个国家及地区用户均受到影响。直到当地时间早上8点左右,谷歌的大多数服务才恢复正常。

益弘学院排行:企业如何拥抱智能运维  第1张

这已经是谷歌5个月内第三次“掉链子”了。今年8月20日,谷歌旗下多项服务出现异常,涉及美国、印度、日本等多个地区,官方抢修5小时后才恢复正常;今年9月25日,谷歌系统瘫痪多半集中在美国东岸Gmail、YouTube、Google云端在系统死机时,不断有用户持续尝试进入,但都无法顺利使用。

调查显示,随着全球数据规模的爆炸式增长,企业数据中心的故障中,与存储设备有关的故障占到70%以上。尤其在新技术和新应用层出不穷的今天,运维工作日趋复杂。传统运维高度依赖人的经验,如何借助AI等技术的应用,实现智能运维已经成为行业发展的大势所趋。

谷歌自动配额管理系统出现问题无疑给智能运维提出了更高要求,企业必须选择更先进的存储容量预测和管理解决方案,以应对在智能运维上可能遇到的风险。为此,华为存储也在逐步构建起面向智能运维的AI能力,围绕客户关心的设备异常、容量预警等关键场景,逐步发布多个重量级AI特性,为客户业务的正常运行保驾护航。

DME(Data Management Engine,数据管理引擎DME)是华为数据基础设施智能运维平台,该平台通过与存储设备内置的设备AI以及云端AI(eService)实现三层AI协同,并通过融合统一的管理界面、自动化的闭环机制以及开放的API、旨在使能数据存储的“规划、建设、运维、优化”全生命周期场景的管理与运维自动化,帮助客户简化存储管理,提升数据中心的运营效率。

在容量预测方面,如果客户能够提前预知存储设备或存储池,甚至是更细粒度对象的容量变化趋势,那么容量配额不足导致服务宕机的发生可能性则会大大降低。华为提供的云上+本地联动运维能力,基于时序预测等关键技术,能够向客户提供未来最长365天的容量趋势预测,并能够提前预警80%配额,提醒用户提前扩容。

在风险盘预测方面,华为硬盘异常检测模型服务依托华为自身在硬件领域的技术及经验积累,基于S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)等硬盘关键数据信息构建机器学习模型,每日采集数据中心硬盘数据(硬盘ID、SN、硬盘非安全断电次数、通电时长),从历史数据中识别硬盘不同属性的突变模式对当前状态进行预测,结合用户反馈数据,定期执行模型自优化,持续提升预测精度,可以为数据中心硬盘提供主动运维。截至目前,华为硬盘异常检测模型服务已经覆盖200多家企业数据中心,可帮助客户提前14天识别硬盘故障或风险,其中查全率达80%,误报率低于0.1%。

在存储性能异常预测管理方面,华为可以围绕存储性能相关问题提供全面分析处理方案。其中,基于时间序列预测等关键技术的性能预测特性以及基于阈值触发的性能潮汐预警,能够让客户预知设备关键性能指标变化趋势,如时延、IOPS、块带宽等,从而提早发现设备性能瓶颈点,辅助客户尽早规避可能发生的异常。

基于机器学习的关键性能KPI异常检测及根因定界特性,无监督自学习的异常检测模型能够实时检测设备时延是否异常,现网数据验证,异常检测准确率近90%;存储设备内置基于多集成树算法融合模型,外加皮尔逊相关性关联分析算法,实现异常根因的定界分析,基于现网数据的验证结果,根因定界Top3命中准确率近83%,提升客户发现性能问题、定位问题边界的效率。

未来,华为存储将基于领先的三层AI架构,通过与客户的联合创新,逐步推动产业迈向数据基础设施的“自动驾驶”时代,实现异常场景的快速自愈等L3级特性,不断降低客户运维门槛和运维成本,实时保障客户业务不受干扰。

(本文章来源网络转载,文中涉及图片等内容如有侵权,请联系编辑删除。市场有风险,选择需谨慎!此文不作买卖及投资依据。)