Get腾讯云服务器智能故障诊断“秘籍”

通联网络是国内著名的虚拟主机和域名注册提供商。独创的第6代虚拟主机管理系统,拥有在线数据恢复、Isapi自定义,木马查杀等30余项功能.千M硬件防火墙,为您保驾护航!双线虚拟主机确保南北畅通无阻!

Get腾讯云服务器智能故障诊断“秘籍”

2022年6月14日 虚拟主机 0

北京时间2021年7月27日,由OCP社区主办,浪潮承办的第三届OCPChina Day2021在北京举行,来自Intel、浪潮、腾讯、百度、阿里、西部数据、希捷、燧原科技等23家知名公司的技术专家,带来50余场报告,分享开放计算在数据中心基础设施领域的创新成果,在人工智能、边缘计算等新兴技术领域的探索和应用。本次大会,腾讯云与浪潮联合发布了《数据中心服务器智能故障诊断TIFDS(Tencent& Inspur Fault Diagnosis System)系统技术白皮书》,对破解大规模数据中心运维“痼疾”具有重要价值。

当数字化大潮浩浩汤汤而来,视频、金融、教育、医疗……,各个行业正在快速上云。随着互联网企业的崛起,云计算等新兴技术的快速应用,伴随而来在全球范围内兴起了建设大规模数据中心的热潮。云计算的快速扩张带来了数据中心服务器数量的爆发式增长,随之而来的服务器运维管理复杂度和难度也越来越大,而传统的海量服务器故障运营面临着更大的挑战和更高昂的成本,从最初的脚本运维、工具运维到平台运维演进至今,人力已接近极限,越来越无法满足快速修复故障和恢复业务运行的要求。

举个例子,当数据中心的服务器出现故障后,传统的解决方法是数据中心现场的服务器厂商工程师前往现场把故障服务器下架。然后再把故障服务器的数据读取出来,现场先进行初步分析并汇报给厂商的研发部门,后方再进行分析,整个流程耗时非常长,不利于终端业务的快速恢复。

为了解决当下数据中心海量服务器运维的难题,腾讯云联合浪潮在第三届OCPChina Day 2021上发布了《数据中心服务器智能故障诊断TIFDS(Tencent& Inspur Fault DiagnosisSystem)系统技术白皮书》,白皮书详细解读了当前大规模数据中心运维面临的挑战,阐述了腾讯云与浪潮联合研发的TIFDS系统架构,为大规模数据中心提升服务器运维效率,保障数据中心稳定运行提供重要参考。

TIFDS是服务器健康监管技术及故障预警诊断技术的总称,旨在实现运维工作由人工离线分析向自动智能在线识别的方向发展,建立一套以带外BMC为中心的故障诊断系统。TIFDS系统具有风险实时预警,故障精准诊断和日志定制化透明安全等特点,对提升大规模数据中心运维效率具有重要意义。

风险实时预警:该系统基于腾讯云现网运行的百万台服务器运维经验,结合AI智能算法,可对非宕机类故障进行实时预警,降低服务器高负荷运行下突然失效的风险。

故障精准诊断:浪潮构建专家经验库,将故障自动明确化率提升至95%以上,远高于业界平均标准,秒级告警,精准反馈故障触发源,提升运维效率。

日志定制化透明安全:创新性的按照腾讯云需求联合定制日志输出上报方式,使诊断过程清晰透明,并对疑难问题进行识别,建立了线上联合诊断系统,不断提升系统运维效率。

为了实现TIFDS系统技术白皮书中的内容,腾讯云联合浪潮做出了巨大的努力。腾讯云星星海实验室研发副总监刘超表示,“浪潮作为国内服务器厂商,无论从研发能力还是生产能力、市场影响来说,都是腾讯云最好的选择之一。双方在合作过程中有许多互补之处,腾讯云也能通过浪潮研发全栈服务器的能力中,获得自己所需要的产品端形态和新技术。通过从客户在应用方面的理解,结合浪潮的研发能力,才能创造出TIFDS系统。”

想要让TIFDS系统实现其功能,首先需要构建故障诊断计算模型,模型的构建初期,腾讯云将海量的

发表评论

您的电子邮箱地址不会被公开。