添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

人工智能时代,生成式AI如潮水般涌入人们生活和工作的各个角落,从AI对话到文生视频,从AI办公到智能客服,其应用层出不穷。AI正在重塑互联网,与此同时,AI行业智能化的发展,也在呈现出从免费到付费,从个人到企业,从基础到关键的三大变化。AI带来了前所未有的便利和创新,同时也带来了一系列备受关注的挑战。

在数字化浪潮的推动下,AI技术的快速发展,尤其是生成式AI和大模型的应用,为互联网带来了新的机遇和挑战。《智见·指挥官》栏目邀请到华为公司副总裁、ISP与互联网系统部总裁岳坤,快手科技网络中心总经理刘洋,金山办公AI研发总监刘强以及科技KOL黄海峰,共同探讨AI服务的可靠性和原生创新在互联网行业中的应用。

"提升智能韧性,加速原生创新"访谈专场现场合影
(从左至右:主持人、快手刘洋、金山刘强、华为岳坤、KOL黄海峰)

AI服务的可靠性:企业级应用的关键需求

随着生成式AI在各个领域的深入应用,其可靠性问题日益凸显。尤其是对于企业级AI服务,如办公、广告、客服等,可靠性更是至关重要。

刘洋表示,快手致力于打造值得信任的温暖线上社区,构建高效精准的推荐系统。生成式AI会嵌入到每一个业务系统里面,其可靠性不能低于原有云服务的可靠性,AI应该充分发挥长板效应。例如,快手自研的“可灵”视频生成大模型上线后,在内容生产、广告素材生成和数字人直播等方面发挥了重要作用,但同时AI作为生产工具,用户对其可靠性也提出了更高的要求。

刘强认为,在办公软件中AI的可靠性至关重要。以Excel表格中的公式为例,以前用户需专门学习复杂公式才能处理表格数据,而在生成式AI时代,用户只需用自然语言描述问题,大模型就能生成相应公式处理数据并得出结果。然而,一旦用户养成了使用AI的习惯,对其可靠性的要求就会变得更高,因为任何故障都可能导致工作效率的下降。因此,AI服务的可靠性需要达到电信级甚至更高的水平。

岳坤从To C和To B领域的角度分析了对AI可靠性的要求。在To C领域,运营商业务通常按照五个九的可靠性来设计,以确保用户在关键时刻的通信需求。在To B领域,如港口、铁路和金融证券等行业,对可靠性的要求甚至更高。因此,互联网公司若想在智能化时代拓展To C智能化业务和To B智能化场景,就必须提升可靠性。

此外,黄海峰提到,作为快手、WPS和华为的用户,AI的出现为大家带来了很多的便利性与趣味性,但使用体验感的背后,需要更高可靠性的支撑。例如快手的AI生成、WPS的AI校对等。当越来越多的企业引入AI,不仅需要提升AI的使用体验,也要考虑其安全性和可靠性。

ICT基础设施:提升AI可靠性的关键支撑

AI服务的可靠性离不开ICT基础设施的支持。ICT基础设施包括互联网公司的数据中心基础设施、数据中心互联网络、运营商和ISP提供的有线和无线宽带接入服务等。为了提升ICT基础设施的可靠性,保障AI更好地服务,各方专家提出了不同的观点。

刘洋指出,大模型高度依赖ICT基础设施,包括网络、服务器及系统软件等。因为其训练要求高,涉及To B和To C推理应用,成本高昂。从投资角度而言,想要发挥硬件建设的集群效应,就要保证系统的高可靠性,基础设施需具备高可用性,如4-5个9级别。与此同时,还要求系统具备强大的软硬件能力、修复能力,以应对复杂需求。

刘强提到,AI训练集群是串行,意味着单点故障发生后,系统需要停下来等故障排除。生成式AI背后的多个支撑服务,如存储优化、数据库、大数据分析和安全服务等。在WPS与昇腾大模型的训练推理实践中,建立了完整的容错体系,包括对集群异常、NPU故障、网络故障等方面的处理措施,以构建高可用训推训练集群。集群可用性每提升1个百分点,可节省上百万投资。

岳坤指出,所谓“4个9”“5个9”和“6个9”标准,即系统可靠性的百分比。系统可靠性的百分比越高,则系统中断时间越短,代表系统越可靠。选择何种标准取决于业务需求和客户容忍度,办公系统通常4个9已足够,但关键业务需更高标准。岳坤还提出了多种从单点到多中心容灾提升可靠性的方案,强调需根据业务影响和可接受程度平衡投资与可靠性。同时,他呼吁大家共同提高系统可靠性,保障用户体验。

黄海峰表示,近年来,很多企业在IT领域不断加大投入,采购最先进的服务器、存储设备,注重性价比、可靠性。个人认为在设备采购方面,不能仅仅就单独采购设备,而是要从系统性的建构进行采购,从软件、硬件及管理等多方面,去打造具有可靠性的基础设施,注重高安全性与高性价比。

提升系统可靠性:互联网公司的探索与实践

头部互联网公司采用部件级引入和深度解耦的方式,构建算存网的数据中心基础设施,如何保障既能深度解耦又能安全可靠成为关键问题。

刘洋认为,互联网公司要提升系统可靠性,需强化通用性和标准化。复杂网络容易导致很多问题,所以需要对关键设备和器件进行清晰统一的定义。在此背景下,互联网公司正通过自研软件,有效管理硬件,实现标准化交付和全方位感知,确保网络可靠性。通过快速报警和精确定位,加速故障恢复,为可靠性提供坚实保障。

刘强指出,在大模型时代,算网协同与算存协同对模型训练效率至关重要。算网协同通过优化网络拓扑,提升数据传输效率,加速模型训练;而算存协同则通过优化高性能存储与缓存,确保数据高效读写,同时保证数据准确性与一致性,共同提升训练效率。

岳坤表示,华为RAMS实验室也被称为韧性实验室,在可靠性、可用性、安全性等多个方面进行了深入的研究和技术创新。可靠性即确保服务连续运行,可用性则强调整体能力的提升,可维护性关乎故障修复速度,而安全性则无处不在,需时刻警惕。我们期望在AI时代,提升互联网基础设施的韧性,把我们的韧性发挥到极致,以满足客户需求,确保服务稳定运行。

黄海峰提到,解耦与可靠性就像是鱼和熊掌难以兼得,一是接口标准化困难,二是不同部件组合可靠性挑战大。中小厂商难以自研,依赖集成厂商可能效果不佳。通信领域基站解耦带来的新问题,是创业企业参与但盈利困难。完全标准化可提高性价比,但可靠性要求高时,整体方案更优。各家应对策略值得相互借鉴,以实践检验真理。

AI时代的展望:智能韧性与原生创新的融合

在讨论的最后,主持人提出了一个开放问题:互联网行业基础设施最关心的指标包括性能、可靠性、开放、安全、可用性、可维护性等,从使用者的角度看,前三名的指标是什么?

刘洋表示,互联网公司首先要关注基础设施,所以高性能排在第一位,其次是高性价比和高可靠;刘强认为,对办公软件使用者而言,安全性应该是第一位,其次是高可靠与高性价比;岳坤指出,智能时代产品和服务的第一指标应该是好用,第二指标是信赖,第三指标是原生,就像是华为昇腾、鲲鹏提出的原生计划;黄海峰提到,作为用户和行业观察者,可靠性至关重要,所以指标的排序为高可靠、高安全与高性价比。

互联网行业的加速发展,涉及战略规划、人才储备、技术应用和基础设施建设等多个方面。AI技术的可靠性和原生创新是推动这一转型的关键因素。未来,随着AI技术的不断发展,华为希望大家能够合力提升AI服务的可靠性,加强ICT基础设施建设,推动互联网行业和相关产业在AI时代中的蓬勃发展。