本文探讨了AI在线推理的挑战,包括实时扩缩容和负载均衡,并介绍了UAI-Inference如何通过Serverless架构和Docker容器技术提供高可用、弹性伸缩的服务。该系统支持多种AI框架,具有资源隔离、性能监控和动态调整计算资源的能力,确保大规模推理服务的稳定性和效率。
摘要由CSDN通过智能技术生成
在 AI 项目中,大多时候开发者的关注点都集中在如何进行训练、如何调优模型、如何达到满意的识别率上面。但对于一个完整项目来说,通常是需求推动项目,同时,项目也最终要落到实际业务中来满足需求。
对于常用的 AI 训练和机器学习工具如 TensorFlow,它本身也提供了 AI Serving 工具 TensorFlow Serving。利用此工具,可以将训练好的模型简单保存为模型文件,然后通过的脚本在 TensorFlow Serving 加载模型,输入待推理数据,得到推理结果。
但与拥有较固定计算周期和运行时长的 AI 训练不同,AI 推理的调用会随着业务的涨落而涨落,经常出现类似白天高、夜间低的现象。且在大规模高并发的节点需求情况下,常规的部署方案,明显无法满足此类需求,此时需要使用更专业的 AI 推理模型和扩缩容、负载均衡等技术完成预测推理。
UAI-Inference 采用类似Serverless的架构,通过请求调度算法、定制扩缩容策略,自动完成AI请求的负载均衡,实行节点动态扩容和回收,可提供数万的AI在线推理服务节点。
某AI在线推理一天内的请求访问情况
AI推理(Inference)的在线执行有两大关键因素:一是通过 GPU/CPU 对数据进行快速决策,二是对访问请求的实时响应。下图为某一 AI 在线推理场景 24 小时内的资源使用情况,其中,横轴为时间、纵轴为用户资源请求量,橙色线现表示资源配置情况。
凌晨 00:00-8:00 点&
大语言模型原理与工程实践:大语言模型
推理
工程
推理
加速:算子优化
作者:禅与计算机程序
设计
艺术 / Zen and the Art of Computer Programming
1. 背景介绍
1.1 问题的由来
随着大数据技术和人工智能技术的发展,越来越多的业务场景,如金融风控、
在线
广告、商品推荐、智能城市等,采用大量的机器学习技术来提升服务质量和智能决策水平。针对具体的任务,训练得到模型后,需要将其封装、部署上线,提供
在线
推理
服务,解决实际业务问题。
本文提出一种分布式机器学习模型
在线
推理
系统的完整技术方案,该系统主要采用CPU/GPU 计算节点来提供
推理
任务的基础算力,通过Docker容器技术封装、打包模型
推理
任务,将不同服务的运行环境完全隔离,并借助Kubernetes进行服务编排,提供服务的分布式容灾
1.背景介绍
人类
推理
和
AI
推理
都是解决问题的方法,它们的目的是通过一系列逻辑
推理
来得出结论。然而,人类
推理
和
AI
推理
之间存在很大的差异,这些差异主要体现在
推理
过程、
推理
逻辑和创新能力等方面。
人类
推理
是指人类通过观察、分析、
推理
和逻辑
推理
来解决问题的方法。人类
推理
具有很强的创新能力,可以根据现有信息得出新的结论,并在面对新的问题时进行适应性调整。然而,人类
推理
也存在局限性,如受环境和文化限制...
1.背景介绍
元学习是一种人工智能技术,它旨在帮助计算机系统自主地学习和优化其自身的
推理
能力。这种技术的核心思想是让计算机系统能够根据自己的经验和数据来调整和优化其
推理
策略,从而提高其
推理
能力。
元学习的研究起源于1990年代末,当时的人工智能研究人员试图解决计算机系统如何自主地学习和优化其
推理
能力。随着计算机技术的不断发展,元学习技术也