面向大规模AI在线推理的可靠性设计_在线推理模型

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

机灵的牛肉面 · auto ...· 1 周前 ·

忐忑的机器猫 · 全自动化机器学习建模！效果吊打初级炼丹师！ ...· 1 周前 ·

酷酷的蜡烛 · 用 SHAP ...· 6 天前 ·

才高八斗的碗 · 机器学习实战之模型的解释性：Scikit-L ...· 6 天前 ·

失望的针织衫 · Aurora MySQL 全局状态变量 - ...· 2 天前 ·

乐观的煎鸡蛋 · Dart语言基础Map、List、Set操作 ...· 1 月前 ·

爽快的生姜 · php如何将html页面转换为pdf文件 ...· 5 月前 ·

一直单身的桔子 · 医德V4.0官中完结版【4.6G】_小冲游戏联盟· 5 月前 ·

闷骚的酱肘子 · 這些有趣的slogan你跟上了嗎？最新202 ...· 6 月前 ·

路过的小熊猫 · 混合使用 Conda 和 Pip - 量化课堂· 7 月前 ·

本文探讨了AI在线推理的挑战，包括实时扩缩容和负载均衡，并介绍了UAI-Inference如何通过Serverless架构和Docker容器技术提供高可用、弹性伸缩的服务。该系统支持多种AI框架，具有资源隔离、性能监控和动态调整计算资源的能力，确保大规模推理服务的稳定性和效率。摘要由CSDN通过智能技术生成

在 AI 项目中，大多时候开发者的关注点都集中在如何进行训练、如何调优模型、如何达到满意的识别率上面。但对于一个完整项目来说，通常是需求推动项目，同时，项目也最终要落到实际业务中来满足需求。

对于常用的 AI 训练和机器学习工具如 TensorFlow，它本身也提供了 AI Serving 工具 TensorFlow Serving。利用此工具，可以将训练好的模型简单保存为模型文件，然后通过的脚本在 TensorFlow Serving 加载模型，输入待推理数据，得到推理结果。

但与拥有较固定计算周期和运行时长的 AI 训练不同，AI 推理的调用会随着业务的涨落而涨落，经常出现类似白天高、夜间低的现象。且在大规模高并发的节点需求情况下，常规的部署方案，明显无法满足此类需求，此时需要使用更专业的 AI 推理模型和扩缩容、负载均衡等技术完成预测推理。

UAI-Inference 采用类似Serverless的架构，通过请求调度算法、定制扩缩容策略，自动完成AI请求的负载均衡，实行节点动态扩容和回收，可提供数万的AI在线推理服务节点。

某AI在线推理一天内的请求访问情况

AI推理（Inference）的在线执行有两大关键因素：一是通过 GPU/CPU 对数据进行快速决策，二是对访问请求的实时响应。下图为某一 AI 在线推理场景 24 小时内的资源使用情况，其中，横轴为时间、纵轴为用户资源请求量，橙色线现表示资源配置情况。

凌晨 00:00-8:00 点&

大语言模型原理与工程实践：大语言模型推理工程推理加速：算子优化作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 1. 背景介绍 1.1 问题的由来

随着大数据技术和人工智能技术的发展，越来越多的业务场景，如金融风控、在线广告、商品推荐、智能城市等，采用大量的机器学习技术来提升服务质量和智能决策水平。针对具体的任务，训练得到模型后，需要将其封装、部署上线，提供在线推理服务，解决实际业务问题。本文提出一种分布式机器学习模型在线推理系统的完整技术方案，该系统主要采用CPU/GPU 计算节点来提供推理任务的基础算力，通过Docker容器技术封装、打包模型推理任务，将不同服务的运行环境完全隔离，并借助Kubernetes进行服务编排，提供服务的分布式容灾

1.背景介绍人类推理和 AI 推理都是解决问题的方法，它们的目的是通过一系列逻辑推理来得出结论。然而，人类推理和 AI 推理之间存在很大的差异，这些差异主要体现在推理过程、推理逻辑和创新能力等方面。人类推理是指人类通过观察、分析、推理和逻辑推理来解决问题的方法。人类推理具有很强的创新能力，可以根据现有信息得出新的结论，并在面对新的问题时进行适应性调整。然而，人类推理也存在局限性，如受环境和文化限制...

1.背景介绍元学习是一种人工智能技术，它旨在帮助计算机系统自主地学习和优化其自身的推理能力。这种技术的核心思想是让计算机系统能够根据自己的经验和数据来调整和优化其推理策略，从而提高其推理能力。元学习的研究起源于1990年代末，当时的人工智能研究人员试图解决计算机系统如何自主地学习和优化其推理能力。随着计算机技术的不断发展，元学习技术也