Amazon Elastic Compute Cloud(Amazon EC2)Inf2 实例专为深度学习(DL)推理而构建。它们在 Amazon EC2 中以最低的成本为生成式人工智能(AI)模型(包括大型语言模型(LLM)和视觉转换器)提供高性能。您可以使用 Inf2 实例来运行推理应用程序,以实现文本摘要、代码生成、视频和图像生成、语音识别、个性化、欺诈检测等等。
Inf2 实例由
AWS Inferentia2
(第二代 AWS Inferentia 芯片)提供支持。Inf2 实例的性能较 Inf1 实例有所提升:计算性能提高了 3 倍,加速器总内存扩大了 4 倍,吞吐量提高了 4 倍,延迟降低到 1/10。Inf2 实例是 Amazon EC2 中的首个推理优化实例,可通过 Inferentia 芯片之间的超高速连接支持横向扩展分布式推理。您现在可以在 Inf2 实例上跨多个芯片经济高效地部署具有数千亿个参数的模型。
AWS Neuron SDK 可以帮助开发人员在两个 AWS Inferentia 芯片上部署模型,并且可以在 AWS Trainium 芯片上训练它们。它与 PyTorch 和 TensorFlow 等框架原生集成,让您可以继续使用现有的工作流程和应用程序代码,并且可以在 Inf2 实例上运行。
图表展示了使用 AWS Deep Learning AMI (DLAMI) 部署 Amazon EC2 Inf2 实例的工作流程。
第一列包括两个垂直堆叠的部分。顶部的第一部分包括以下用户应用程序,这些应用程序分组在一个方框中:AWS 命令行界面(CLI)、AWS 工具和 SDK 以及 AWS Cloud Control API。以下部分包括 AWS 管理控制台。
第一列的第一部分有一个箭头指向火箭发射图标,图标下方显示以下文本:“Launch DLAMI automatically using AWS CLI, SDK, or API”。 第一列的第二部分有一个箭头指向火箭发射图标,显示以下文本:“Launch DLAMI via the console”。
这两个火箭图标有一个共同的箭头,指向一个代表 Amazon EC2 Inf2 实例的方框。
在 Inf2 实例框的右侧,有一个代表 DLAMI 的方框。此 DLAMI 方框使用围绕以下文本的方框分组:“Local terminal”、“EC2 remote terminal”和“Application script”。 这三个项目都带有一个指向 DLAMI 方框的箭头。然后,DLAMI 方框上有一个指向 Inf2 实例方框的箭头。
单击可放大
使用 Amazon EKS
图表展示了创建 Kubernetes 集群、为您的集群部署 Amazon EC2 Inf2 实例以及在 Kubernetes 上运行推理应用程序的工作流程。
第一个方框代表 Amazon Elastic Kubernetes Service(Amazon EKS),包括以下文本:“Create Kubernetes clusters (powered by Amazon EKS Distro)”。
一个箭头从第一个方框指向第二个用于 Amazon EC2 Inf2 实例的方框。此框包含以下文本:“Deploy Inf2 worker nodes for your EKS cluster”。
箭头从第二个方框指向最后一个项目,并显示以下文本:“Run your inference applications on Kubernetes”。
单击可放大
使用 Amazon ECS
图表展示了使用 AWS Deep Learning Containers 和 Amazon Elastic Container Service(Amazon ECS)部署 Amazon EC2 Inf2 实例的工作流程。
第一个方框代表 Amazon Elastic Container Registry(Amazon ECR)。它包括以下文本:“Build images and store using ECR or any other repository”。
一个箭头从此方框指向一个用于 Amazon ECS 的方框。
一个箭头从此方框指向一个包含以下文本的项目:“Select the Deep Learning Container image for your application”。
一个箭头从此信息指向一个用于 Amazon EC2 Inf2 实例的方框。此方框包含以下文本:“Deploy inference workload on Inf2”。
一个箭头从此方框指向一个包含以下文本的项目:“Manage containers using Amazon ECS”。
单击可放大
使用 Amazon SageMaker
图表展示了使用存储在 Amazon Simple Storage Service(Amazon S3)存储桶和 Amazon ECR 容器映像中的模型构件与 Amazon SageMaker 在 Inf2 实例上部署推理的工作流程。
第一组包括两个垂直堆叠的方框。上方的第一个方框用于 Amazon S3,包括以下文本:“Model artifacts stored in S3 bucket”。 它下方的第二个框用于 Amazon Elastic Container Registry(Amazon ECR),包括以下文本:“Container image”。
第一组有一个指向 Amazon SageMaker 的箭头。此项目由一个包含以下工作流信息的方框分组:
首先是以下文本:“Create a SageMaker model”。 此项目上的箭头指向一个用于 Amazon EC2 Inf2 实例的方框,上面显示以下文本:“Choose Inf2 as your SageMaker inference option (ml.inf2)”。 下一个箭头从此方框指向以下文本:“Configure, create, and invoke a SageMaker endpoint to get inference”。
单击可放大
“我们的 Leonardo 团队利用生成式人工智能,使创意专业人士和爱好者能够制作出具有无与伦比的质量、速度和风格一致性的视觉资产。AWS Inf2 的性价比 通过使用 AWS Inf2,我们能够在不牺牲性能的情况下将成本降低 80%,从根本上改变我们可以为客户提供的价值主张,从而以更实惠的价格实现我们最先进的功能。它还减轻了人们对辅助人工智能服务的成本和容量可用性的担忧,随着我们的发展和规模扩大,这些服务变得越来越重要。对于我们来说,这是一项关键的支持技术,我们将继续挑战生成式人工智能的极限,为我们的用户开启创造力和表达力的新时代。”
Pete Werner,Leonardo.ai 人工智能主管
“在 Runway,我们的 AI Magic Tools 套件使我们的用户能够以前所未有的方式生成和编辑内容。我们不断突破 AI 支持的内容创建的可能性,随着我们的 AI 模型变得越来越复杂,大规模运行这些模型的底层基础设施成本可能会变得昂贵。通过与由 AWS Inferentia 提供支持的 Amazon EC2 Inf2 实例合作,我们能够以比基于 GPU 的同类实例高出 2 倍的吞吐量来运行我们的一些模型。这种高性能、低成本的推理使我们能够引入更多功能,部署更复杂的模型,并最终为使用 Runway 的数百万创作者提供更好的体验。”
Cristóbal Valenzuela,Runway 联合创始人兼首席执行官
Qualtrics 设计和开发体验管理软件。
“在 Qualtrics,我们的工作重点是构建技术,以缩小客户、员工、品牌和产品的体验差距。为实现这一目标,我们正在开发复杂的多任务、多模式 DL 模型以推出新功能,例如文本分类、序列标记、话语分析、关键短语提取、主题提取、集群和端到端对话理解。随着我们在更多应用中使用这些更复杂的模型,非结构化数据量不断增长,我们需要更高性能的推理优化优化解决方案(例如 Inf2 实例)来满足这些需求,为我们的客户提供最佳体验。我们对新的 Inf2 实例感到兴奋,因为它不仅可以让我们实现更高的吞吐量,同时显著降低延迟,而且还引入了分布式推理和增强的动态输入形状支持等功能,这将有助于进行扩展,从而在向更大、更复杂的大型模型发展时满足部署需求。”
Aaron Colak,Qualtrics 核心机器学习主管
Finch Computing 是一家自然语言技术公司,为政府、金融服务和数据集成商客户提供人工智能应用程序。
“为了满足客户对实时自然语言处理的需求,我们开发了可扩展到大型生产工作负载的先进深度学习模型。我们必须提供低延迟事务处理并实现高吞吐量,以处理全球数据馈送。我们已经将许多生产工作负载迁移到 Inf1 实例,并且实现了与 GPU 相比 80% 的成本节约。现在,我们正在开发更大、更复杂的模型,以便从书面文本中获得更深刻、更有洞察力的意义。我们的许多客户需要实时访问这些洞察,Inf2 实例的性能将帮助我们提供比 Inf1 实例更低的延迟和更高的吞吐量。随着 Inf2 性能改进和新的 Inf2 功能,例如支持动态输入大小,我们正在改善我们的成本效率,提升实时客户体验,并帮助我们的客户从他们的数据中收集新的洞察。”
Franz Weckesser,Finch Computing 首席架构师
Money Forward, Inc. 为企业和个人提供开放和公平的金融平台。作为该平台的一部分,Money Forward 集团旗下公司 HiTTO Inc. 提供 AI 聊天机器人服务,该服务会使用定制的自然语言处理 (NLP) 模型,满足其企业客户的多元化需求。
“我们在 Amazon EC2 Inf1 实例上推出了大规模 AI 聊天机器人服务,与基于 GPU 的同类实例相比,我们的推理延迟降低了 97%,同时还降低了成本。我们很高兴在 Amazon EC2 Inf2 实例的初步测试结果中看到性能进一步提升。使用相同的自定义 NLP 模型,AWS Inf2 能够将延迟进一步减少到 Inf1 的 1/10。随着我们转向更大的、数十亿个参数的模型,Inf2 让我们有信心继续为客户提供卓越的端到端用户体验。”
Takuya Nakade,Money Forward, Inc. 首席技术官
“在 Fileread.ai,我们正致力于构建解决方案,让文档交互像提问一样简单,使用户能够从所有文档中找到他们想要的内容并更快地获得正确的信息。自从切换到新的 Inf2 EC2 实例以来,我们看到我们的 NLP 推理能力有了显著提升。单单成本节省就对我们产生了巨大的影响,使我们能够在不牺牲质量的情况下更有效地分配资源。我们将推理延迟减少了 33%,同时将吞吐量提高了 50%,提供令客户满意的周转速度。我们的团队对 Inf2 相较于早期 G5 实例的速度和性能提升感到震惊,很明显,这是未来部署 NLP 模型的方法。”
Daniel Hu,Fileread 首席执行官
“在 Yaraku,我们的使命是建立基础设施,帮助人们跨越语言障碍进行沟通。任何人,从专业翻译人员到单语人士,都可以通过我们的旗舰产品 YarakuZen 自信地翻译和编辑文本和文档。为了支持这一过程,我们提供了一系列基于深度学习模型的复杂工具,涵盖翻译、双文本单词对齐、句子分割、语言建模等任务。通过使用 Inf1 实例,我们能够加快服务速度以满足不断增长的需求,同时与基于 GPU 的实例相比,推理成本降低了 50% 以上。我们目前正在着手开发下一代更大型的模型,这些模型将需要 Inf2 实例的增强功能,以便在满足需求的同时保持低延迟。有了 Inf2,我们将能够将模型纵向扩展 10 倍,同时保持相似的吞吐量,使我们能够为客户提供更高的质量水准。”
Giovanni Giacomo,Yaraku NLP 负责人
“Hugging Face 的使命是普及优秀的机器学习技术,帮助世界各地的机器学习开发人员解决现实世界中的问题。实现这一目标的关键是确保最新、最好的模型在云端最好的机器学习芯片上尽可能快速、高效地运行。Inferentia2 有可能成为大规模部署生成式人工智能模型的新标准方式,我们对此感到非常兴奋。在 Inf1 中,我们看到与基于 GPU 的传统实例相比,成本降低了高达 70%,而在 Inf2 中,我们看到类似 BERT 的 Transformers 的延迟低至 Inferentia1 的 1/8。借助 Inferentia2,我们的社区将能够轻松地将这种性能扩展到 100B+ 参数规模的 LLM,也可以扩展到最新的扩散和计算机视觉模型。”
“PyTorch 加快了机器学习开发人员从研究原型设计到生产部署的过程。我们已经与 AWS 团队合作,为由 AWS Inferentia2 提供支持的新 Amazon EC2 Inf2 实例提供原生 PyTorch 支持。随着希望部署大型生成式人工智能模型的社区成员日益增多,我们很高兴与 AWS 团队合作,通过芯片之间的高速 NeuronLink 连接,优化 Inf2 实例上的分布式推理。借助 Inf2,使用 PyTorch 的开发人员现在可以轻松部署超大型 LLM 和视觉转换器模型。此外,Inf2 实例还为 PyTorch 开发人员带来了其他创新功能,包括高效的数据类型、动态形状、自定义运算符和经过硬件优化的随机舍入,使其非常适合 PyTorch 社区广泛采用。”
“Weights & Biases (W&B) 为机器学习工程师和数据科学家提供了开发工具,帮助他们更快地构建更好的模型。W&B 平台为机器学习从业者提供了各种各样的见解,以提高模型的性能,包括底层计算基础设施的利用率。我们与 AWS 团队合作,在我们的系统指标控制面板中增加了对 Amazon Trainium 和 Inferentia2 的支持,从而提供模型实验和训练期间急需的宝贵数据。这使机器学习从业者能够优化他们的模型,充分利用 AWS 的专用硬件,以更低的成本更快地训练他们的模型。”
Phil Gurbacki,Weights & Biases 产品副总裁
AWS 对 Internet Explorer 的支持将于 07/31/2022 结束。受支持的浏览器包括 Chrome、Firefox、Edge 和 Safari。
了解详情 »