用多 GPU 加速CUDA C++ 应用培训

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

宽容的楼梯 · 轻薄本能下载cuda吗 - CSDN文库· 2 周前 ·

行走的丝瓜 · cuDNN ...· 1 周前 ·

想出国的钥匙扣 · Some PyTorch ...· 6 天前 ·

奋斗的馒头 · CUDA-GDB· 3 天前 ·

乖乖的绿豆 · 荣耀手机动态修改imei信息-CSDN博客· 3 月前 ·

听话的牛肉面 · Create a vector index ...· 4 月前 ·

傲视众生的电影票 · 《地图审核管理规定》修订答记者问广东省自 ...· 4 月前 ·

爱旅游的冰棍 · When the simluation ...· 1 年前 ·

坚强的脸盆 · Java Process ...· 1 年前 ·

在高性能计算、数据科学、生物信息学和深度学习方面的计算密集型 CUDA C++ 应用，可以通过使用多个GPU来加速，这可以增加吞吐量和（或）减少总体运行时间。当计算和内存传输并发重叠时，计算可以扩展至多个GPU 而不增加内存传输的开销。对于拥有多GPU服务器的组织，无论是在云上还是在NVIDIA DGX系统上，这些技术使您能够通过GPU 加速应用程序，以实现最高性能。本课程所讲授的单节点多GPU技术，对于未来将应用扩展至多个节点至关重要。

本课程包含如何编写CUDA C++ 应用程序，正确且有效地使用单一节点中的所有 GPU ，实现大幅提升应用程序性能，发挥多 GPU 系统的最佳经济效益。

完成本课程后，您将能够了解：

使用并发 CUDA 流来使内存传输与GPU 计算重叠执行。

将工作负载扩展至多 GPU，充分利用单节点上所有可用 GPU。

在多 GPU 上使用数据拷贝与计算的重叠执行。

使用 NVIDIA Nsight Systems Visual Profiler 观察所学技术的改进效果和影响。

下载课程大纲 (PDF 243 KB)

学习用 CUDA C++ 在单节点上有效使用多 GPU的核心概念

探索为在应用程序中灵活使用多个 GPU 的可靠的索引策略

重构单 GPU 上的 CUDA C++ 应用程序以利用多个GPU

在 Nsight Systems Visual Profiler中查看多GPU的使用情况

休息 (15 分钟) 在多 GPU 上进行复制 /计算的重叠执行
(60 分钟)

学习在多 GPU 上有效执行复制/计算的重叠执行的核心概念

探索为在多GPU 上灵活使用复制/计算的重叠执行的可靠的索引策略

重构单 GPU 上的 CUDA C++ 应用程序，以在多 GPU上执行复制/ 计算的重叠执行

观察在多 GPU 上进行复制/计算的重叠执行的性能优势

在 Nsight Systems Visual Profiler 中查看多 GPU 上的复制/ 计算的重叠执行

学习评估 (30 分钟)

完成测试并获取证书

总结
(30 分钟)

回顾所学的关键内容

了解如何从 DLI 基础环境容器构建自有的训练环境

填写调查表

具有专业 CUDA C/ C++ 编程经验，包括使用NVCC 编译器、内核启动、网格跨步循环、主机到设备及设备到主机的内存传输，和CUDA错误处理。

熟悉Linux命令行。

具有用 Makefiles 编译 C/ C++ 代码的经验。

建议学习如下课程，以具备本课程所需预备知识：

DLI 课程《加速计算基础 —— CUDA C/C++》

Ubuntu Command Line for Beginners (1~5 章节)

Makefile Tutorial (至“ Simple Examples” 章节)

工具、库和框架： CUDA C++ , NVCC , Nsight Systems

课程测评问题类型： 基于代码技能评测，评估在单节点上正确利用多 GPU的能力，包括如何使用复制/计算重叠执行。

培训证书 ：成功完成本课程和测试后，您将获得 NVIDIA DLI 证书，以证明您在这一主题领域的能力，助力您的职业发展。

学习此课程的硬件要求 ：您需要一台笔记本电脑或台式机，且能够运行最新版 Chrome 或 Firefox 浏览器。我们为您提供在云端完全配置的 GPU 加速工作站的专用访问权限。

课程语言 ：中文