添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
行走的丝瓜  ·  cuDNN ...·  1 周前    · 
想出国的钥匙扣  ·  Some PyTorch ...·  6 天前    · 
奋斗的馒头  ·  CUDA-GDB·  3 天前    · 
听话的牛肉面  ·  Create a vector index ...·  4 月前    · 
爱旅游的冰棍  ·  When the simluation ...·  1 年前    · 
坚强的脸盆  ·  Java Process ...·  1 年前    · 

在高性能计算、数据科学、生物信息学和深度学习方面的计算密集型 CUDA C++ 应用,可以通过使用多个GPU来加速,这可以增加吞吐量和(或)减少总体运行时间。当计算和内存传输并发重叠时,计算可以扩展至多个GPU 而不增加内存传输的开销。对于拥有多GPU服务器的组织,无论是在云上还是在NVIDIA DGX系统上,这些技术使您能够通过GPU 加速应用程序,以实现最高性能。本课程所讲授的单节点多GPU技术,对于未来将应用扩展至多个节点至关重要。

本课程包含如何编写CUDA C++ 应用程序,正确且有效地使用单一节点中的所有 GPU ,实现大幅提升应用程序性能,发挥多 GPU 系统的最佳经济效益。

完成本课程后,您将能够了解:

  • 使用并发 CUDA 流来使内存传输与GPU 计算重叠执行。
  • 将工作负载扩展至多 GPU,充分利用单节点上所有可用 GPU。
  • 在多 GPU 上使用数据拷贝与计算的重叠执行。
  • 使用 NVIDIA Nsight Systems Visual Profiler 观察所学技术的改进效果和影响。
  • 下载课程大纲 (PDF 243 KB)

  • 学习用 CUDA C++ 在单节点上有效使用多 GPU的核心概念
  • 探索为在应用程序中灵活使用多个 GPU 的可靠的索引策略
  • 重构单 GPU 上的 CUDA C++ 应用程序以利用多个GPU
  • 在 Nsight Systems Visual Profiler中查看多GPU的使用情况
  • 休息 (15 分钟) 在多 GPU 上进行复制 /计算的重叠执行
    (60 分钟)
  • 学习在多 GPU 上有效执行复制/计算的重叠执行的核心概念
  • 探索为在多GPU 上灵活使用复制/计算的重叠执行的可靠的索引策略
  • 重构单 GPU 上的 CUDA C++ 应用程序,以在多 GPU上执行复制/ 计算的重叠执行
  • 观察在多 GPU 上进行复制/计算的重叠执行的性能优势
  • 在 Nsight Systems Visual Profiler 中查看多 GPU 上的复制/ 计算的重叠执行
  • 学习评估 (30 分钟)
  • 完成测试并获取证书
  • 总结
    (30 分钟)
  • 回顾所学的关键内容
  • 了解如何从 DLI 基础环境容器构建自有的训练环境
  • 填写调查表
  • 具有专业 CUDA C/ C++ 编程经验,包括使用NVCC 编译器、内核启动、网格跨步循环、主机到设备及设备到主机的内存传输,和CUDA错误处理。
  • 熟悉Linux命令行。
  • 具有用 Makefiles 编译 C/ C++ 代码的经验。
  • 建议学习如下课程,以具备本课程所需预备知识:

  • DLI 课程 《加速计算基础 —— CUDA C/C++》
  • Ubuntu Command Line for Beginners (1~5 章节)
  • Makefile Tutorial (至“ Simple Examples” 章节)
  • 工具、库和框架: CUDA C++ , NVCC , Nsight Systems

    课程测评问题类型: 基于代码技能评测,评估在单节点上正确利用多 GPU的能力,包括如何使用复制/计算重叠执行。

    培训证书 :成功完成本课程和测试后,您将获得 NVIDIA DLI 证书,以证明您在这一主题领域的能力,助力您的职业发展。

    学习此课程的硬件要求 :您需要一台笔记本电脑或台式机,且能够运行最新版 Chrome 或 Firefox 浏览器。我们为您提供在云端完全配置的 GPU 加速工作站的专用访问权限。

    课程语言 :中文