写CUDA到底难在哪?

2025-06-22 08:40:10

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?
广告位810*200
相关阅读
前端,后端,全栈哪个好找工作?

前端,后端,全栈哪个好找工作?

一定是后端好找工作。 哪怕后端团队都每天工作3小时摸鱼5小...

2025-06-21
洲际导弹能打到任何地方,为什么还需要轰炸机?

洲际导弹能打到任何地方,为什么还需要轰炸机?

总参谋部:轰炸机起飞。 20分钟后,外交部:对面怂了,要派...

2025-06-21
2025年了 Rust前景如何?

2025年了 Rust前景如何?

搬运一些,简单翻译 SlashData和Stack Over...

2025-06-21
为什么都对TLC乃至未来的QLC嗤之以鼻呢?

为什么都对TLC乃至未来的QLC嗤之以鼻呢?

因为有边际效益。 slc(1bit)到mlc(2bit),...

2025-06-21
自己拥有一台服务器可以做哪些很酷的事情?

自己拥有一台服务器可以做哪些很酷的事情?

11月3日更新: 听取建议,逐渐缩减VM,转移到CT当中,然...

2025-06-21