写CUDA到底难在哪?

2025-06-22 16:35:11

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?
广告位810*200
相关阅读
美国投掷 6 枚钻地炸弹袭击伊朗福尔多核设施,钻地弹有多大杀伤力?能摧毁伊朗地下核设施吗?

美国投掷 6 枚钻地炸弹袭击伊朗福尔多核设施,钻地弹有多大杀伤力?能摧毁伊朗地下核设施吗?

AGM-109“战斧”巡航导弹是为美国海军舰艇和潜艇专门开发...

2025-06-22
为什么 Mac 对游戏支持这么差?

为什么 Mac 对游戏支持这么差?

大家的 Mac mini M4 入手了吗?每年都有不少朋友会...

2025-06-22
为什么Rust的包管理器Cargo这么好用?

为什么Rust的包管理器Cargo这么好用?

好用,指 request 被一个死了九年的包占用。 新来的...

2025-06-22
大部分语言都用尖括号<>表示泛型,为什么golang要标新立异用中括号?

大部分语言都用尖括号<>表示泛型,为什么golang要标新立异用中括号?

最新的设计文档里面对这一块做了一个解释。 Why not ...

2025-06-22
养了近十年的草龟要不要放生?

养了近十年的草龟要不要放生?

放生?你送它终。 图一,刚捡来的时候,大概22-23年的时...

2025-06-22