解决报错RuntimeError: CUDA error: invalid device function Segmentation fault (core dumped)

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

痴情的眼镜 · Python 中如何发送一个 post ...· 1 月前 ·

魁梧的铅笔 · EPON,GPON,XGPON,PON相关产 ...· 3 月前 ·

慷慨的葡萄酒 · 杭州各城区陆续公布9月将启用的新学校· 5 月前 ·

傲视众生的啤酒 · 让DIV的滚动条自动滚动到最底部 - ...· 1 年前 ·

很拉风的鸭蛋 · 一汽大众ID.4 ...· 1 年前 ·

首先看一下完整的报错：

Traceback (most recent call last):
  File "train_cross-modal.py", line 414, in <module>
    train()
  File "train_cross-modal.py", line 292, in train
    edge_time.to(device), edge_index.to(device), edge_type.to(device))
  File "/home/amax/XJY/Semantic-Graph/Semantic-Graph/SGE-GNN/GNN/model.py", line 126, in forward
    meta_xs = gc(meta_xs, node_type, edge_index, edge_type, edge_time)
  File "/home/amax/.conda/envs/SGE1/lib/python3.7/site-packages/torch/nn/modules/module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "/home/amax/XJY/Semantic-Graph/Semantic-Graph/SGE-GNN/GNN/conv.py", line 316, in forward
    return self.base_conv(meta_xs, node_type, edge_index, edge_type, edge_time)
  File "/home/amax/.conda/envs/SGE1/lib/python3.7/site-packages/torch/nn/modules/module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "/home/amax/XJY/Semantic-Graph/Semantic-Graph/SGE-GNN/GNN/conv.py", line 59, in forward
    edge_type=edge_type, edge_time = edge_time)
  File "/home/amax/.conda/envs/SGE1/lib/python3.7/site-packages/torch_geometric/nn/conv/message_passing.py", line 126, in propagate
    out = self.message(*message_args)
  File "/home/amax/XJY/Semantic-Graph/Semantic-Graph/SGE-GNN/GNN/conv.py", line 111, in message
    self.att = softmax(res_att, edge_index_i)
  File "/home/amax/.conda/envs/SGE1/lib/python3.7/site-packages/torch_geometric/utils/softmax.py", line 23, in softmax
    out = src - scatter_max(src, index, dim=0, dim_size=num_nodes)[0][index]
RuntimeError: CUDA error: invalid device function
Segmentation fault (core dumped)

我是在运行HGT代码的时候出现以上报错的，在网上搜了许多解决方案都没有办法解决，在google上面看到有人说这种报错往往出现在cudatoolkit包和系统中安装好的CUDA版本不匹配的时候。后来我想了一下有可能是pytorch-geometric包需要使用到cudatoolkit中的某些函数，如果不匹配就可能导致以上的错误（顺带一提pytorch-geometric包对环境的要求真的很严格）

于是我做了一个实验，把模型从使用GPU跑改为使用CPU跑，模型最终跑通了，一般情况下如果一个模型可以在CPU跑通而不能在GPU上跑十有八九就是环境配置出了问题，这更加证实了我之前的猜想。

后面我发现服务器上安装的CUDA版本是10.0版本，而我使用的cudatoolkit是10.1版本，把版本修改为cudatoolkit=10.0模型就可以跑通了。

BY THE WAY，很多同学在查看系统本身的CUDA版本的时候经常会用到两条指令

nvcc --version

nvidia-smi

在某一些情况下可能会出现两条命令查询出来的CUDA版本号不相同的问题，可以参考 https://zhuanlan.zhihu.com/p/345833286 。 我们以nvcc --version这条命令查询出来的CUDA版本为准

版权声明：本文为CSDN博主「weixin_44012382」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接： https://blog.csdn.net/weixin_44012382/article/details/119252607