如何在pytorch中调用cuda算子

type

Post

status

Published

date

May 10, 2026

slug

summary

PyTorch 自定义 CUDA 算子编写、绑定与调用示例教程

假设所有文件都放在 operator_extension/ 目录下：

这里将计算逻辑放在 __global__ kernel 中，并通过 launch_add_op 作为一个干净的 C++ 接口对外暴露，方便后续从 PyTorch 的 C++ 扩展层调用。

op.h 主要用于给 PyTorch C++ 侧（.cpp）提供函数声明：

在 op.cpp 中完成三件事：

Kernel 只关注并行计算；接口层只关注 Tensor 校验、形状推导与 Python 绑定。后续更换绑定方式（pybind / ATen / TorchScript）时，kernel 基本无需改动。

.cu 由 NVCC 编译，.cpp 由 C++ 编译器编译，出错信息与编译选项边界更明确；也更便于对 kernel 单独做性能分析（nsys/nvprof）。

同一个 launcher（如 launch_add_op）可以复用到更多算子或更多前端（Python / C++）。新增算子通常只需要在接口层扩展即可。

使用 torch.utils.cpp_extension.load 进行即时编译（JIT build）：

运行后如果输出 Test passed!，说明自定义 CUDA 算子与 PyTorch 的结果一致，你就可以在此基础上继续扩展更复杂的算子逻辑了。