DeepGEMM 是一个轻量级的 CUDA 库,专为高效的通用矩阵乘法(GEMM)设计,支持 FP8 和 BF16 数据格式。它利用即时编译(JIT)模块消除了预安装内核编译的需求,同时保持了与专家调优库相当的性能。该库为密集型和 MoE 分组 GEMM 提供了专门的 API,是学习 GPU 内核优化的绝佳资源。
DeepGEMM 是一个专为高性能通用矩阵乘法 (GEMMs) 设计的专业 CUDA 库,专门针对密集型和混合专家 (MoE) 架构中的 FP8 和 BF16 数据格式进行了优化。通过利用轻量级的即时 (JIT) 编译模块,它无需预安装内核编译,同时保持了媲美专家调优库的性能。该项目通过避免对模板的过度依赖来优先考虑简洁性和易用性,既可作为 DeepSeek 风格模型的生产级工具,也可作为 NVIDIA GPU 内核优化的教育资源。
首先,递归克隆存储库以确保包含所有子模块。运行提供的 'develop.sh' 脚本以链接必要的包含文件并构建 C++ JIT 模块,然后执行 'tests/' 目录中的测试脚本以验证功能。最后,运行 'install.sh' 以完成设置,然后即可将 'deep_gemm' 导入到您的 Python 项目中。