星标、功能、趋势全方位对比
DeepGEMM 是一个统一的 CUDA 库,专门为现代大型语言模型提供高性能 Tensor Core 内核。它具备轻量级的 Just-In-Time 编译模块,无需在安装过程中进行 CUDA 编译。该库在各种矩阵形状下均能提供专家级的性能,同时保持了简洁易用的代码库以供内核优化。
FlashMLA 是由 DeepSeek 开发的高性能注意力内核库,旨在为其 V3 和 V3.2-Exp 模型提供动力。它为预填充和解码阶段的稀疏和密集注意力机制提供了专门的实现。该库专为 NVIDIA GPU 架构设计,并支持 FP8 KV 缓存等高级功能,以最大限度地提高计算效率。