首页 › 对比 › DeepGEMM vs FlashMLA

DeepGEMM vs FlashMLA

星标、功能、趋势全方位对比

共同标签:CUDALLM

// DeepGEMM

DeepGEMM 是一个统一的 CUDA 库，专门为现代大型语言模型提供高性能 Tensor Core 内核。它具备轻量级的 Just-In-Time 编译模块，无需在安装过程中进行 CUDA 编译。该库在各种矩阵形状下均能提供专家级的性能，同时保持了简洁易用的代码库以供内核优化。

使用场景

FlashMLA 是由 DeepSeek 开发的高性能注意力内核库，旨在为其 V3 和 V3.2-Exp 模型提供动力。它为预填充和解码阶段的稀疏和密集注意力机制提供了专门的实现。该库专为 NVIDIA GPU 架构设计，并支持 FP8 KV 缓存等高级功能，以最大限度地提高计算效率。

使用场景