首页 › 对比 › DeepGEMM vs FlashMLA

DeepGEMM vs FlashMLA

星标、功能、趋势全方位对比

共同标签:CUDALLM
DeepGEMM指标FlashMLA
7,016星标12,583
90评分94
AI分类AI
github-zh-inc来源github-zh-inc

// DeepGEMM

DeepGEMM 是一个统一的 CUDA 库,专门为现代大型语言模型提供高性能 Tensor Core 内核。它具备轻量级的 Just-In-Time 编译模块,无需在安装过程中进行 CUDA 编译。该库在各种矩阵形状下均能提供专家级的性能,同时保持了简洁易用的代码库以供内核优化。

使用场景
  • 01面向 LLM 的高性能 FP8、FP4 和 BF16 GEMM 操作
  • 02具备通信与计算融合功能的 Mega MoE 内核
  • 03用于大规模模型中闪电索引器的 MQA 评分内核

// FlashMLA

FlashMLA 是由 DeepSeek 开发的高性能注意力内核库,旨在为其 V3 和 V3.2-Exp 模型提供动力。它为预填充和解码阶段的稀疏和密集注意力机制提供了专门的实现。该库专为 NVIDIA GPU 架构设计,并支持 FP8 KV 缓存等高级功能,以最大限度地提高计算效率。

使用场景
  • 01用于高效预填充和解码的 Token 级稀疏注意力
  • 02用于高吞吐量模型推理的密集注意力内核
  • 03支持 FP8 KV 缓存以减少内存占用并提升性能