首页 › 对比 › FlashMLA vs FlashMLA

FlashMLA vs FlashMLA

星标、功能、趋势全方位对比

共同标签:DeepSeekAttentionCUDAPyTorchLLM
FlashMLA指标FlashMLA
12,617星标12,617
93评分93
AI分类AI
github-zh-inc来源github-zh-inc

// FlashMLA

FlashMLA 是一个高性能 Attention Kernels 库,专为驱动 DeepSeek-V3 和 DeepSeek-V3.2 模型而设计。它为预填充和解码阶段的稀疏和密集 Attention 机制提供了优化实现。该库支持 FP8 KV cache 等高级功能,并兼容包括 SM90 和 SM100 在内的多种 GPU 架构。

使用场景
  • 01用于预填充和解码阶段的 Token-level 稀疏 Attention
  • 02用于高性能预填充和解码的密集 Attention Kernels
  • 03支持 FP8 KV cache 以优化内存和计算效率

// FlashMLA

FlashMLA 是一个高性能 Attention Kernels 库,专为驱动 DeepSeek-V3 和 DeepSeek-V3.2 模型而设计。它为预填充和解码阶段的稀疏和密集 Attention 机制提供了优化实现。该库支持 FP8 KV cache 等高级功能,并兼容包括 SM90 和 SM100 在内的多种 GPU 架构。

使用场景
  • 01用于预填充和解码阶段的 Token-level 稀疏 Attention
  • 02用于高性能预填充和解码的密集 Attention Kernels
  • 03支持 FP8 KV cache 以优化内存和计算效率