星标、功能、趋势全方位对比
FlashMLA 是一个高性能 Attention Kernels 库,专为驱动 DeepSeek-V3 和 DeepSeek-V3.2 模型而设计。它为预填充和解码阶段的稀疏和密集 Attention 机制提供了优化实现。该库支持 FP8 KV cache 等高级功能,并兼容包括 SM90 和 SM100 在内的多种 GPU 架构。
FlashMLA 是一个高性能 Attention Kernels 库,专为驱动 DeepSeek-V3 和 DeepSeek-V3.2 模型而设计。它为预填充和解码阶段的稀疏和密集 Attention 机制提供了优化实现。该库支持 FP8 KV cache 等高级功能,并兼容包括 SM90 和 SM100 在内的多种 GPU 架构。