星标、功能、趋势全方位对比
LiteLLM 提供了一个统一的接口,可以使用一致的 OpenAI 兼容格式与 100 多个 LLM 提供商进行交互。开发人员可以将其用作 Python SDK 进行直接集成,或者将其部署为生产就绪的代理服务器。该平台通过提供负载均衡、支出跟踪和虚拟密钥等功能,简化了 LLM 的管理流程。
FlashMLA 是一个高性能 Attention Kernels 库,专为驱动 DeepSeek-V3 和 DeepSeek-V3.2 模型而设计。它为预填充和解码阶段的稀疏和密集 Attention 机制提供了优化实现。该库支持 FP8 KV cache 等高级功能,并兼容包括 SM90 和 SM100 在内的多种 GPU 架构。