LiteLLM 是一个开源 AI 网关,它提供了一个使用标准 OpenAI 格式调用 100 多种不同 LLM 提供商的统一接口。它可以作为 Python SDK 进行直接集成,也可以部署为代理服务器来管理负载均衡和支出跟踪等企业级功能。通过抽象化特定提供商的复杂性,它使开发人员无需重写现有代码即可在不同模型之间无缝切换。
FlashMLA 是由 DeepSeek 开发的高性能注意力内核库,旨在为其 V3 和 V3.2-Exp 模型提供动力。它为预填充和解码阶段的稀疏和密集注意力机制提供了专门的实现。该库支持 FP8 KV 缓存等高级功能,并针对现代 GPU 架构进行了优化,以最大限度地提高计算吞吐量。