LiteLLM 是一个开源 AI 网关,它提供了一个使用标准 OpenAI 格式调用 100 多种不同 LLM 提供商的统一接口。它可以作为 Python SDK 进行直接集成,也可以部署为代理服务器来管理负载均衡和支出跟踪等企业级功能。通过抽象化特定提供商的复杂性,它使开发人员无需重写现有代码即可在不同模型之间无缝切换。
DeepGEMM 是一个统一的 CUDA 库,专门为现代大型语言模型提供高性能 Tensor Core 内核。它具备轻量级的 Just-In-Time 编译模块,无需进行复杂的 CUDA 安装构建。该库支持包括 FP8/FP4 GEMMs、融合 Mega MoE 以及用于高效 GPU 计算的 MQA 评分内核在内的高级操作。