首页 › 主题 › Inference

// 主题

Inference

14近 90 天热度·14历史累计

// 近 4 周新增

// 生态图谱

AI 14

// 近期新项目

查看全部新项目 →

#1Tair KVCache: 高性能 LLM 推理管理系统🆕 4 个月前↗ 5.37/d★ 157

// 本周 TOP 6

PaddlePaddle / FastDeploy

FastDeploy 是基于飞桨的大语言模型与视觉语言模型推理部署工具包，旨在提供开箱即用的生产级部署方案。该工具支持多种主流硬件平台，并集成了负载均衡式PD分解、统一KV缓存传输及多种高级加速技术。开发者可通过兼容 OpenAI API 的接口实现快速部署，并利用全量化格式支持优化推理性能。

713,681

alibaba / rtp-llm

RTP-LLM 是由阿里巴巴基础模型推理团队开发的高性能大模型推理加速引擎。该引擎已在淘宝、天猫等多个阿里业务场景中广泛应用，支持多种主流模型格式与硬件后端。它通过集成先进的算子优化、量化技术及分布式推理能力，为大规模语言模型提供高效的生产级服务。

701,107

toverainc / willow

Willow Inference Server 允许用户自托管用于各种应用程序的高速语言推理任务。它支持包括 speech-to-text、text-to-speech 和大型语言模型处理在内的核心功能。用户可以通过项目网站和 GitHub discussions 获取官方文档和社区支持。

673,025

alibaba / tair-kvcache

Tair KVCache 是阿里云开发的一套系统，旨在通过分布式内存池和动态多级缓存技术加速大语言模型推理。该项目提供了一个用于全局 KVCache 元数据和存储容量的集中式管理器，确保了高效的数据可靠性和资源利用率。此外，它还包含一个高保真仿真工具，允许开发者在无需实际 GPU 资源的情况下预测性能指标。

62157

alexzhang13 / rlm

Recursive Language Models (RLMs) 提供了一种任务无关的推理范式，使语言模型能够通过程序化分解和递归自调用来处理近乎无限的上下文。该框架用特定的 RLM 接口取代了标准的补全调用，将上下文卸载到 REPL 环境中进行交互式执行。本仓库提供了一个可扩展的引擎，支持各种本地和基于云的沙箱环境，以促进复杂的多步语言模型推理。

4944

Michael-A-Kuykendall / shimmy

Shimmy 是一个轻量级的单二进制文件服务器，为在本地运行 GGUF 模型提供了 100% 兼容 OpenAI 的 API。它具备零配置模型发现、自动 GPU 后端检测以及针对大模型的高级 CPU/GPU 混合处理功能。该工具专为隐私和性能而设计，允许开发者无需更改代码即可将本地 LLM 集成到现有工具中。

3782

// 历史精选 (14)

Tencent / ncnn

ncnn 是一个专为移动端极致优化的高性能神经网络前向计算框架，旨在简化深度学习算法在手机端的部署。该框架无第三方依赖且具备跨平台特性，在移动端 CPU 上的运行速度优于目前所有已知的开源框架。目前，ncnn 已被广泛应用于腾讯旗下的多款主流应用中，助力开发者轻松构建智能应用程序。

Tencent / ncnn

ncnn 是一个专为移动平台深度优化的高性能神经网络前向计算框架。该框架无第三方依赖且具备跨平台特性，在手机 CPU 上的运行速度优于目前所有已知的开源框架。开发者可以利用 ncnn 轻松将深度学习模型移植到移动端，从而构建各类智能应用程序。

alibaba / MNN

MNN 是一个高性能、轻量级的深度学习框架，专为移动端和嵌入式设备上的高效模型推理与训练而设计。它支持多种神经网络架构，并提供用于模型转换、压缩和通用计算的多种工具。该框架已广泛应用于包括阿里巴巴各类应用在内的生产环境，以实现端云协同的机器学习。

PaddlePaddle / FastDeploy

alibaba / rtp-llm

PaddlePaddle / FastDeploy

FastDeploy 是基于飞桨的大语言模型与视觉语言模型推理部署工具包，旨在提供开箱即用的生产级部署方案。该工具包支持多种主流硬件平台，并集成了负载均衡式PD分解、统一KV缓存传输及全量化格式支持等核心技术。通过兼容 OpenAI API 和 vLLM 接口，它能够帮助开发者高效实现模型推理与在线服务部署。

alibaba / rtp-llm

RTP-LLM 是由阿里巴巴基础模型推理团队开发的高性能大模型推理加速引擎，广泛应用于淘宝、天猫等多个业务场景。该引擎通过集成多种先进的 CUDA 内核与量化技术，显著提升了模型推理的性能与效率。此外，它还具备极高的灵活性，支持多种模型格式、多模态输入以及 LoRA 服务部署。

toverainc / willow

alibaba / tair-kvcache

google-ai-edge / LiteRT-LM

LiteRT-LM 是由 Google 设计的一款高性能、生产就绪型推理框架，旨在边缘设备上部署大型语言模型。它支持包括 Android、iOS、桌面端和 IoT 在内的多种平台，同时利用 GPU 和 NPU 硬件加速以实现最佳性能。该框架支持多模态和函数调用等高级功能，为各类 Google 产品中的端侧 AI 体验提供支持。

alexzhang13 / rlm

mnfst / awesome-free-llm-apis

此仓库提供了一份精选的 LLM API 提供商列表，这些服务为文本推理提供永久免费层级。它将服务分类为直接提供商 API 和第三方推理平台，并详细说明了模型能力、上下文窗口和速率限制。该集合为寻求以经济高效方式访问各种大语言模型的开发者提供了全面的资源。

baidu / vLLM-Kunlun

vLLM Kunlun 是一个由社区维护的硬件插件，旨在实现 vLLM 在 Kunlun XPU 设备上的无缝运行。它作为一个硬件可插拔接口，允许用户在不修改原始 vLLM 源代码的情况下运行各种大语言模型和多模态模型。该项目支持量化、LoRA 微调和硬件加速图优化等高级功能，以确保高性能推理。

Michael-A-Kuykendall / shimmy

// 项目使用场景

ncnn

01支持多种主流 CNN 网络模型，包括分类、检测、分割及人脸识别等算法。
02提供跨平台部署能力，支持 Android、iOS、Windows、Linux、macOS 及 WebAssembly 等多种环境。
03通过高效的实现方式，帮助开发者将深度学习算法移植到移动端，实现人工智能应用的快速落地。

ncnn

01在移动端高效部署深度学习算法模型
02支持主流 CNN 网络如 YOLO、MobileNet 和 ResNet
03实现跨平台的高性能神经网络推理计算

MNN

01移动端和嵌入式平台的端侧推理与训练
02大语言模型 (LLM) 和 Stable Diffusion 模型的部署
03从 TensorFlow、ONNX 和 PyTorch 等框架进行模型转换与优化

FastDeploy

01负载均衡式PD分解与动态实例角色切换
02兼容 OpenAI API 接口与 vLLM 生态
03多硬件平台的高性能推理与全量化支持

rtp-llm

01支持多种量化技术（INT8/INT4）与高性能算子优化以提升推理速度
02提供多LoRA服务部署、多模态输入处理及张量并行等灵活功能
03具备上下文前缀缓存与投机采样等高级加速技术以优化多轮对话性能

// 项目对比

voicebox vs willow neutts vs willow ncnn vs ncnn ncnn vs MNN FastDeploy vs ncnn FastDeploy vs unregistry

Inference

// 近 4 周新增

// 生态图谱

// 近期新项目

// 本周 TOP 6

// 历史精选 (14)

// 项目使用场景

// 项目对比

// 相关主题