首页LLMPaddlePaddle/FastDeploy
// archived 2026-04-23
PaddlePaddle

FastDeploy

AI#LLM#Model Deployment#PaddlePaddle#Inference#Quantization
前往 GitHub →
3,681

// 项目简介

FastDeploy 是基于飞桨的大语言模型与视觉语言模型推理部署工具包,旨在提供开箱即用的生产级部署方案。该工具支持多种主流硬件平台,并集成了负载均衡式PD分解、统一KV缓存传输及多种高级加速技术。开发者可通过兼容 OpenAI API 的接口实现快速部署,并利用全量化格式支持优化推理性能。

// 技术分析

FastDeploy 是一个专为大语言模型(LLM)和视觉语言模型(VLM)设计的生产级推理部署工具包,基于飞桨生态构建。该项目旨在解决模型在多硬件环境下部署的复杂性,通过提供负载均衡式PD分解、统一KV缓存传输及多种高级加速技术,显著提升了推理吞吐量与资源利用率。其核心设计理念在于兼容主流生态(如兼容vLLM接口),并针对国产及主流硬件提供广泛的适配支持,从而降低了企业级模型落地的技术门槛。

// 核心亮点

01
支持负载均衡式PD分解,通过动态实例角色切换优化资源利用率并保障SLO。
02
提供统一的KV缓存传输库,支持智能选择NVLink或RDMA以实现高性能通信。
03
兼容OpenAI API服务及vLLM接口,实现单命令快速部署与生态无缝对接。
04
支持包括W8A16、W4A8及FP8在内的多种量化格式,有效降低显存占用并提升推理速度。
05
集成推测解码、多令牌预测(MTP)及分块预填充等高级加速技术,全面优化推理性能。
06
具备广泛的硬件兼容性,涵盖NVIDIA GPU、昆仑芯、海光、燧原、沐曦及英特尔Gaudi等多种平台。

// 典型使用场景

01
负载均衡式PD分解与动态实例角色切换
02
兼容 OpenAI API 接口与 vLLM 生态
03
多硬件平台的高性能推理与全量化支持

// 快速开始

开发者可根据目标硬件平台(如NVIDIA GPU或昆仑芯等)查阅官方提供的详细安装指南进行环境配置。完成安装后,建议通过阅读“10分钟快速部署”文档,并参考在线服务或离线推理的示例代码,即可快速启动模型部署流程。