PaddlePaddle / FastDeploy
FastDeploy は PaddlePaddle をベースとした大規模言語モデルおよび視覚言語モデル向けの推論デプロイメントツールキットであり、すぐに利用可能なプロダクションレベルのデプロイメントソリューションを提供することを目指しています。本ツールキットは多様な主要ハードウェアプラットフォームをサポートし、負荷分散型の PD 分離、統合された KV キャッシュ転送、完全な量子化フォーマット対応といったコア技術を統合しています。OpenAI API や vLLM インターフェースとの互換性により、開発者が効率的にモデル推論やオンラインサービスのデプロイメントを実現できるよう支援します。