ホーム › トピック › Inference

// トピック

Inference

14直近 90 日のトレンド·14累計

// 今月の新着

// エコシステム

AI 14

// 最近の新着

すべての新着 →

#1Tair KVCache: High-Performance LLM Inference Management System🆕 4 か月前↗ 5.37/d★ 157

// 今週の TOP 6

PaddlePaddle / FastDeploy

FastDeploy は PaddlePaddle をベースとした大規模言語モデルおよび視覚言語モデル向けの推論デプロイメントツールキットであり、すぐに利用可能なプロダクトグレードのデプロイソリューションを提供します。本ツールは多様な主要ハードウェアプラットフォームをサポートし、負荷分散された PD 分離、統合された KV cache 転送、および複数の高度な高速化技術を統合しています。開発者は OpenAI API 互換インターフェースを通じて迅速なデプロイを実現し、完全な量子化フォーマットサポートを活用して推論パフォーマンスを最適化できます。

alibaba / rtp-llm

RTP-LLM は Alibaba Foundation Model Inference チームによって開発された高性能な LLM 推論アクセラレーションエンジンです。このエンジンは Taobao や Tmall といった Alibaba の多様なビジネスシナリオで広く活用されており、主要なモデルフォーマットやハードウェアバックエンドをサポートしています。高度なオペレーター最適化、量子化技術、分散推論機能を統合することで、大規模言語モデルに対して効率的なプロダクションレベルのサービスを提供します。

toverainc / willow

Willow Inference Server を使用すると、ユーザーはさまざまなアプリケーション向けに高速な言語推論タスクをセルフホストできます。このサーバーは、speech-to-text、text-to-speech、および large language model の処理を含む重要な機能をサポートしています。ユーザーは、プロジェクトの Web サイトや GitHub discussions を通じて、公式ドキュメントやコミュニティのサポートにアクセス可能です。

alibaba / tair-kvcache

Tair KVCache は、分散メモリプーリングと動的なマルチレベルキャッシュを通じて LLM 推論を高速化するために設計された Alibaba Cloud のシステムです。このプロジェクトは、グローバルな KVCache メタデータとストレージ容量を一元管理し、効率的なデータ信頼性とリソース活用を実現します。さらに、実際の GPU リソースを必要とせずにパフォーマンス指標を予測できる高精度なシミュレーションツールも含まれています。

alexzhang13 / rlm

Recursive Language Models (RLMs) は、プログラムによる分解と再帰的な自己呼び出しを通じて、言語モデルがほぼ無限のコンテキストを処理できるようにするタスク非依存の推論パラダイムを提供します。このフレームワークは、標準的な補完呼び出しを RLM 固有のインターフェースに置き換え、コンテキストを REPL 環境にオフロードして対話的に実行します。本リポジトリは、複雑で多段階の言語モデル推論を促進するために、さまざまなローカルおよびクラウドベースのサンドボックス環境をサポートする拡張可能なエンジンを提供します。

Michael-A-Kuykendall / shimmy

Shimmy は、GGUF モデルをローカルで実行するための 100% OpenAI 互換 API を提供する軽量なシングルバイナリサーバーです。ゼロコンフィグレーションのモデル検出、GPU バックエンドの自動検知、大規模モデル向けの高度な CPU/GPU ハイブリッド処理機能を備えています。プライバシーとパフォーマンスを重視して設計されており、コードを変更することなく既存のツールにローカル LLM を統合できます。

// 累計の注目 (14)

ncnn はモバイルプラットフォーム向けに最適化された高性能なニューラルネットワーク推論フレームワークであり、モバイルデバイス上でのディープラーニングアルゴリズムのデプロイを簡素化します。サードパーティの依存関係がなくクロスプラットフォームに対応しており、モバイル CPU 上での実行速度は既存のオープンソースフレームワークを凌駕します。現在、ncnn は Tencent の様々な主要アプリケーションで広く利用されており、開発者がインテリジェントなアプリケーションを容易に構築できるよう支援しています。

ncnn は、モバイルプラットフォーム向けに深く最適化された高性能なニューラルネットワーク推論フレームワークです。サードパーティの依存関係がなく、クロスプラットフォーム対応を特徴としており、モバイル CPU 上で既存のオープンソースフレームワークを凌駕する性能を発揮します。開発者は ncnn を使用してディープラーニングモデルをモバイルデバイスへ容易に移植し、多様なインテリジェントアプリケーションを構築可能です。

MNN は、モバイルや組み込みデバイスでの効率的なモデル推論と学習のために設計された、高性能かつ軽量なディープラーニングフレームワークです。幅広いニューラルネットワークアーキテクチャをサポートし、モデルの変換、圧縮、汎用計算のための多機能なツールを提供します。このフレームワークは、デバイスとクラウドが連携する機械学習を実現するために、Alibaba の様々なアプリケーションを含む本番環境で広く利用されています。

PaddlePaddle / FastDeploy

FastDeploy は PaddlePaddle をベースとした大規模言語モデルおよび視覚言語モデル向けの推論デプロイメントツールキットであり、すぐに利用可能なプロダクトグレードのデプロイソリューションを提供します。本ツールは多様な主要ハードウェアプラットフォームをサポートし、負荷分散された PD 分離、統合された KV cache 転送、および複数の高度な高速化技術を統合しています。開発者は OpenAI API 互換インターフェースを通じて迅速なデプロイを実現し、完全な量子化フォーマットサポートを活用して推論パフォーマンスを最適化できます。

alibaba / rtp-llm

RTP-LLM は Alibaba Foundation Model Inference チームによって開発された高性能な LLM 推論アクセラレーションエンジンです。このエンジンは Taobao や Tmall といった Alibaba の多様なビジネスシナリオで広く活用されており、主要なモデルフォーマットやハードウェアバックエンドをサポートしています。高度なオペレーター最適化、量子化技術、分散推論機能を統合することで、大規模言語モデルに対して効率的なプロダクションレベルのサービスを提供します。

PaddlePaddle / FastDeploy

FastDeploy は PaddlePaddle をベースとした大規模言語モデルおよび視覚言語モデル向けの推論デプロイメントツールキットであり、すぐに利用可能なプロダクションレベルのデプロイメントソリューションを提供することを目指しています。本ツールキットは多様な主要ハードウェアプラットフォームをサポートし、負荷分散型の PD 分離、統合された KV キャッシュ転送、完全な量子化フォーマット対応といったコア技術を統合しています。OpenAI API や vLLM インターフェースとの互換性により、開発者が効率的にモデル推論やオンラインサービスのデプロイメントを実現できるよう支援します。

alibaba / rtp-llm

RTP-LLM は Alibaba Foundation Model Inference Team が開発した高性能な大規模モデル推論アクセラレーションエンジンであり、Taobao や Tmall などの多様なビジネスシナリオで広く活用されています。高度な CUDA カーネルと量子化技術を統合することで、モデルの推論パフォーマンスと効率を大幅に向上させます。さらに、複数のモデルフォーマット、マルチモーダル入力、LoRA サービスデプロイメントをサポートする高い柔軟性を備えています。

toverainc / willow

Willow Inference Server を使用すると、ユーザーはさまざまなアプリケーション向けに高速な言語推論タスクをセルフホストできます。このサーバーは、speech-to-text、text-to-speech、および large language model の処理を含む重要な機能をサポートしています。ユーザーは、プロジェクトの Web サイトや GitHub discussions を通じて、公式ドキュメントやコミュニティのサポートにアクセス可能です。

alibaba / tair-kvcache

Tair KVCache は、分散メモリプーリングと動的なマルチレベルキャッシュを通じて LLM 推論を高速化するために設計された Alibaba Cloud のシステムです。このプロジェクトは、グローバルな KVCache メタデータとストレージ容量を一元管理し、効率的なデータ信頼性とリソース活用を実現します。さらに、実際の GPU リソースを必要とせずにパフォーマンス指標を予測できる高精度なシミュレーションツールも含まれています。

google-ai-edge / LiteRT-LM

LiteRT-LM は、Google が開発したエッジデバイス上で Large Language Models をデプロイするための高性能かつ実用的な推論フレームワークです。Android、iOS、デスクトップ、IoT を含む幅広いプラットフォームをサポートし、GPU や NPU のハードウェアアクセラレーションを活用して最適なパフォーマンスを実現します。本フレームワークはマルチモーダルや function calling といった高度な機能を可能にし、様々な Google 製品におけるオンデバイス AI 体験を支えています。

alexzhang13 / rlm

Recursive Language Models (RLMs) は、プログラムによる分解と再帰的な自己呼び出しを通じて、言語モデルがほぼ無限のコンテキストを処理できるようにするタスク非依存の推論パラダイムを提供します。このフレームワークは、標準的な補完呼び出しを RLM 固有のインターフェースに置き換え、コンテキストを REPL 環境にオフロードして対話的に実行します。本リポジトリは、複雑で多段階の言語モデル推論を促進するために、さまざまなローカルおよびクラウドベースのサンドボックス環境をサポートする拡張可能なエンジンを提供します。

mnfst / awesome-free-llm-apis

このリポジトリは、テキスト推論に対して恒久的な無料枠を提供する LLM API プロバイダーの厳選リストです。サービスを直接プロバイダーの API とサードパーティの推論プラットフォームに分類し、モデルの機能、コンテキストウィンドウ、レート制限を詳細に解説しています。このコレクションは、さまざまな大規模言語モデルへのコスト効率の高いアクセスを求める開発者にとって包括的なリソースとなります。

baidu / vLLM-Kunlun

vLLM Kunlun は、vLLM を Kunlun XPU デバイス上でシームレスに実行可能にするコミュニティ管理のハードウェアプラグインです。これはハードウェアプラグ可能なインターフェースとして機能し、ユーザーは vLLM のソースコードを変更することなく、様々な大規模言語モデルやマルチモーダルモデルを実行できます。本プロジェクトは、量子化、LoRA ファインチューニング、ハードウェアアクセラレーションによるグラフ最適化などの高度な機能をサポートし、高性能な推論を実現します。

Michael-A-Kuykendall / shimmy

Shimmy は、GGUF モデルをローカルで実行するための 100% OpenAI 互換 API を提供する軽量なシングルバイナリサーバーです。ゼロコンフィグレーションのモデル検出、GPU バックエンドの自動検知、大規模モデル向けの高度な CPU/GPU ハイブリッド処理機能を備えています。プライバシーとパフォーマンスを重視して設計されており、コードを変更することなく既存のツールにローカル LLM を統合できます。

// プロジェクト別ユースケース

01Supports a variety of mainstream CNN models, including classification, detection, segmentation, and face recognition algorithms.
02Provides cross-platform deployment capabilities, supporting environments such as Android, iOS, Windows, Linux, macOS, and WebAssembly.
03Helps developers port deep learning algorithms to mobile devices through efficient implementation, enabling the rapid deployment of artificial intelligence applications.

01Efficiently deploy deep learning algorithm models on mobile devices
02Support mainstream CNN networks such as YOLO, MobileNet, and ResNet
03Achieve high-performance cross-platform neural network inference computation

01On-device inference and training for mobile and embedded platforms
02Large language model (LLM) and stable diffusion model deployment
03Model conversion and optimization from frameworks like TensorFlow, ONNX, and PyTorch

01Load-balanced PD separation and dynamic instance role switching
02Compatibility with OpenAI API interfaces and the vLLM ecosystem
03High-performance inference and full quantization support for multi-hardware platforms

01Supports various quantization techniques (INT8/INT4) and high-performance operator optimization to increase inference speed.
02Provides flexible features such as multi-LoRA service deployment, multimodal input processing, and tensor parallelism.
03Equipped with advanced acceleration technologies like context prefix caching and speculative sampling to optimize multi-turn conversation performance.

// 比較

voicebox vs willow neutts vs willow ncnn vs ncnn ncnn vs MNN FastDeploy vs ncnn FastDeploy vs unregistry

// 関連トピック

LLM (12)Deep Learning (6)Mobile (3)Computer Vision (3)CUDA (2)