Tencent

AngelSlim

AI#LLM#Quantization#Model Compression#Speculative Decoding#Deep Learning

570

// 概要

AngelSlim は、大規模言語モデル、ビジョンモデル、および拡散モデル向けに効率的な圧縮ソリューションを提供する高度に統合されたツールキットです。高度な量子化、Speculative decoding、Token pruning など、モデルのパフォーマンスを最適化するための幅広い技術をサポートしています。このフレームワークは、さまざまなハードウェア環境全体でトレーニング、デプロイ、およびパフォーマンス評価を行うための統一されたインターフェースを開発者に提供します。

// 技術解説

AngelSlim は、LLM、VLM、および diffusion models を含む大規模モデルの圧縮を簡素化し加速するために設計された、高度に統合されたツールキットです。量子化、speculative decoding、sparse attention といった多様な圧縮技術を単一のフレームワークに統合することで、リソースが制限されたハードウェア上での巨大なモデルのデプロイにおける複雑さに対処します。このプロジェクトは、modular API と設定駆動型のワークフローを通じて使いやすさを優先しつつ、最先端モデルの効率的な推論を実現するためのパフォーマンス最適化に重点を置いています。

// 主要ハイライト

LLM、VLM、および diffusion models に対する幅広い圧縮アルゴリズムをサポートする、統合された高度なフレームワークを提供します。

Eagle3 を介した高度な speculative decoding 機能を備えており、1.4 ～ 1.9 倍の劇的な推論速度向上を実現します。

FP8、INT8、INT4 などの多様な量子化手法や、NVFP4、Tequila、Sherry といった専門的な技術をサポートしています。

エンドツーエンドのパフォーマンスを最適化し、Qwen3-235B のような巨大なモデルを限られた GPU リソース上で量子化およびデプロイできるようにします。

OpenAI 互換の API サービス向けに、vLLM や SGLang といった業界標準の推論エンジンを通じたデプロイを組み込みでサポートしています。

vision token のプルーニングとマージのためのメタデータ駆動型フレームワークを提供し、マルチモーダルモデルにおける効率的な処理を促進します。

// ユースケース

FP8、INT4 などのアルゴリズムや Tequila、Sherry といった専門的な手法を用いたモデルの量子化

Eagle3 を使用した LLM、VLM、およびオーディオモデル向けの Speculative decoding のトレーニングとデプロイ

高度なキャッシングおよび量子化技術を通じた拡散モデルの最適化

// クイックスタート

開始するには、「pip install angelslim」を使用してツールキットをインストールするか、リポジトリをクローンして編集可能なソースインストールを行ってください。開発者は、プログラムによるモデル圧縮のために「Engine」API を利用するか、speculative decoding のトレーニングやモデルの量子化といったタスクのために提供されているシェルスクリプトを実行できます。特定のモデル設定やデプロイワークフローを支援するための詳細なドキュメントとクイックスタートガイドが用意されています。