Tencent

AngelSlim

AI#LLM#Quantization#Model Compression#Speculative Decoding#Deep Learning

570

// 项目简介

AngelSlim 是一款高度集成的工具包，旨在为大型语言模型、视觉模型和扩散模型提供高效的压缩解决方案。它支持包括高级量化、投机采样和 Token 剪枝在内的多种技术，以优化模型性能。该框架为开发者提供了一个统一的接口，用于在各种硬件环境下进行模型训练、部署和性能评估。

// 技术分析

AngelSlim 是一个高度集成的工具包，旨在简化并加速大规模模型（包括 LLM、VLM 和扩散模型）的压缩。通过将量化、推测解码和稀疏注意力等多种压缩技术统一到一个框架中，它解决了在资源受限的硬件上部署海量模型的复杂性。该项目通过模块化 API 和配置驱动的工作流优先考虑易用性，同时高度关注性能优化，以实现最先进模型的高效推理。

// 核心亮点

提供了一个统一且高度集成的框架，支持针对 LLM、VLM 和扩散模型的广泛压缩算法。

通过 Eagle3 提供先进的推测解码功能，可实现 1.4–1.9 倍的显著推理加速。

支持多种量化方法，包括 FP8、INT8、INT4 以及 NVFP4、Tequila 和 Sherry 等专用技术。

优化端到端性能，允许在有限的 GPU 资源上量化和部署 Qwen3-235B 等海量模型。

内置支持通过 vLLM 和 SGLang 等行业标准推理引擎进行部署，以提供兼容 OpenAI 的 API 服务。

提供用于视觉 token 剪枝和合并的元数据驱动框架，促进多模态模型的高效处理。

// 典型使用场景

使用 FP8、INT4 以及 Tequila 和 Sherry 等专业方法进行模型量化

使用 Eagle3 为 LLM、VLM 和音频模型提供投机采样训练与部署

通过高级缓存和量化技术实现扩散模型优化

// 快速开始

首先，使用 'pip install angelslim' 安装工具包，或克隆存储库进行可编辑的源码安装。开发人员随后可以使用 'Engine' API 进行程序化模型压缩，或执行提供的 shell 脚本来完成推测解码训练和模型量化等任务。详细的文档和快速入门指南可协助处理特定的模型配置和部署工作流。