deepseek-ai

TileKernels

AILLMGPUCUDAPyTorchQuantization

593

// 项目简介

TileKernels 提供了一系列专为使用 TileLang 框架进行大语言模型操作而设计的高性能 GPU Kernels。该项目包含了针对 Mixture of Experts 路由、高级量化技术以及流形超连接操作的专门实现。这些 Kernels 旨在最大化硬件性能，目前已被应用于内部的训练和推理工作流中。

// 技术分析

Tile Kernels 利用 TileLang 领域特定语言，为 LLM 操作提供专门优化的高性能 GPU 内核，旨在将硬件计算强度和内存带宽推向理论极限。通过将底层 GPU 编程抽象为 Python，该项目实现了敏捷开发，并简化了 Mixture of Experts (MoE) 路由和高级量化等复杂操作的迁移。尽管该项目目前优先考虑性能而非完善的文档，但它通过提供底层内核和高层 PyTorch autograd 封装，为生产级训练和推理奠定了坚实的基础。

// 核心亮点

为 Mixture of Experts 架构中的 Top-k 专家选择实现了高效的 Gating 机制。

提供全面的 MoE 路由支持，包括 token-to-expert 映射以及融合的扩展/归约操作。

支持 FP8、FP4 和 E5M6 转换等高级量化技术，并结合了融合的 SwiGLU 操作。

包含专门的 Engram gating 内核，具有融合的 RMSNorm 和权重梯度归约功能，以优化训练。

具备 Manifold HyperConnection 内核（如 Sinkhorn 归一化），以支持复杂的模型架构。

提供高层 torch.autograd.Function 封装，允许开发者将底层内核直接集成到可训练的 PyTorch 层中。

// 典型使用场景

Mixture of Experts (MoE) 路由和门控操作

支持融合 SwiGLU 的 FP8、FP4 和 E5M6 量化

用于可训练建模层的高级 PyTorch autograd 封装

// 快速开始

首先，请确保您的环境满足要求，包括 Python 3.10+、PyTorch 2.10+ 以及 NVIDIA SM90 或 SM100 GPU。使用 'pip install tile-kernels' 安装发布版本，或使用 'pip install -e ".[dev]"' 进行本地开发设置。随后，您可以探索项目结构以使用特定内核，或运行提供的 pytest 套件来验证正确性并进行性能基准测试。