首页LLMdeepseek-ai/TileKernels
// archived 2026-04-23
deepseek-ai

TileKernels

AILLMGPUCUDAPyTorchQuantization
前往 GitHub →
593

// 项目简介

TileKernels 提供了一系列专为使用 TileLang 框架进行大语言模型操作而设计的高性能 GPU Kernels。该项目包含了针对 Mixture of Experts 路由、高级量化技术以及流形超连接操作的专门实现。这些 Kernels 旨在最大化硬件性能,目前已被应用于内部的训练和推理工作流中。

// 技术分析

Tile Kernels 利用 TileLang 领域特定语言,为 LLM 操作提供专门优化的高性能 GPU 内核,旨在将硬件计算强度和内存带宽推向理论极限。通过将底层 GPU 编程抽象为 Python,该项目实现了敏捷开发,并简化了 Mixture of Experts (MoE) 路由和高级量化等复杂操作的迁移。尽管该项目目前优先考虑性能而非完善的文档,但它通过提供底层内核和高层 PyTorch autograd 封装,为生产级训练和推理奠定了坚实的基础。

// 核心亮点

01
为 Mixture of Experts 架构中的 Top-k 专家选择实现了高效的 Gating 机制。
02
提供全面的 MoE 路由支持,包括 token-to-expert 映射以及融合的扩展/归约操作。
03
支持 FP8、FP4 和 E5M6 转换等高级量化技术,并结合了融合的 SwiGLU 操作。
04
包含专门的 Engram gating 内核,具有融合的 RMSNorm 和权重梯度归约功能,以优化训练。
05
具备 Manifold HyperConnection 内核(如 Sinkhorn 归一化),以支持复杂的模型架构。
06
提供高层 torch.autograd.Function 封装,允许开发者将底层内核直接集成到可训练的 PyTorch 层中。

// 典型使用场景

01
Mixture of Experts (MoE) 路由和门控操作
02
支持融合 SwiGLU 的 FP8、FP4 和 E5M6 量化
03
用于可训练建模层的高级 PyTorch autograd 封装

// 快速开始

首先,请确保您的环境满足要求,包括 Python 3.10+、PyTorch 2.10+ 以及 NVIDIA SM90 或 SM100 GPU。使用 'pip install tile-kernels' 安装发布版本,或使用 'pip install -e ".[dev]"' 进行本地开发设置。随后,您可以探索项目结构以使用特定内核,或运行提供的 pytest 套件来验证正确性并进行性能基准测试。