首页 › 主题 › PyTorch

// 主题

PyTorch

10近 90 天热度·10历史累计

// 近 4 周新增

// 生态图谱

AI 10

// 本周 TOP 5

deepseek-ai / FlashMLA

FlashMLA 是由 DeepSeek 开发的高性能注意力内核库，旨在为其 V3 和 V3.2-Exp 模型提供动力。它为预填充和解码阶段的稀疏和密集注意力机制提供了专门的实现。该库专为 NVIDIA GPU 架构设计，并支持 FP8 KV 缓存等高级功能，以最大限度地提高计算效率。

deepseek-ai / TileKernels

TileKernels 提供了一系列专为使用 TileLang 框架进行大语言模型操作而设计的高性能 GPU Kernels。该项目包含了针对 Mixture of Experts 路由、高级量化技术以及流形超连接操作的专门实现。这些 Kernels 旨在最大化硬件性能，目前已被应用于内部的训练和推理工作流中。

baidu / vLLM-Kunlun

vLLM Kunlun 是一个由社区维护的硬件插件，旨在实现 vLLM 在 Kunlun XPU 设备上的无缝运行。它利用硬件可插拔接口实现集成解耦，确保与各种 Transformer、Mixture-of-Expert 和多模态模型兼容。该插件是开发者在 Kunlun3 P800 硬件上部署高性能 LLM 的推荐解决方案。

rohitg00 / ai-engineering-from-scratch

本综合课程提供了一条从基础线性代数到构建高级自主智能体集群的结构化学习路径。它强调 AI-native 的学习方法，学生利用 AI 编码智能体来测试理解并构建可复用的工具。每节课都旨在产出具体的成果，包括 prompts、技能和 MCP servers，确保学生获得实用的专业经验。

alibaba / TorchEasyRec

TorchEasyRec 是一个基于 PyTorch 的框架，旨在构建生产就绪的深度学习推荐模型。它支持包括候选生成、排序、多任务学习和生成式推荐在内的广泛任务。该框架提供了灵活的配置、分布式训练能力，并能与各种数据源和部署环境无缝集成。

// 历史精选 (10)

deepseek-ai / FlashMLA

FlashMLA 是由 DeepSeek 开发的高性能注意力内核库，旨在为其 V3 和 V3.2-Exp 模型提供动力。它为预填充和解码阶段的稀疏和密集注意力机制提供了专门的实现。该库专为 NVIDIA GPU 架构设计，并支持 FP8 KV 缓存等高级功能，以最大限度地提高计算效率。

deepseek-ai / FlashMLA

FlashMLA 是由 DeepSeek 开发的高性能 attention 内核库，旨在为其 V3 和 V3.2-Exp 模型提供支持。该存储库为预填充（prefill）和解码（decoding）阶段的稀疏和密集 attention 机制提供了专门的实现。这些内核针对 NVIDIA GPU 架构（包括 SM90 和 SM100）进行了优化，以实现显著的计算吞吐量。

deepseek-ai / TileKernels

TileKernels 提供了一系列专为使用 TileLang 框架进行大语言模型操作而设计的高性能 GPU Kernels。该项目包含了针对 Mixture of Experts 路由、高级量化技术以及流形超连接操作的专门实现。这些 Kernels 旨在最大化硬件性能，目前已被应用于内部的训练和推理工作流中。

baidu / vLLM-Kunlun

vLLM Kunlun 是一个由社区维护的硬件插件，旨在实现 vLLM 在 Kunlun XPU 设备上的无缝运行。它利用硬件可插拔接口实现集成解耦，确保与各种 Transformer、Mixture-of-Expert 和多模态模型兼容。该插件是开发者在 Kunlun3 P800 硬件上部署高性能 LLM 的推荐解决方案。

rohitg00 / ai-engineering-from-scratch

本综合课程提供了一条从基础线性代数到构建高级自主智能体集群的结构化学习路径。它强调 AI-native 的学习方法，学生利用 AI 编码智能体来测试理解并构建可复用的工具。每节课都旨在产出具体的成果，包括 prompts、技能和 MCP servers，确保学生获得实用的专业经验。

alibaba / TorchEasyRec

TorchEasyRec 是一个基于 PyTorch 的框架，旨在构建生产就绪的深度学习推荐模型。它支持包括候选生成、排序、多任务学习和生成式推荐在内的广泛任务。该框架提供了灵活的配置、分布式训练能力，并能与各种数据源和部署环境无缝集成。

google-research / timesfm

TimesFM 是由 Google Research 专门为时间序列预测任务开发的仅解码器基础模型。最新的 2.5 版本采用了 200M 参数架构，支持高达 16k 的上下文长度和连续分位数预测。该存储库提供了用于推理、使用 LoRA 进行微调以及与代理工作流集成的全面工具。

PaddlePaddle / PaConvert

该工具由Paddle官方维护，旨在实现PyTorch代码到PaddlePaddle代码的高效自动化迁移。它支持超过1600个PyTorch API及200个torchvision API的一键转换，在测试中保持了95%以上的平均转换率。转换过程通过命令行操作，能够保持原代码的风格与结构，并提供详细的转换日志与总结。

nikopueringer / CorridorKey

CorridorKey 是一款基于神经网络的工具，旨在解决将前景主体从绿幕背景中分离的复杂问题。通过为每个像素预测真实的原始颜色和清晰的线性 alpha 通道，它能够保留传统抠像工具常会破坏的运动模糊和透明度等细腻细节。该软件通过输出与行业标准合成应用程序兼容的 16-bit 和 32-bit 线性浮点 EXR 文件，支持高保真 VFX 工作流程。

NVIDIA / personaplex

PersonaPlex 是一款基于 Moshi 架构构建的实时全双工语音到语音模型，能够通过文本提示和音频语音调节实现精确的角色控制。该模型在合成和真实对话数据的混合集上进行训练，以提供自然、低延迟的交互体验。用户可以通过提供的服务器接口部署该模型，或使用特定的语音嵌入和基于角色的提示进行离线评估。

// 项目使用场景

01用于高效预填充和解码的 Token 级稀疏注意力
02用于高吞吐量模型推理的密集注意力内核
03支持 FP8 KV 缓存以减少内存占用并提升性能

01用于高效预填充和解码阶段的 Token-level 稀疏 attention
02用于标准 Multi-Head Attention (MHA) 操作的密集 attention 内核
03支持 FP8 KV cache 以优化解码期间的内存使用

01Mixture of Experts (MoE) 路由和门控操作
02支持融合 SwiGLU 的 FP8、FP4 和 E5M6 量化
03用于可训练建模层的高级 PyTorch autograd 封装

01在 Kunlun XPU 上运行基于 Transformer 和 Mixture-of-Expert 的 LLM
02部署具有硬件优化性能的多模态语言模型
03启用 LoRA 微调和量化支持以实现高效的模型推理

ai-engineering-from-scratch

01构建包含可复用 AI 工具、prompts 和智能体的作品集
02通过 Python、TypeScript、Rust 和 Julia 的动手实践学习 AI 概念
03使用 Claude Code 和 MCP servers 集成 AI-native 开发工作流

// 项目对比

litellm vs FlashMLA

// 相关主题

LLM (5)CUDA (3)Deep Learning (3)DeepSeek (2)Attention (2)