首页主题Deep Learning
// 主题

Deep Learning

33近 90 天热度·33历史累计

// 近 4 周新增

// 生态图谱

LLM11PaddlePaddle9Computer Vision7Inference6Machine Learning6Deep Learning
AI 33

// 近期新项目

查看全部新项目 →

// 本周 TOP 10

01
PaddlePaddle / Paddle
PaddlePaddle 是一个全面的工业级深度学习平台,提供核心框架、模型库和端到端开发工具。它支持统一动态图与静态图、自动并行以及用于科学计算的高阶微分等高级功能。该平台旨在促进跨不同工业领域的大规模模型训练与推理。
8523,870
02
deepseek-ai / DeepGEMM
DeepGEMM 是一个统一的 CUDA 库,专门为现代大语言模型提供高性能 Tensor Core 内核。它具备轻量级的 Just-In-Time 编译模块,无需在安装过程中进行 CUDA 编译。该库为各种矩阵运算(包括 FP8、FP4 和 BF16 GEMM)以及融合的 MoE 和 MQA 评分提供了专家级优化性能。
797,104
03
PaddlePaddle / PaddleFormers
PaddleFormers 是基于百度飞桨框架构建的 Transformers 库,旨在为大语言模型与视觉语言模型提供与 Hugging Face 对等的训练接口与功能体验。该项目通过集成张量并行、流水线并行及自动混合精度等技术,在主流模型上实现了超越 Megatron-LM 的训练性能。此外,它还全面支持国产计算芯片,并兼容 Safetensors 格式,助力开发者高效完成从预训练到后训练的全流程任务。
7812,991
04
alibaba / ROLL
ROLL 是一个高效且易于使用的库,旨在为大规模 GPU 集群上的大语言模型扩展强化学习工作流。它支持包括 RLVR、智能体交互和蒸馏在内的多种训练范式,同时集成了 Megatron-Core、vLLM 和 SGLang 等先进后端。该框架提供强大的可观测性和灵活的资源管理,以提升复杂推理和人类偏好对齐任务中的性能。
753,120
05
alibaba / rtp-llm
RTP-LLM 是由阿里巴巴基础模型推理团队开发的高性能大模型推理加速引擎。该引擎已在淘宝、天猫等多个阿里业务场景中广泛应用,支持多种主流模型格式与硬件后端。它通过集成先进的算子优化、量化技术及分布式推理能力,为大规模语言模型提供高效的生产级服务。
701,107
06
bilibili / Index-anisora
Index-AniSora 是一个专为高质量动漫视频生成和动画制作而设计的强大开源框架。该系统具备全面的数据处理流水线、带有时空掩码的可控生成模型以及专门的评估基准。它支持多种创意任务,包括角色 3D 生成、视频风格迁移以及用于精确运动控制的多模态引导。
682,421
07
alibaba / TorchEasyRec
TorchEasyRec 是一个基于 PyTorch 的框架,旨在开发生产就绪的深度学习推荐模型。它支持包括候选生成、排序、多任务学习和生成式推荐在内的广泛任务。该框架提供高可扩展性、灵活的数据源集成以及适用于真实生产环境的无缝部署选项。
60377
08
PaddlePaddle / PaddleCustomDevice
PaddleCustomDevice 是飞桨框架提供的自定义硬件接入实现方案。该项目通过标准化的接口设计,支持开发者将多种第三方硬件后端集成到飞桨生态中。目前已涵盖昇腾、寒武纪、英特尔GPU及苹果MPS等多种主流硬件平台的接入支持。
54104
09
bytedance / jaqmc
JaQMC 是一个基于 JAX 的模块化框架,专为执行神经网络量子蒙特卡洛模拟而设计。它利用深度神经网络作为变分波函数来求解电子 Schrödinger 方程,而无需依赖传统的基组。该项目通过高度可配置和可扩展的架构,支持包括分子、固体和分数量子霍尔态在内的多种量子系统。
53108
10
baidu / vLLM-Kunlun
vLLM Kunlun 是一个由社区维护的硬件插件,旨在实现 vLLM 在 Kunlun XPU 硬件上的无缝运行。它利用硬件可插拔接口来解耦集成过程,从而确保与多种开源模型的兼容性。该项目支持在 Kunlun3 P800 平台上运行包括基于 Transformer、混合专家模型 (MoE) 和多模态 LLM 在内的多种架构。
51405

// 历史精选 (33)

PaddlePaddle / Paddle
PaddlePaddle 是一个全面的工业级深度学习平台,提供了包含框架、模型库和开发工具的完整生态系统。它支持自动并行、训练与推理一体化以及用于科学计算的高阶微分等先进功能。该平台旨在通过提供灵活、高性能的架构来支持多样化的模型开发,从而促进 AI 在各行业的商业化落地。
92
PaddlePaddle / PaddleOCR
PaddleOCR 是一个综合性工具包,旨在将图像和 PDF 文档转换为 Markdown 和 JSON 等结构化、适配 LLM 的数据格式。它具备最先进的视觉语言模型和高性能文本识别引擎,支持超过 100 种语言。该平台被广泛集成到主流 AI Agent 和 RAG 框架中,可在各种硬件后端上提供高效的部署选项。
89
Tencent / ncnn
ncnn 是一个专为移动端极致优化的高性能神经网络前向计算框架,旨在简化深度学习算法在手机端的部署。该框架无第三方依赖且具备跨平台特性,在移动端 CPU 上的运行速度优于目前所有已知的开源框架。目前,ncnn 已被广泛应用于腾讯旗下的多款主流应用中,助力开发者轻松构建智能应用程序。
89
Tencent / ncnn
ncnn 是一个专为移动平台深度优化的高性能神经网络前向计算框架。该框架无第三方依赖且具备跨平台特性,在手机 CPU 上的运行速度优于目前所有已知的开源框架。开发者可以利用 ncnn 轻松将深度学习模型移植到移动端,从而构建各类智能应用程序。
87
PaddlePaddle / Paddle
PaddlePaddle 是一个全面的工业级深度学习平台,提供核心框架、模型库和端到端开发工具。它支持统一动态图与静态图、自动并行以及用于科学计算的高阶微分等高级功能。该平台旨在促进跨不同工业领域的大规模模型训练与推理。
85
alibaba / MNN
MNN 是一个高性能、轻量级的深度学习框架,专为移动端和嵌入式设备上的高效模型推理与训练而设计。它支持多种神经网络架构,并提供用于模型转换、压缩和通用计算的多种工具。该框架已广泛应用于包括阿里巴巴各类应用在内的生产环境,以实现端云协同的机器学习。
81
deepseek-ai / DeepEP
DeepEP 是一个专门设计的通信库,旨在通过高吞吐量、低延迟的 GPU kernels 来优化 Mixture-of-Experts 和专家并行。它提供了诸如非对称域带宽转发和低精度支持等高级功能,以增强训练和推理性能。该库还包含基于 hook 的机制,用于实现通信与计算重叠,从而在不占用额外流式多处理器资源的情况下最大化硬件效率。
80
deepseek-ai / DeepGEMM
DeepGEMM 是一个统一的 CUDA 库,专门为现代大语言模型提供高性能 Tensor Core 内核。它具备轻量级的 Just-In-Time 编译模块,无需在安装过程中进行 CUDA 编译。该库为各种矩阵运算(包括 FP8、FP4 和 BF16 GEMM)以及融合的 MoE 和 MQA 评分提供了专家级优化性能。
79
PaddlePaddle / PaddleFormers
PaddleFormers 是基于百度飞桨框架构建的 Transformers 库,旨在为大语言模型与视觉语言模型提供与 Hugging Face 对等的训练接口与功能体验。该项目通过集成张量并行、流水线并行及自动混合精度等技术,在主流模型上实现了超越 Megatron-LM 的训练性能。此外,它还全面支持国产计算芯片,并兼容 Safetensors 格式,助力开发者高效完成从预训练到后训练的全流程任务。
78
alibaba / ROLL
ROLL 是一个高效且易于使用的库,旨在为大规模 GPU 集群上的大语言模型扩展强化学习工作流。它支持包括 RLVR、智能体交互和蒸馏在内的多种训练范式,同时集成了 Megatron-Core、vLLM 和 SGLang 等先进后端。该框架提供强大的可观测性和灵活的资源管理,以提升复杂推理和人类偏好对齐任务中的性能。
75
PaddlePaddle / PaddleX
PaddleX 3.0 是基于飞桨框架构建的低代码开发工具,集成了大量开箱即用的预训练模型以支持全流程开发。该工具通过极简的 Python API 和图形界面,实现了从模型训练到推理部署的快速落地。此外,它还广泛兼容国内外主流硬件,助力开发者高效完成产业实践。
72
alibaba / rtp-llm
RTP-LLM 是由阿里巴巴基础模型推理团队开发的高性能大模型推理加速引擎。该引擎已在淘宝、天猫等多个阿里业务场景中广泛应用,支持多种主流模型格式与硬件后端。它通过集成先进的算子优化、量化技术及分布式推理能力,为大规模语言模型提供高效的生产级服务。
70
alibaba / ROLL
ROLL 是一个高效且用户友好的强化学习库,专为在大规模 GPU 集群上训练和扩展 Large Language Models 而设计。它利用由 Ray 驱动的多角色分布式架构,以支持诸如人类偏好对齐、推理和 Agentic 交互等复杂任务。该框架集成了 Megatron-Core、vLLM 和 SGLang 等先进技术,旨在加速跨不同硬件环境的模型训练和推理。
70
bilibili / Index-anisora
Index-AniSora 是一个专为高质量动漫视频生成和动画制作而设计的强大开源框架。该系统具备全面的数据处理流水线、带有时空掩码的可控生成模型以及专门的评估基准。它支持多种创意任务,包括角色 3D 生成、视频风格迁移以及用于精确运动控制的多模态引导。
68
alibaba / rtp-llm
RTP-LLM 是由阿里巴巴基础模型推理团队开发的高性能大模型推理加速引擎,广泛应用于淘宝、天猫等多个业务场景。该引擎通过集成多种先进的 CUDA 内核与量化技术,显著提升了模型推理的性能与效率。此外,它还具备极高的灵活性,支持多种模型格式、多模态输入以及 LoRA 服务部署。
68
bytedance / Protenix
Protenix 是一个专为高精度生物分子结构预测而设计的开源框架,其提供的模型性能可与最先进的方法相媲美。该项目提供了多个版本,包括增强版的 Protenix-v2,它在抗体-抗原结构预测和配体相关合理性方面展现了显著的改进。该项目基于 Apache 2.0 许可证发布,可免费用于学术和商业研究应用。
66
Tencent / AngelSlim
AngelSlim 是一款高度集成的工具包,旨在为大型语言模型、视觉模型和扩散模型提供高效的压缩解决方案。它支持包括高级量化、投机采样和 Token 剪枝在内的多种技术,以优化模型性能。该框架为开发者提供了一个统一的接口,用于在各种硬件环境下进行模型训练、部署和性能评估。
63
bilibili / Index-anisora
Index-AniSora 是由 Bilibili 开发的一套用于高质量动漫视频生成的综合开源系统。该项目提供了一个可控生成模型、专门的数据处理流水线以及针对动画美学定制的评估基准。它支持角色 3D 视频生成、视频风格迁移和多模态引导等高级功能,以促进多样化的动画制作任务。
61
alibaba / TorchEasyRec
TorchEasyRec 是一个基于 PyTorch 的框架,旨在开发生产就绪的深度学习推荐模型。它支持包括候选生成、排序、多任务学习和生成式推荐在内的广泛任务。该框架提供高可扩展性、灵活的数据源集成以及适用于真实生产环境的无缝部署选项。
60
OpenBMB / VoxCPM
VoxCPM2 是一款无需分词器、拥有 2B 参数的语音合成系统,利用扩散自回归架构生成高质量且富有表现力的音频。该模型支持 30 种语言,并提供语音设计、可控语音克隆以及录音室级别的 48kHz 输出等高级功能。它在 Apache-2.0 许可下完全开源,并通过 vLLM-Omni 和 Nano-vLLM 提供生产就绪的部署选项。
56
PaddlePaddle / PaddleCustomDevice
PaddleCustomDevice 是飞桨框架提供的自定义硬件接入实现方案。该项目通过标准化的接口设计,支持开发者将多种第三方硬件后端集成到飞桨生态中。目前已涵盖昇腾、寒武纪、英特尔GPU及苹果MPS等多种主流硬件平台的接入支持。
54
bytedance / jaqmc
JaQMC 是一个基于 JAX 的模块化框架,专为执行神经网络量子蒙特卡洛模拟而设计。它利用深度神经网络作为变分波函数来求解电子 Schrödinger 方程,而无需依赖传统的基组。该项目通过高度可配置和可扩展的架构,支持包括分子、固体和分数量子霍尔态在内的多种量子系统。
53
baidu / vLLM-Kunlun
vLLM Kunlun 是一个由社区维护的硬件插件,旨在实现 vLLM 在 Kunlun XPU 硬件上的无缝运行。它利用硬件可插拔接口来解耦集成过程,从而确保与多种开源模型的兼容性。该项目支持在 Kunlun3 P800 平台上运行包括基于 Transformer、混合专家模型 (MoE) 和多模态 LLM 在内的多种架构。
51
google / magika
Magika 是一款利用深度学习提供高精度文件类型识别的 AI 工具,支持超过 200 种内容类型。它配备了高度优化的模型,能够在毫秒级时间内提供推理结果,同时保持约 99% 的准确率。该项目提供通用的命令行界面以及 Python、JavaScript 和 Rust 语言绑定,以支持多样化的开发者工作流程。
50
k2-fsa / OmniVoice
OmniVoice 是一款基于扩散语言模型架构的先进大规模多语言零样本语音合成模型,支持超过 600 种语言。该模型具备卓越的推理速度,能够实现高质量的语音克隆与语音设计功能。用户可以通过 Python API 或命令行工具轻松进行语音生成,并支持细粒度的非语言符号及发音控制。
48
microsoft / VibeVoice
VibeVoice 是一系列利用连续语音分词器和下一标记扩散技术来实现高保真音频处理的开源语音 AI 模型。该框架包含用于长文本语音识别和实时流式文本转语音生成的先进工具。这些模型专为研究目的而设计,旨在促进语音合成社区内的协作与创新。
43
baidu / vLLM-Kunlun
vLLM Kunlun 是一个由社区维护的硬件插件,旨在实现 vLLM 在 Kunlun XPU 设备上的无缝运行。它作为一个硬件可插拔接口,允许用户在不修改原始 vLLM 源代码的情况下运行各种大语言模型和多模态模型。该项目支持量化、LoRA 微调和硬件加速图优化等高级功能,以确保高性能推理。
40
PaddlePaddle / docs
该仓库包含了官方 PaddlePaddle 文档平台的源代码文件。它将内容组织到 API 参考、用户指南和教程的特定目录中,以支持开发者使用。该项目还提供了 CI 脚本和构建说明,以促进本地文档生成和社区贡献。
39
PaddlePaddle / PaddleCustomDevice
PaddleCustomDevice 是飞桨深度学习框架提供的自定义硬件接入解决方案。该项目旨在帮助开发者将各类第三方硬件后端高效集成到飞桨生态中。目前已支持包括昇腾、寒武纪、英特尔GPU及苹果MPS在内的多种主流硬件平台。
38
PaddlePaddle / PaConvert
该工具由Paddle官方维护,旨在实现PyTorch代码到PaddlePaddle代码的高效自动化迁移。它支持超过1600个PyTorch API及200个torchvision API的一键转换,在测试中保持了95%以上的平均转换率。转换过程通过命令行操作,能够保持原代码的风格与结构,并提供详细的转换日志与总结。
34
PaddlePaddle / community
PaddlePaddle 社区是开发者通过代码改进、文档编写和技术分享为框架做出贡献的核心枢纽。它提供结构化的治理机制、专门的工作组以及各类导师计划,以支持开发者的积极参与。贡献者将通过官方认证、发布说明以及项目作者记录获得认可。
29
shiyu-coder / Kronos
Kronos 是一个开源的仅解码器基础模型,专门用于分析和预测金融 K 线序列。它利用两阶段框架,将多维市场数据量化为分层 Token,随后通过自回归 Transformer 进行处理。该项目提供了一套完整的预训练模型和工具,支持直接预测以及特定领域的微调。
28
rohitg00 / ai-engineering-from-scratch
AI Engineering from Scratch 是一个包含 320 小时的综合课程,引导学生从基础的线性代数学习到构建自主智能体集群。该课程强调 AI-native 的学习方法,学生在 20 个不同的阶段中使用 AI coding agents 来测试知识并构建可复用的工具。通过使用 Python、TypeScript、Rust 和 Julia 进行开发,学习者可以建立一个包含 prompts、技能和 agents 的专业作品集,并将其部署到实际环境中。
28

// 项目使用场景

Paddle
  • 01针对大规模模型的自动分布式并行训练
  • 02用于科学计算应用的高阶自动微分
  • 03通过标准化、可插拔架构实现的异构多芯片适配
PaddleOCR
  • 01用于提取适配 LLM 的结构化数据的智能文档解析
  • 02针对自然场景和文档分析的通用多语言文本识别
  • 03为微调 Large Language Models 构建高质量数据集
ncnn
  • 01支持多种主流 CNN 网络模型,包括分类、检测、分割及人脸识别等算法。
  • 02提供跨平台部署能力,支持 Android、iOS、Windows、Linux、macOS 及 WebAssembly 等多种环境。
  • 03通过高效的实现方式,帮助开发者将深度学习算法移植到移动端,实现人工智能应用的快速落地。
ncnn
  • 01在移动端高效部署深度学习算法模型
  • 02支持主流 CNN 网络如 YOLO、MobileNet 和 ResNet
  • 03实现跨平台的高性能神经网络推理计算
Paddle
  • 01支持自动并行的统一动态图与静态图训练
  • 02集成化的大模型训练与推理工作流
  • 03用于科学计算和微分方程的高阶微分

// 项目对比

// 相关主题