首页 › 主题 › LLM

// 主题

LLM

117近 90 天热度·117历史累计

// 近 4 周新增

// 生态图谱

AI 114

Security 2

Frontend 1

// 近期新项目

查看全部新项目 →

#1张雪峰.skill：基于认知模型的思维框架🆕 27 天前↗ 673.31/d★ 6,766 #2Hermes Agent: 完整指南 (Orange Book)🆕 24 天前↗ 366.31/d★ 3,426 #3OpenClaw AI 智能体最佳用例与案例合集🆕 2 个月前↗ 205.61/d★ 3,959 #4童锦程.skill：基于深情祖师爷思维的人际关系分析工具🆕 27 天前↗ 179.12/d★ 1,789 #5Awesome DeepSeek Agent 集成指南🆕 5 天前↗ 151.86/d★ 483

// 本周 TOP 10

deepseek-ai / FlashMLA

FlashMLA 是一个高性能 Attention Kernels 库，专为驱动 DeepSeek-V3 和 DeepSeek-V3.2 模型而设计。它为预填充和解码阶段的稀疏和密集 Attention 机制提供了优化实现。该库支持 FP8 KV cache 等高级功能，并兼容包括 SM90 和 SM100 在内的多种 GPU 架构。

9312,617

BerriAI / litellm

LiteLLM 提供了一个统一的接口，可以使用一致的 OpenAI 兼容格式与 100 多个 LLM 提供商进行交互。开发人员可以将其用作 Python SDK 进行直接集成，或者将其部署为生产就绪的代理服务器。该平台通过提供负载均衡、支出跟踪和虚拟密钥等功能，简化了 LLM 的管理流程。

8945,389

TabbyML / tabby

Tabby 是一款自托管的开源 AI 编程助手，旨在作为 GitHub Copilot 的本地化替代方案。它作为一个独立的系统运行，无需外部云服务或数据库管理。该平台支持消费级 GPU，并提供 OpenAPI 接口，以便与现有的开发基础设施无缝集成。

8833,480

deepseek-ai / Thinking-with-Visual-Primitives

Thinking with Visual Primitives 引入了一种通过将空间标记直接交织到推理过程中来处理多模态大语言模型的新方法。该方法通过将抽象语言锚定到具体的物理坐标，解决了复杂结构任务中的引用鸿沟。该框架在保持高视觉标记效率的同时，通过压缩架构实现了具有前沿竞争力的性能。

84213

alibaba / page-agent

Page Agent 是一个客户端库，支持直接在浏览器内通过自然语言控制网页界面。它利用基于文本的 DOM 操作与元素交互，无需截图或复杂的 headless browser 设置。开发者可以轻松集成此工具来构建 AI copilot、自动化表单填写或增强网页可访问性。

8417,425

khoj-ai / khoj

Khoj 是一款多功能的个人 AI 应用程序，旨在通过集成各种本地和在线大语言模型来扩展您的能力。它允许用户通过跨多个平台访问的统一界面与个人文档及互联网进行交互。该项目是开源的，并支持从私有设备端部署到可扩展的企业级云解决方案等多种灵活的部署选项。

8334,330

Mininglamp-AI / Mano-P

Mano-P 是一个 GUI-VLA Agent 项目，旨在 Mac mini 和 MacBook 等边缘设备上实现自主且私密的任务执行。它利用先进的强化学习和边缘原生推理技术，执行复杂的 GUI 自动化、跨系统数据集成以及长任务规划。该项目提供了一种安全且优先本地化的解决方案，在无需云端 API 调用且保持跨基准测试高性能的同时，确保了数据隐私。

831,264

bytedance / deer-flow

DeerFlow 是一款开源超级智能体框架，旨在编排子智能体、记忆和沙盒以执行复杂任务。该平台在 2.0 版本中进行了彻底重构，通过模块化的技能和工具架构提供了更强的可扩展性。它支持多种部署环境，包括本地开发和基于 Docker 的生产环境，并集成了对多种消息渠道的支持。

8264,406

THUDM / slime

Slime 是一个专门设计的后训练框架，旨在扩展大语言模型的强化学习。它集成了 Megatron-LM 以实现高性能训练，并结合 SGLang 提供灵活且高效的数据生成工作流。该架构将训练和部署过程解耦，使研究人员能够构建并部署复杂的智能体 RL 系统。

795,543

deepseek-ai / DeepGEMM

DeepGEMM 是一个统一的 CUDA 库，专门为现代大语言模型提供高性能 Tensor Core 内核。它具备轻量级的 Just-In-Time 编译模块，无需在安装过程中进行 CUDA 编译。该库为各种矩阵运算（包括 FP8、FP4 和 BF16 GEMM）以及融合的 MoE 和 MQA 评分提供了专家级优化性能。

797,104

// 历史精选 (50)

deepseek-ai / FlashMLA

FlashMLA 是由 DeepSeek 开发的高性能 attention 内核库，旨在为其 V3 和 V3.2-Exp 模型提供支持。该存储库为预填充（prefill）和解码（decoding）阶段的稀疏和密集 attention 机制提供了专门的实现。这些内核针对 NVIDIA GPU 架构（包括 SM90 和 SM100）进行了优化，以实现显著的计算吞吐量。

BerriAI / litellm

PaddlePaddle / PaddleOCR

PaddleOCR 是一个综合性工具包，旨在将图像和 PDF 文档转换为 Markdown 和 JSON 等结构化、适配 LLM 的数据格式。它具备最先进的视觉语言模型和高性能文本识别引擎，支持超过 100 种语言。该平台被广泛集成到主流 AI Agent 和 RAG 框架中，可在各种硬件后端上提供高效的部署选项。

TabbyML / tabby

deepseek-ai / Thinking-with-Visual-Primitives

alibaba / page-agent

khoj-ai / khoj

Mininglamp-AI / Mano-P

bytedance / deer-flow

deepseek-ai / TileKernels

TileKernels 提供了一系列专为使用 TileLang 框架进行大语言模型操作而设计的高性能 GPU Kernels。该项目包含了针对 Mixture of Experts 路由、高级量化技术以及流形超连接操作的专门实现。这些 Kernels 旨在最大化硬件性能，目前已被应用于内部的训练和推理工作流中。

alibaba / MNN

MNN 是一个高性能、轻量级的深度学习框架，专为移动端和嵌入式设备上的高效模型推理与训练而设计。它支持多种神经网络架构，并提供用于模型转换、压缩和通用计算的多种工具。该框架已广泛应用于包括阿里巴巴各类应用在内的生产环境，以实现端云协同的机器学习。

WeaveMindAI / weft

Weft 是一种旨在将 LLM、人类交互和基础设施集成到统一可视化工作流中的编程语言。它具备持久化执行功能以确保程序在崩溃后仍能运行，并通过类型化的模块化节点系统支持复杂逻辑。开发者无需手动配置，即可通过连接原生节点来构建和管理复杂的智能体系统。

THUDM / slime

deepseek-ai / DeepGEMM

bytedance / deer-flow

DeerFlow 2.0 是一个从零开始重写的开源超级智能体框架，旨在编排子智能体、记忆和沙盒。它利用可扩展的技能，并与各种 AI 模型集成，通过灵活的容器化架构执行复杂任务。该框架支持多种部署模式，并提供与 Slack、Telegram 和 Feishu 等消息平台的无缝连接。

PaddlePaddle / PaddleFormers

PaddleFormers 是基于百度飞桨框架构建的 Transformers 库，旨在为大语言模型与视觉语言模型提供与 Hugging Face 对等的训练接口与功能体验。该项目通过集成张量并行、流水线并行及自动混合精度等技术，在主流模型上实现了超越 Megatron-LM 的训练性能。此外，它还全面支持国产计算芯片，并兼容 Safetensors 格式，助力开发者高效完成从预训练到后训练的全流程任务。

Tencent / WeKnora

WeKnora 是一个基于 LLM 的开源框架，专为企业级文档理解、语义检索和自主推理而设计。它配备了用于处理复杂多步任务的 ReAct 智能体，以及能将原始文档提炼为结构化互联知识库的 Wiki 模式。该平台支持多源数据摄入、多种 LLM 集成以及灵活的部署选项，以确保完整的数据主权。

nesquena / hermes-webui

Hermes WebUI 提供了一个轻量级的深色主题浏览器界面，与 Hermes Agent CLI 功能完全对等。它采用三面板布局，涵盖聊天、文件管理和会话导航，无需复杂的构建步骤或框架。用户可以通过 SSH 隧道或移动设备安全地访问自托管代理，同时保持持久化记忆和跨会话上下文。

farion1231 / cc-switch

CC Switch 是一款桌面应用程序，旨在集中管理 Claude Code、Codex、Gemini CLI、OpenCode 和 OpenClaw。它通过提供带有 50 多个内置提供商预设和系统托盘快速切换功能的图形界面，消除了手动编辑配置文件的需求。该工具还具备 MCP 服务器、提示词和技能的统一管理功能，并支持跨设备云同步。

elder-plinius / CL4R1T4S

CL4R1T4S 是一个综合性存储库，致力于揭示主流 AI 模型和智能体所使用的隐藏系统 Prompt、准则及工具。通过记录这些不可见的指令，该项目旨在让用户更清晰地理解塑造 AI 行为和决策的底层框架。该平台鼓励社区贡献，以维护一个包含来自各行业领先 AI 提供商的提取式系统 Prompt 的最新集合。

VoltAgent / awesome-design-md

此仓库提供了一系列精选的 DESIGN.md 文件，用于定义热门网站的视觉识别和设计系统。这些基于 markdown 的文档使 AI 编码代理无需复杂的工具或 Figma 导出即可理解并复制特定的 UI 风格。每个条目都包含详细的设计令牌、排版规则和组件样式，以确保 AI 生成的界面保持一致且像素级完美。

HKUDS / RAG-Anything

RAG-Anything 是一个综合性框架，旨在处理和查询包括文本、图像、表格和数学公式在内的多种文档类型。它基于 LightRAG 构建，提供了一个端到端的流水线，将多模态内容整合到统一的知识图谱中以实现智能检索。该系统通过提供单一且连贯的复杂文档分析接口，消除了对多种专用工具的需求。

Gitlawb / openclaude

OpenClaude 是一个开源的编码代理 CLI，支持多种云端和本地模型提供商。它提供了一个以终端为先的统一工作流，具备文件管理、bash 执行和代理任务等工具。用户可以轻松集成包括 OpenAI、Ollama 和 Gemini 在内的各种后端，同时利用代理路由和 gRPC 支持等高级功能。

bytedance / agentkit-samples

AgentKit 代码工坊是火山引擎推出的 AI Agent 开发平台示例仓库，旨在帮助开发者快速掌握智能体的构建与部署。该项目提供了从基础入门到复杂场景的多种代码示例，涵盖了多智能体协作、RAG 检索增强及工具调用等核心功能。开发者可以通过这些教程深入理解 AgentKit 的开发工具链，并将其高效集成到各类业务应用中。

THUDM / slime

Slime 是一个 LLM 后训练框架，旨在通过集成 Megatron 进行高性能训练和 SGLang 进行高效 rollout 生成，从而实现强化学习的扩展。该框架利用数据缓冲区连接训练和生成，为复杂的 RL 任务提供灵活且异步的工作流。它支持多种最先进的模型，包括 GLM、Qwen、DeepSeek 和 Llama 系列。

alibaba / ROLL

ROLL 是一个高效且易于使用的库，旨在为大规模 GPU 集群上的大语言模型扩展强化学习工作流。它支持包括 RLVR、智能体交互和蒸馏在内的多种训练范式，同时集成了 Megatron-Core、vLLM 和 SGLang 等先进后端。该框架提供强大的可观测性和灵活的资源管理，以提升复杂推理和人类偏好对齐任务中的性能。

XiaoMi / xiaomi-miloco

Xiaomi Miloco 是一款开源智能家居解决方案，利用端侧大语言模型来集成和控制 IoT 设备。通过利用摄像头数据流，该系统能够实现复杂的家庭自动化和事件分析的自然语言交互。它通过在用户硬件上本地执行视觉理解和任务规划，优先保障用户隐私。

alchaincyf / hermes-agent-orange-book

本综合指南详细介绍了由 Nous Research 开发的 Hermes Agent 框架。书中分十七章涵盖了自我改进学习循环、记忆系统和自动化技能演进等核心机制。对于希望实现并定制自己智能代理的开发者和 AI 爱好者而言，本书是一份实用的参考资源。

Tencent / AI-Infra-Guard

AI-Infra-Guard 是由腾讯朱雀实验室开发的开源红队测试平台，旨在为 AI 基础设施提供全面的安全自检。它集成了多种扫描能力，包括 AI 组件漏洞检测、Agent 工作流安全以及越狱评估。该平台设计友好，提供现代化的 Web 界面和强大的 API，以便无缝集成到安全工作流中。

ant-design / x

Ant Design X 提供了一套全面的原子组件和实用 API，专为构建智能 AI 界面而设计。该库包含用于流式 Markdown 渲染、动态卡片生成以及管理 AI Agent 数据流的专业工具。它提供了一个企业级的生态系统，帮助开发者高效地创建高质量的交互式 AI 对话应用。

openocta / openocta

OpenOcta 是一款完全自研的企业级 AI Agent 运行时与控制面，采用单一 Go 二进制文件封装后端与内嵌前端。该项目支持智能对话、流程自动化以及业务系统、API 与工具链的深度整合。用户可通过 CLI、HTTP 或 WebSocket 等多种方式快速部署并对接企业内部业务系统。

abi / secret-llama

Secret Llama 是一款完全在浏览器内运行的聊天机器人，允许用户在本地运行 Llama 3 和 Mistral 等开源模型。由于该应用程序直接在浏览器中运行，所有对话数据均保持私密，且无需进行任何服务器安装。该平台提供了一个用户友好的界面，在利用 WebGPU 技术提升性能的同时支持离线使用。

PaddlePaddle / FastDeploy

FastDeploy 是基于飞桨的大语言模型与视觉语言模型推理部署工具包，旨在提供开箱即用的生产级部署方案。该工具支持多种主流硬件平台，并集成了负载均衡式PD分解、统一KV缓存传输及多种高级加速技术。开发者可通过兼容 OpenAI API 的接口实现快速部署，并利用全量化格式支持优化推理性能。

Tencent / AI-Infra-Guard

AI-Infra-Guard 是由腾讯朱雀实验室打造的专业AI红队安全评估平台，旨在为企业和个人提供全面的AI安全风险自查方案。该平台集成了AI基础设施漏洞扫描、Agent工作流安全评估、MCP服务器扫描及越狱测试等多种核心功能。用户可通过Docker快速部署，利用其现代化的Web界面和完善的API接口实现高效的安全检测与管理。

alibaba / rtp-llm

RTP-LLM 是由阿里巴巴基础模型推理团队开发的高性能大模型推理加速引擎。该引擎已在淘宝、天猫等多个阿里业务场景中广泛应用，支持多种主流模型格式与硬件后端。它通过集成先进的算子优化、量化技术及分布式推理能力，为大规模语言模型提供高效的生产级服务。

alibaba / ROLL

ROLL 是一个高效且用户友好的强化学习库，专为在大规模 GPU 集群上训练和扩展 Large Language Models 而设计。它利用由 Ray 驱动的多角色分布式架构，以支持诸如人类偏好对齐、推理和 Agentic 交互等复杂任务。该框架集成了 Megatron-Core、vLLM 和 SGLang 等先进技术，旨在加速跨不同硬件环境的模型训练和推理。

NousResearch / hermes-agent

Hermes Agent 是由 Nous Research 设计的一款自我提升 AI 助手，通过内置的学习循环来创建并优化技能。它支持多种 LLM 提供商，并可部署在 Telegram、Discord 和本地终端环境等各种平台。该系统具备持久化记忆、定时自动化功能，并能够为复杂的并行任务生成子 Agent。

PaddlePaddle / FastDeploy

FastDeploy 是基于飞桨的大语言模型与视觉语言模型推理部署工具包，旨在提供开箱即用的生产级部署方案。该工具包支持多种主流硬件平台，并集成了负载均衡式PD分解、统一KV缓存传输及全量化格式支持等核心技术。通过兼容 OpenAI API 和 vLLM 接口，它能够帮助开发者高效实现模型推理与在线服务部署。

alibaba / rtp-llm

RTP-LLM 是由阿里巴巴基础模型推理团队开发的高性能大模型推理加速引擎，广泛应用于淘宝、天猫等多个业务场景。该引擎通过集成多种先进的 CUDA 内核与量化技术，显著提升了模型推理的性能与效率。此外，它还具备极高的灵活性，支持多种模型格式、多模态输入以及 LoRA 服务部署。

toverainc / willow

Willow Inference Server 允许用户自托管用于各种应用程序的高速语言推理任务。它支持包括 speech-to-text、text-to-speech 和大型语言模型处理在内的核心功能。用户可以通过项目网站和 GitHub discussions 获取官方文档和社区支持。

openai / openai-agents-python

OpenAI Agents SDK 是一个专为构建复杂多智能体工作流而设计的轻量级框架。它支持多种 LLM，并提供工具集成、护栏机制和人机协作等核心功能。开发者还可以利用沙盒智能体处理长时间运行的任务，并借助内置的追踪功能来调试和优化智能体应用。

meituan / EvoCUA

EvoCUA 是一款高性能开源多模态模型，专为跨各种桌面应用程序的端到端计算机自动化而设计。它目前在 OSWorld 基准测试中排名第一，并展现出卓越的跨操作系统泛化能力。此外，该模型以其强大的安全配置而闻名，在领先的计算机使用智能体中表现出最低的非预期行为率。

alchaincyf / zhangxuefeng-skill

张雪峰.skill 是一个基于深度调研构建的认知操作系统，旨在提供可运行的思维框架而非简单的语录合集。该项目通过提炼核心心智模型、决策启发式及表达DNA，帮助用户以张雪峰的视角分析专业选择与职业规划。用户可通过安装该技能，在 Claude Code 中获取针对性的决策建议与深度分析。

Tencent / AngelSlim

AngelSlim 是一款高度集成的工具包，旨在为大型语言模型、视觉模型和扩散模型提供高效的压缩解决方案。它支持包括高级量化、投机采样和 Token 剪枝在内的多种技术，以优化模型性能。该框架为开发者提供了一个统一的接口，用于在各种硬件环境下进行模型训练、部署和性能评估。

alibaba / tair-kvcache

Tair KVCache 是阿里云开发的一套系统，旨在通过分布式内存池和动态多级缓存技术加速大语言模型推理。该项目提供了一个用于全局 KVCache 元数据和存储容量的集中式管理器，确保了高效的数据可靠性和资源利用率。此外，它还包含一个高保真仿真工具，允许开发者在无需实际 GPU 资源的情况下预测性能指标。

GammaLabTechnologies / harmonist

Harmonist 是一个便携式多 Agent 框架，它通过机械化的 IDE 级钩子而非依赖 LLM 提示词来强制执行开发协议。它提供了一个结构化且经过验证的内存系统以及供应链验证，以确保代码变更符合不可妥协的质量和安全标准。该框架可与 Cursor 和 Claude Code 等主流 AI 编程助手无缝集成，提供 186 个专用 Agent 目录，且无需外部运行时或数据库。

jnMetaCode / superpowers-zh

superpowers-zh 是一个为 17 款主流 AI 编程工具提供系统化工作方法论的中文增强版项目。它在完整汉化上游 14 个核心技能的基础上，新增了 6 个专为中国开发者设计的特色技能。通过统一的安装命令，开发者可以轻松为 Claude Code、Cursor 等工具配置实战验证的开发流程。

XiaoMi / xiaomi-miloco

Xiaomi Miloco 是一个开源探索方案，它将 Xiaomi Home 摄像头与自研 LLM 相结合，以控制 IoT 设备。它利用端侧模型处理视觉数据以进行场景理解，同时确保用户隐私和安全。用户可以定义复杂的家庭规则，并使用自然语言与他们的智能生态系统进行交互。

deepseek-ai / awesome-deepseek-agent

Awesome DeepSeek Agent 是一个精选指南合集，旨在帮助用户将 DeepSeek 模型集成到各种 AI 编程助手和智能体工具中。每份指南都提供了安装、配置和初始设置的分步说明，以确保流畅的用户体验。开发者可以快速在自己偏好的终端或编辑器环境中启用 DeepSeek-V4-Pro 或 DeepSeek-V4-Flash。

// 项目使用场景

FlashMLA

01用于预填充和解码阶段的 Token-level 稀疏 Attention
02用于高性能预填充和解码的密集 Attention Kernels
03支持 FP8 KV cache 以优化内存和计算效率

FlashMLA

01用于高效预填充和解码阶段的 Token-level 稀疏 attention
02用于标准 Multi-Head Attention (MHA) 操作的密集 attention 内核
03支持 FP8 KV cache 以优化解码期间的内存使用

litellm

01适用于 100+ LLM 提供商的统一 API
02具备负载均衡和护栏功能的生产就绪型 AI 网关
03与 MCP 工具和 A2A 代理的无缝集成

PaddleOCR

01用于提取适配 LLM 的结构化数据的智能文档解析
02针对自然场景和文档分析的通用多语言文本识别
03为微调 Large Language Models 构建高质量数据集

tabby

01自托管 AI 代码补全与生成
02通过 Answer Engine 进行内部知识检索
03与 VSCode、Vim 和 IntelliJ 等 IDE 集成

// 项目对比

FlashMLA vs FlashMLA litellm vs FlashMLA PaddleOCR vs FlashMLA voicebox vs willow voicebox vs neutts neutts vs willow

LLM

// 近 4 周新增

// 生态图谱

// 近期新项目

// 本周 TOP 10

// 历史精选 (50)

// 项目使用场景

// 项目对比

// 相关主题