首页 › 主题 › Computer Vision

// 主题

Computer Vision

16近 90 天热度·16历史累计

// 近 4 周新增

// 生态图谱

AI 16

// 近期新项目

#1Thinking with Visual Primitives: Grounded Structural Reasoning🆕 2 天前↗ 127.35/d★ 213 #2Mano-P: 面向边缘设备的 GUI 感知私有 AI Agent🆕 1 个月前↗ 99.23/d★ 1,264 #3Xiaomi Miloco 本地智能家居副驾驶🆕 6 个月前↗ 68.06/d★ 2,549 #4ERNIE-Image: 高性能开源文生图扩散模型🆕 18 天前↗ 53.67/d★ 412

// 本周 TOP 8

deepseek-ai / Thinking-with-Visual-Primitives

Thinking with Visual Primitives 引入了一种通过将空间标记直接交织到推理过程中来处理多模态大语言模型的新方法。该方法通过将抽象语言锚定到具体的物理坐标，解决了复杂结构任务中的引用鸿沟。该框架在保持高视觉标记效率的同时，通过压缩架构实现了具有前沿竞争力的性能。

84213

Mininglamp-AI / Mano-P

Mano-P 是一个 GUI-VLA Agent 项目，旨在 Mac mini 和 MacBook 等边缘设备上实现自主且私密的任务执行。它利用先进的强化学习和边缘原生推理技术，执行复杂的 GUI 自动化、跨系统数据集成以及长任务规划。该项目提供了一种安全且优先本地化的解决方案，在无需云端 API 调用且保持跨基准测试高性能的同时，确保了数据隐私。

831,264

XiaoMi / xiaomi-miloco

Xiaomi Miloco 是一款开源智能家居解决方案，利用端侧大语言模型来集成和控制 IoT 设备。通过利用摄像头数据流，该系统能够实现复杂的家庭自动化和事件分析的自然语言交互。它通过在用户硬件上本地执行视觉理解和任务规划，优先保障用户隐私。

742,549

baidu / ERNIE-Image

ERNIE-Image 是百度开发的一款基于单流扩散 Transformer (DiT) 架构的开源文生图模型。该模型配备轻量级提示词增强器，能够将简短输入转化为结构丰富的描述，并在 8B 参数规模下实现业界领先的生成效果。它特别擅长处理复杂的文本渲染、多对象布局及指令遵循任务，且支持在消费级 GPU 上高效部署。

71412

bilibili / Index-anisora

Index-AniSora 是一个专为高质量动漫视频生成和动画制作而设计的强大开源框架。该系统具备全面的数据处理流水线、带有时空掩码的可控生成模型以及专门的评估基准。它支持多种创意任务，包括角色 3D 生成、视频风格迁移以及用于精确运动控制的多模态引导。

682,421

trycua / cua

Cua 提供了一个统一的生态系统，用于构建、基准测试和部署能够与计算机界面交互的自主智能体。该平台包含用于后台 macOS 自动化、跨平台沙箱和高性能虚拟化的专业工具。开发人员可以利用这些组件创建能够无缝执行任务、运行代码并导航复杂 GUI 环境的智能体。

55103

nikopueringer / CorridorKey

CorridorKey 是一款基于神经网络的工具，旨在解决将前景主体从绿幕或蓝幕背景中分离的复杂问题。它能够为每个像素重建真实的直通色彩和线性 Alpha 通道，从而有效保留头发和运动模糊等精细细节。该项目通过输出与行业标准合成软件兼容的 16-bit 和 32-bit Linear float EXR 文件，为高保真 VFX 工作流程提供支持。

4223

Anil-matcha / Open-Generative-AI

Open Generative AI 是一个免费的开源平台，为商业 AI 媒体工具提供了一种无限制的替代方案。它支持超过 200 种用于图像、视频和唇形同步生成的尖端模型，且没有任何内容过滤器或订阅费用。用户可以通过基于 Web 的界面或支持本地及远程推理的桌面应用程序来访问这些功能。

39129

// 历史精选 (16)

PaddlePaddle / PaddleOCR

PaddleOCR 是一个综合性工具包，旨在将图像和 PDF 文档转换为 Markdown 和 JSON 等结构化、适配 LLM 的数据格式。它具备最先进的视觉语言模型和高性能文本识别引擎，支持超过 100 种语言。该平台被广泛集成到主流 AI Agent 和 RAG 框架中，可在各种硬件后端上提供高效的部署选项。

Tencent / ncnn

ncnn 是一个专为移动端极致优化的高性能神经网络前向计算框架，旨在简化深度学习算法在手机端的部署。该框架无第三方依赖且具备跨平台特性，在移动端 CPU 上的运行速度优于目前所有已知的开源框架。目前，ncnn 已被广泛应用于腾讯旗下的多款主流应用中，助力开发者轻松构建智能应用程序。

Tencent / ncnn

ncnn 是一个专为移动平台深度优化的高性能神经网络前向计算框架。该框架无第三方依赖且具备跨平台特性，在手机 CPU 上的运行速度优于目前所有已知的开源框架。开发者可以利用 ncnn 轻松将深度学习模型移植到移动端，从而构建各类智能应用程序。

deepseek-ai / Thinking-with-Visual-Primitives

Mininglamp-AI / Mano-P

alibaba / MNN

MNN 是一个高性能、轻量级的深度学习框架，专为移动端和嵌入式设备上的高效模型推理与训练而设计。它支持多种神经网络架构，并提供用于模型转换、压缩和通用计算的多种工具。该框架已广泛应用于包括阿里巴巴各类应用在内的生产环境，以实现端云协同的机器学习。

XiaoMi / xiaomi-miloco

PaddlePaddle / PaddleX

PaddleX 3.0 是基于飞桨框架构建的低代码开发工具，集成了大量开箱即用的预训练模型以支持全流程开发。该工具通过极简的 Python API 和图形界面，实现了从模型训练到推理部署的快速落地。此外，它还广泛兼容国内外主流硬件，助力开发者高效完成产业实践。

baidu / ERNIE-Image

bilibili / Index-anisora

Index-AniSora 是由 Bilibili 开发的一套用于高质量动漫视频生成的综合开源系统。该项目提供了一个可控生成模型、专门的数据处理流水线以及针对动画美学定制的评估基准。它支持角色 3D 视频生成、视频风格迁移和多模态引导等高级功能，以促进多样化的动画制作任务。

XiaoMi / xiaomi-miloco

Xiaomi Miloco 是一个开源探索方案，它将 Xiaomi Home 摄像头与自研 LLM 相结合，以控制 IoT 设备。它利用端侧模型处理视觉数据以进行场景理解，同时确保用户隐私和安全。用户可以定义复杂的家庭规则，并使用自然语言与他们的智能生态系统进行交互。

trycua / cua

jd-opensource / JoyAI-Image

JoyAI-Image 是一个统一的多模态基础模型，它集成了 8B Multimodal Large Language Model 和 16B Multimodal Diffusion Transformer，以支持图像理解、生成和编辑。该模型利用理解与生成之间的闭环协作，增强了空间推理和可控编辑能力。它提供了一个可扩展的训练流水线，并支持多视图生成和精确空间操作等高级功能。

nikopueringer / CorridorKey

Anil-matcha / Open-Generative-AI

// 项目使用场景

PaddleOCR

01用于提取适配 LLM 的结构化数据的智能文档解析
02针对自然场景和文档分析的通用多语言文本识别
03为微调 Large Language Models 构建高质量数据集

ncnn

01支持多种主流 CNN 网络模型，包括分类、检测、分割及人脸识别等算法。
02提供跨平台部署能力，支持 Android、iOS、Windows、Linux、macOS 及 WebAssembly 等多种环境。
03通过高效的实现方式，帮助开发者将深度学习算法移植到移动端，实现人工智能应用的快速落地。

ncnn

01在移动端高效部署深度学习算法模型
02支持主流 CNN 网络如 YOLO、MobileNet 和 ResNet
03实现跨平台的高性能神经网络推理计算

Thinking-with-Visual-Primitives

01使用空间标记进行基础任务推理
02视觉环境中的复杂拓扑推理
03通过减少标记消耗实现高效视觉处理

Mano-P

01用于自主界面操作的复杂 GUI 自动化
02端到端的自主软件构建流水线
03私密的本地化业务流程与任务执行

// 项目对比

PaddleOCR vs FlashMLA ncnn vs ncnn ncnn vs MNN FastDeploy vs ncnn

Computer Vision

// 近 4 周新增

// 生态图谱

// 近期新项目

// 本周 TOP 8

// 历史精选 (16)

// 项目使用场景

// 项目对比

// 相关主题