首页主题Computer Vision
// 主题

Computer Vision

16近 90 天热度·16历史累计

// 近 4 周新增

// 生态图谱

Deep Learning7LLM6Generative AI5Machine Learning3Video Generation3Computer Vision
AI 16

// 近期新项目

查看全部新项目 →

// 本周 TOP 8

01
deepseek-ai / Thinking-with-Visual-Primitives
Thinking with Visual Primitives 引入了一种通过将空间标记直接交织到推理过程中来处理多模态大语言模型的新方法。该方法通过将抽象语言锚定到具体的物理坐标,解决了复杂结构任务中的引用鸿沟。该框架在保持高视觉标记效率的同时,通过压缩架构实现了具有前沿竞争力的性能。
84213
02
Mininglamp-AI / Mano-P
Mano-P 是一个 GUI-VLA Agent 项目,旨在 Mac mini 和 MacBook 等边缘设备上实现自主且私密的任务执行。它利用先进的强化学习和边缘原生推理技术,执行复杂的 GUI 自动化、跨系统数据集成以及长任务规划。该项目提供了一种安全且优先本地化的解决方案,在无需云端 API 调用且保持跨基准测试高性能的同时,确保了数据隐私。
831,264
03
XiaoMi / xiaomi-miloco
Xiaomi Miloco 是一款开源智能家居解决方案,利用端侧大语言模型来集成和控制 IoT 设备。通过利用摄像头数据流,该系统能够实现复杂的家庭自动化和事件分析的自然语言交互。它通过在用户硬件上本地执行视觉理解和任务规划,优先保障用户隐私。
742,549
04
baidu / ERNIE-Image
ERNIE-Image 是百度开发的一款基于单流扩散 Transformer (DiT) 架构的开源文生图模型。该模型配备轻量级提示词增强器,能够将简短输入转化为结构丰富的描述,并在 8B 参数规模下实现业界领先的生成效果。它特别擅长处理复杂的文本渲染、多对象布局及指令遵循任务,且支持在消费级 GPU 上高效部署。
71412
05
bilibili / Index-anisora
Index-AniSora 是一个专为高质量动漫视频生成和动画制作而设计的强大开源框架。该系统具备全面的数据处理流水线、带有时空掩码的可控生成模型以及专门的评估基准。它支持多种创意任务,包括角色 3D 生成、视频风格迁移以及用于精确运动控制的多模态引导。
682,421
06
trycua / cua
Cua 提供了一个统一的生态系统,用于构建、基准测试和部署能够与计算机界面交互的自主智能体。该平台包含用于后台 macOS 自动化、跨平台沙箱和高性能虚拟化的专业工具。开发人员可以利用这些组件创建能够无缝执行任务、运行代码并导航复杂 GUI 环境的智能体。
55103
07
nikopueringer / CorridorKey
CorridorKey 是一款基于神经网络的工具,旨在解决将前景主体从绿幕或蓝幕背景中分离的复杂问题。它能够为每个像素重建真实的直通色彩和线性 Alpha 通道,从而有效保留头发和运动模糊等精细细节。该项目通过输出与行业标准合成软件兼容的 16-bit 和 32-bit Linear float EXR 文件,为高保真 VFX 工作流程提供支持。
4223
08
Anil-matcha / Open-Generative-AI
Open Generative AI 是一个免费的开源平台,为商业 AI 媒体工具提供了一种无限制的替代方案。它支持超过 200 种用于图像、视频和唇形同步生成的尖端模型,且没有任何内容过滤器或订阅费用。用户可以通过基于 Web 的界面或支持本地及远程推理的桌面应用程序来访问这些功能。
39129

// 历史精选 (16)

PaddlePaddle / PaddleOCR
PaddleOCR 是一个综合性工具包,旨在将图像和 PDF 文档转换为 Markdown 和 JSON 等结构化、适配 LLM 的数据格式。它具备最先进的视觉语言模型和高性能文本识别引擎,支持超过 100 种语言。该平台被广泛集成到主流 AI Agent 和 RAG 框架中,可在各种硬件后端上提供高效的部署选项。
89
Tencent / ncnn
ncnn 是一个专为移动端极致优化的高性能神经网络前向计算框架,旨在简化深度学习算法在手机端的部署。该框架无第三方依赖且具备跨平台特性,在移动端 CPU 上的运行速度优于目前所有已知的开源框架。目前,ncnn 已被广泛应用于腾讯旗下的多款主流应用中,助力开发者轻松构建智能应用程序。
89
Tencent / ncnn
ncnn 是一个专为移动平台深度优化的高性能神经网络前向计算框架。该框架无第三方依赖且具备跨平台特性,在手机 CPU 上的运行速度优于目前所有已知的开源框架。开发者可以利用 ncnn 轻松将深度学习模型移植到移动端,从而构建各类智能应用程序。
87
deepseek-ai / Thinking-with-Visual-Primitives
Thinking with Visual Primitives 引入了一种通过将空间标记直接交织到推理过程中来处理多模态大语言模型的新方法。该方法通过将抽象语言锚定到具体的物理坐标,解决了复杂结构任务中的引用鸿沟。该框架在保持高视觉标记效率的同时,通过压缩架构实现了具有前沿竞争力的性能。
84
Mininglamp-AI / Mano-P
Mano-P 是一个 GUI-VLA Agent 项目,旨在 Mac mini 和 MacBook 等边缘设备上实现自主且私密的任务执行。它利用先进的强化学习和边缘原生推理技术,执行复杂的 GUI 自动化、跨系统数据集成以及长任务规划。该项目提供了一种安全且优先本地化的解决方案,在无需云端 API 调用且保持跨基准测试高性能的同时,确保了数据隐私。
83
alibaba / MNN
MNN 是一个高性能、轻量级的深度学习框架,专为移动端和嵌入式设备上的高效模型推理与训练而设计。它支持多种神经网络架构,并提供用于模型转换、压缩和通用计算的多种工具。该框架已广泛应用于包括阿里巴巴各类应用在内的生产环境,以实现端云协同的机器学习。
81
XiaoMi / xiaomi-miloco
Xiaomi Miloco 是一款开源智能家居解决方案,利用端侧大语言模型来集成和控制 IoT 设备。通过利用摄像头数据流,该系统能够实现复杂的家庭自动化和事件分析的自然语言交互。它通过在用户硬件上本地执行视觉理解和任务规划,优先保障用户隐私。
74
PaddlePaddle / PaddleX
PaddleX 3.0 是基于飞桨框架构建的低代码开发工具,集成了大量开箱即用的预训练模型以支持全流程开发。该工具通过极简的 Python API 和图形界面,实现了从模型训练到推理部署的快速落地。此外,它还广泛兼容国内外主流硬件,助力开发者高效完成产业实践。
72
baidu / ERNIE-Image
ERNIE-Image 是百度开发的一款基于单流扩散 Transformer (DiT) 架构的开源文生图模型。该模型配备轻量级提示词增强器,能够将简短输入转化为结构丰富的描述,并在 8B 参数规模下实现业界领先的生成效果。它特别擅长处理复杂的文本渲染、多对象布局及指令遵循任务,且支持在消费级 GPU 上高效部署。
71
bilibili / Index-anisora
Index-AniSora 是一个专为高质量动漫视频生成和动画制作而设计的强大开源框架。该系统具备全面的数据处理流水线、带有时空掩码的可控生成模型以及专门的评估基准。它支持多种创意任务,包括角色 3D 生成、视频风格迁移以及用于精确运动控制的多模态引导。
68
bilibili / Index-anisora
Index-AniSora 是由 Bilibili 开发的一套用于高质量动漫视频生成的综合开源系统。该项目提供了一个可控生成模型、专门的数据处理流水线以及针对动画美学定制的评估基准。它支持角色 3D 视频生成、视频风格迁移和多模态引导等高级功能,以促进多样化的动画制作任务。
61
XiaoMi / xiaomi-miloco
Xiaomi Miloco 是一个开源探索方案,它将 Xiaomi Home 摄像头与自研 LLM 相结合,以控制 IoT 设备。它利用端侧模型处理视觉数据以进行场景理解,同时确保用户隐私和安全。用户可以定义复杂的家庭规则,并使用自然语言与他们的智能生态系统进行交互。
57
trycua / cua
Cua 提供了一个统一的生态系统,用于构建、基准测试和部署能够与计算机界面交互的自主智能体。该平台包含用于后台 macOS 自动化、跨平台沙箱和高性能虚拟化的专业工具。开发人员可以利用这些组件创建能够无缝执行任务、运行代码并导航复杂 GUI 环境的智能体。
55
jd-opensource / JoyAI-Image
JoyAI-Image 是一个统一的多模态基础模型,它集成了 8B Multimodal Large Language Model 和 16B Multimodal Diffusion Transformer,以支持图像理解、生成和编辑。该模型利用理解与生成之间的闭环协作,增强了空间推理和可控编辑能力。它提供了一个可扩展的训练流水线,并支持多视图生成和精确空间操作等高级功能。
52
nikopueringer / CorridorKey
CorridorKey 是一款基于神经网络的工具,旨在解决将前景主体从绿幕或蓝幕背景中分离的复杂问题。它能够为每个像素重建真实的直通色彩和线性 Alpha 通道,从而有效保留头发和运动模糊等精细细节。该项目通过输出与行业标准合成软件兼容的 16-bit 和 32-bit Linear float EXR 文件,为高保真 VFX 工作流程提供支持。
42
Anil-matcha / Open-Generative-AI
Open Generative AI 是一个免费的开源平台,为商业 AI 媒体工具提供了一种无限制的替代方案。它支持超过 200 种用于图像、视频和唇形同步生成的尖端模型,且没有任何内容过滤器或订阅费用。用户可以通过基于 Web 的界面或支持本地及远程推理的桌面应用程序来访问这些功能。
39

// 项目使用场景

PaddleOCR
  • 01用于提取适配 LLM 的结构化数据的智能文档解析
  • 02针对自然场景和文档分析的通用多语言文本识别
  • 03为微调 Large Language Models 构建高质量数据集
ncnn
  • 01支持多种主流 CNN 网络模型,包括分类、检测、分割及人脸识别等算法。
  • 02提供跨平台部署能力,支持 Android、iOS、Windows、Linux、macOS 及 WebAssembly 等多种环境。
  • 03通过高效的实现方式,帮助开发者将深度学习算法移植到移动端,实现人工智能应用的快速落地。
ncnn
  • 01在移动端高效部署深度学习算法模型
  • 02支持主流 CNN 网络如 YOLO、MobileNet 和 ResNet
  • 03实现跨平台的高性能神经网络推理计算
Thinking-with-Visual-Primitives
  • 01使用空间标记进行基础任务推理
  • 02视觉环境中的复杂拓扑推理
  • 03通过减少标记消耗实现高效视觉处理
Mano-P
  • 01用于自主界面操作的复杂 GUI 自动化
  • 02端到端的自主软件构建流水线
  • 03私密的本地化业务流程与任务执行

// 项目对比

// 相关主题