deepseek-ai

Thinking-with-Visual-Primitives

AI🌱 NEW PROJECT BOOST#Machine Learning#Multimodal#LLM #Computer Vision

213

// 项目简介

Thinking with Visual Primitives 引入了一种通过将空间标记直接交织到推理过程中来处理多模态大语言模型的新方法。该方法通过将抽象语言锚定到具体的物理坐标，解决了复杂结构任务中的引用鸿沟。该框架在保持高视觉标记效率的同时，通过压缩架构实现了具有前沿竞争力的性能。

// 技术分析

该项目为多模态大语言模型引入了一种新范式，旨在解决“参考鸿沟”（Reference Gap）问题，即自然语言无法精确描述密集空间布局的问题。通过将点和边界框等空间标记直接交织到推理轨迹中，模型将抽象概念锚定到物理坐标上，有效地模拟了人类的认知行为。这种方法优先考虑结构化推理和视觉基础，利用高效的架构在保持性能的同时，显著降低了图像 token 的计算开销。

// 核心亮点

将点和边界框等空间标记作为思维的最小单位进行整合，以弥合语言与视觉推理之间的鸿沟。

利用 DeepSeek-V4-Flash 架构压缩视觉 token，在 KV cache 使用方面实现了极高的效率。

通过允许模型在执行复杂逻辑运算时“指向”特定位置，实现基于基础的任务推理。

尽管模型规模更紧凑，但在性能上仍能与 GPT-5.4 和 Claude-Sonnet-4.6 等前沿模型保持竞争力。

减少了整体图像 token 的预算，从而在不增加过多计算成本的情况下实现更深层次的认知处理。

// 典型使用场景

使用空间标记进行基础任务推理

视觉环境中的复杂拓扑推理

通过减少标记消耗实现高效视觉处理

// 快速开始

要开始探索该项目，您可以查阅提供的技术报告，深入了解其方法论和研究成果。虽然模型权重计划在未来集成到基础模型中，但您目前可以通过提供的 GitHub 仓库访问项目的文档和研究背景。如需进一步咨询或合作，您可以通过提供的服务邮箱直接联系研究团队。