deepseek-ai

Thinking-with-Visual-Primitives

AI🌱 NEW PROJECT BOOST#Machine Learning#Multimodal#LLM #Computer Vision

213

// 概要

Thinking with Visual Primitives は、空間マーカーを推論プロセスに直接組み込むことで、Multimodal Large Language Models に対する新しいアプローチを導入します。この手法は、抽象的な言語を具体的な物理座標に固定することで、複雑な構造タスクにおける参照のギャップを解消します。本フレームワークは、圧縮されたアーキテクチャを通じて高い visual token 効率を維持しながら、最先端の性能を実現します。

// 技術解説

本プロジェクトは、自然言語では高密度な空間レイアウトを正確に記述できないという「Reference Gap」に対処することで、Multimodal Large Language Models の新しいパラダイムを導入します。点や bounding boxes といった空間マーカーを推論の軌跡に直接挿入することで、モデルは抽象的な概念を物理的な座標に固定し、人間の認知行動を効果的に模倣します。このアプローチは構造的な推論と visual grounding を優先し、非常に効率的なアーキテクチャを活用することで、image tokens の計算オーバーヘッドを大幅に削減しながらパフォーマンスを維持します。

// 主要ハイライト

点や bounding boxes などの空間マーカーを思考の最小単位として統合し、言語と視覚的推論の間のギャップを埋めます。

DeepSeek-V4-Flash アーキテクチャを活用して visual tokens を圧縮し、KV cache 使用において極めて高い効率を実現します。

複雑な論理演算を実行しながら特定の場所を「指し示す」ことを可能にし、grounded task reasoning を実現します。

よりコンパクトなモデル規模でありながら、GPT-5.4 や Claude-Sonnet-4.6 といった最先端モデルに匹敵するパフォーマンスを維持します。

全体的な image-token budget を削減し、過度な計算コストをかけずに深い認知処理を可能にします。

// ユースケース

空間マーカーを使用した Grounded なタスク推論

視覚環境における複雑なトポロジー推論

トークン消費量を削減した効率的な visual processing

// クイックスタート

本プロジェクトの探索を開始するには、提供されている技術レポートを確認して、手法や研究結果の詳細を深く掘り下げることができます。モデルの重みは将来的に foundation model へ統合される予定ですが、現在は提供されている GitHub リポジトリを通じてプロジェクトのドキュメントや研究の背景にアクセス可能です。さらなる問い合わせやコラボレーションについては、提供されているサービス用メールアドレスから研究チームに直接連絡してください。