// 概要
Thinking with Visual Primitives は、空間マーカーを推論プロセスに直接組み込むことで、Multimodal Large Language Models に対する新しいアプローチを導入します。この手法は、抽象的な言語を具体的な物理座標に固定することで、複雑な構造タスクにおける参照のギャップを解消します。本フレームワークは、圧縮されたアーキテクチャを通じて高い visual token 効率を維持しながら、最先端の性能を実現します。
// 技術解説
本プロジェクトは、自然言語では高密度な空間レイアウトを正確に記述できないという「Reference Gap」に対処することで、Multimodal Large Language Models の新しいパラダイムを導入します。点や bounding boxes といった空間マーカーを推論の軌跡に直接挿入することで、モデルは抽象的な概念を物理的な座標に固定し、人間の認知行動を効果的に模倣します。このアプローチは構造的な推論と visual grounding を優先し、非常に効率的なアーキテクチャを活用することで、image tokens の計算オーバーヘッドを大幅に削減しながらパフォーマンスを維持します。
// 主要ハイライト
// ユースケース
// クイックスタート
本プロジェクトの探索を開始するには、提供されている技術レポートを確認して、手法や研究結果の詳細を深く掘り下げることができます。モデルの重みは将来的に foundation model へ統合される予定ですが、現在は提供されている GitHub リポジトリを通じてプロジェクトのドキュメントや研究の背景にアクセス可能です。さらなる問い合わせやコラボレーションについては、提供されているサービス用メールアドレスから研究チームに直接連絡してください。