jd-opensource

JoyAI-Image

AI#Multimodal#Diffusion#Computer Vision #Generative AI#Foundation Model

105

// 概要

JoyAI-Image は 8B Multimodal Large Language Model と 16B Multimodal Diffusion Transformer を統合し、画像の理解・生成・編集をサポートする統一マルチモーダル基盤モデルです。本モデルは理解と生成のクローズドループな連携を活用し、空間推論能力と制御可能な編集機能を強化しています。スケーラブルな学習パイプラインを提供し、マルチビュー生成や精密な空間操作といった高度な機能をサポートします。

// 技術解説

JoyAI-Image は、画像理解、Text-to-Image 生成、および指示に基づく編集のギャップを埋めるために設計された統合型マルチモーダル基盤モデルです。8B の Multimodal Large Language Model (MLLM) と 16B の Multimodal Diffusion Transformer (MMDiT) を統合することで、空間推論が生成精度を向上させ、その逆もまた然りというクローズドループな連携を実現しています。この設計は空間知能を優先しており、高い構造的忠実度を維持しながら、Novel-view synthesis や Geometry-aware editing といった複雑なタスクを実行可能です。

// 主要ハイライト

マルチモーダルな理解、生成、編集を単一のモデルファミリーに統合したインターフェースを提供します。

高度な空間知能を備えており、精密なオブジェクト操作、回転、カメラの視点制御が可能です。

高密度な複数行テキスト、複雑なレイアウト、多様なタイポグラフィスタイルなど、テキストを多く含む困難なシナリオに最適化されています。

OpenSpatial や SpatialEdit といった専門的なデータセットを組み込んだスケーラブルなトレーニングパイプラインを活用し、高品質な空間推論を保証します。

Multi-view generation と一貫性のあるシーン編集をサポートしており、後続の空間推論タスクを改善する触媒となります。

ネイティブな CLI inference、ComfyUI 統合、Diffusers ライブラリとの互換性など、柔軟なデプロイオプションを提供します。

// ユースケース

オブジェクトの移動、回転、カメラ視点制御を含む指示ベースの画像編集。

高忠実度なマルチモーダル画像理解と空間推論。

複雑なタイポグラフィ、レイアウトの忠実度、マルチビューの一貫性をサポートする Text-to-image 生成。

// クイックスタート

開始するには、Python 3.10 環境と CUDA 対応 GPU をセットアップし、'pip install -e .' を使用してプロジェクトの依存関係をインストールしてください。その後、指定のチェックポイントパスを指定して提供されている 'inference_und.py' または 'inference.py' スクリプトを実行することで、画像理解や編集タスクを実行できます。あるいは、開発者は指定された PR ブランチをインストールすることで、Diffusers ライブラリを使用して既存のワークフローにモデルを統合することも可能です。