jd-opensource / JoyAI-Image
JoyAI-Image は 8B Multimodal Large Language Model と 16B Multimodal Diffusion Transformer を統合し、画像の理解・生成・編集をサポートする統一マルチモーダル基盤モデルです。本モデルは理解と生成のクローズドループな連携を活用し、空間推論能力と制御可能な編集機能を強化しています。スケーラブルな学習パイプラインを提供し、マルチビュー生成や精密な空間操作といった高度な機能をサポートします。