jd-opensource

JoyAI-Image

AI#Multimodal#Diffusion#Computer Vision #Generative AI#Foundation Model

105

// 项目简介

JoyAI-Image 是一个统一的多模态基础模型，它集成了 8B Multimodal Large Language Model 和 16B Multimodal Diffusion Transformer，以支持图像理解、生成和编辑。该模型利用理解与生成之间的闭环协作，增强了空间推理和可控编辑能力。它提供了一个可扩展的训练流水线，并支持多视图生成和精确空间操作等高级功能。

// 技术分析

JoyAI-Image 是一个统一的多模态基础模型，旨在弥合图像理解、文生图生成和指令引导编辑之间的差距。通过将 8B 多模态大语言模型 (MLLM) 与 16B 多模态扩散 Transformer (MMDiT) 相结合，该架构促进了闭环协作，其中空间推理增强了生成准确性，反之亦然。这种设计选择优先考虑空间智能，使模型能够在保持高结构保真度的同时执行复杂任务，如新视角合成和几何感知编辑。

// 核心亮点

提供了一个统一的接口，在单一模型系列中结合了多模态理解、生成和编辑功能。

具备先进的空间智能，能够实现精确的对象操作、旋转和摄像机视角控制。

针对具有挑战性的文本密集型场景进行了优化，包括密集的多行文本、复杂的布局和各种排版风格。

利用可扩展的训练流水线，结合 OpenSpatial 和 SpatialEdit 等专业数据集，以确保高质量的空间推理。

支持多视图生成和一致的场景编辑，这成为改进下游空间推理任务的催化剂。

提供灵活的部署选项，包括原生 CLI 推理、ComfyUI 集成以及与 Diffusers 库的兼容性。

// 典型使用场景

指令引导的图像编辑，包括对象移动、旋转和相机视角控制。

高保真多模态图像理解和空间推理。

支持复杂排版、布局保真度和多视图一致性的 Text-to-image 生成。

// 快速开始

首先，设置一个带有 CUDA 支持 GPU 的 Python 3.10 环境，并使用 'pip install -e .' 安装项目依赖项。然后，您可以通过使用特定的检查点路径运行提供的 'inference_und.py' 或 'inference.py' 脚本来执行图像理解或编辑任务。或者，开发人员可以通过安装指定的 PR 分支，将模型集成到使用 Diffusers 库的现有工作流中。