105
// 项目简介
JoyAI-Image 是一个统一的多模态基础模型,它集成了 8B Multimodal Large Language Model 和 16B Multimodal Diffusion Transformer,以支持图像理解、生成和编辑。该模型利用理解与生成之间的闭环协作,增强了空间推理和可控编辑能力。它提供了一个可扩展的训练流水线,并支持多视图生成和精确空间操作等高级功能。
// 技术分析
JoyAI-Image 是一个统一的多模态基础模型,旨在弥合图像理解、文生图生成和指令引导编辑之间的差距。通过将 8B 多模态大语言模型 (MLLM) 与 16B 多模态扩散 Transformer (MMDiT) 相结合,该架构促进了闭环协作,其中空间推理增强了生成准确性,反之亦然。这种设计选择优先考虑空间智能,使模型能够在保持高结构保真度的同时执行复杂任务,如新视角合成和几何感知编辑。
// 核心亮点
01
提供了一个统一的接口,在单一模型系列中结合了多模态理解、生成和编辑功能。
02
具备先进的空间智能,能够实现精确的对象操作、旋转和摄像机视角控制。
03
针对具有挑战性的文本密集型场景进行了优化,包括密集的多行文本、复杂的布局和各种排版风格。
04
利用可扩展的训练流水线,结合 OpenSpatial 和 SpatialEdit 等专业数据集,以确保高质量的空间推理。
05
支持多视图生成和一致的场景编辑,这成为改进下游空间推理任务的催化剂。
06
提供灵活的部署选项,包括原生 CLI 推理、ComfyUI 集成以及与 Diffusers 库的兼容性。
// 典型使用场景
01
指令引导的图像编辑,包括对象移动、旋转和相机视角控制。
02
高保真多模态图像理解和空间推理。
03
支持复杂排版、布局保真度和多视图一致性的 Text-to-image 生成。
// 快速开始
首先,设置一个带有 CUDA 支持 GPU 的 Python 3.10 环境,并使用 'pip install -e .' 安装项目依赖项。然后,您可以通过使用特定的检查点路径运行提供的 'inference_und.py' 或 'inference.py' 脚本来执行图像理解或编辑任务。或者,开发人员可以通过安装指定的 PR 分支,将模型集成到使用 Diffusers 库的现有工作流中。