412
// 项目简介
ERNIE-Image 是百度开发的一款基于单流扩散 Transformer (DiT) 架构的开源文生图模型。该模型配备轻量级提示词增强器,能够将简短输入转化为结构丰富的描述,并在 8B 参数规模下实现业界领先的生成效果。它特别擅长处理复杂的文本渲染、多对象布局及指令遵循任务,且支持在消费级 GPU 上高效部署。
// 技术分析
ERNIE-Image 是百度开发的一款基于单流扩散 Transformer (DiT) 架构的开源文生图模型。该项目通过引入轻量级的 Prompt Enhancer(提示词增强器)将简短的用户输入转化为结构化描述,从而显著提升了模型对复杂指令的遵循能力。其核心技术优势在于以 8B 参数的紧凑规模实现了极具竞争力的性能,并针对文字渲染和结构化视觉任务进行了深度优化,使其能够高效运行在 24G 显存的消费级 GPU 上。
// 核心亮点
01
采用 8B 参数的紧凑型 DiT 架构,在保持轻量化的同时提供媲美大模型的生成质量。
02
具备出色的文字渲染能力,能够精准生成长文本、海报及 UI 界面等高难度视觉内容。
03
内置 Prompt Enhancer 模块,能自动将简单提示词扩展为高质量的结构化描述。
04
支持复杂指令遵循,可准确处理多对象关系、知识密集型描述及多面板构图任务。
05
提供 ERNIE-Image-Turbo 版本,通过 DMD 和 RL 优化实现仅需 8 步推理的高速生成。
06
广泛兼容开源生态,支持 ComfyUI 工作流、Unsloth GGUF 构建及 AI-Toolkit 微调。
// 典型使用场景
01
高质量海报与信息图表生成
02
复杂指令下的多对象与布局控制
03
多风格图像创作与快速推理加速
// 快速开始
开发者可以通过 Hugging Face 的 diffusers 库快速调用模型,只需安装最新版 diffusers 并使用 ErnieImagePipeline 即可加载模型进行推理。对于生产环境,项目提供了基于 SGLang 的部署方案,支持将 DiT 模型与 Prompt Enhancer 分离部署以提升推理速度。