// 概要
ERNIE-Image は Baidu が開発した Diffusion Transformer (DiT) アーキテクチャに基づくオープンソースの text-to-image モデルです。このモデルは短い入力を構造化された詳細な記述に変換する軽量な prompt enhancer を備えており、8B パラメータ規模で業界最高水準の生成結果を実現します。複雑なテキストレンダリングやマルチオブジェクトのレイアウト、指示追従タスクに優れており、コンシューマー向け GPU での効率的なデプロイをサポートします。
// 技術解説
ERNIE-Image は、 Diffusion Transformer (DiT) アーキテクチャに基づいて Baidu が開発したオープンソースの text-to-image モデルです。軽量な Prompt Enhancer を導入することで、短いユーザー入力を構造化された記述に変換し、複雑な指示に従うモデルの能力を大幅に向上させています。その技術的な核心は、8B パラメータというコンパクトな規模で非常に競争力のあるパフォーマンスを実現している点にあり、テキストレンダリングや構造化された視覚タスク向けに深く最適化されているため、24GB の VRAM を搭載したコンシューマー向け GPU 上で効率的に動作します。
// 主要ハイライト
// ユースケース
// クイックスタート
開発者は Hugging Face の diffusers ライブラリを介してモデルを迅速に呼び出すことができます。最新バージョンの diffusers をインストールし、ErnieImagePipeline を使用して推論用にモデルをロードするだけです。本番環境向けには、DiT モデルと Prompt Enhancer の分離デプロイをサポートし、推論速度を向上させる SGLang ベースのデプロイメントソリューションが提供されています。