baidu

ERNIE-Image

AI🌱 NEW PROJECT BOOST#Diffusion Transformer#Text-to-Image#Generative AI #Computer Vision

412

// 概要

ERNIE-Image は Baidu が開発した Diffusion Transformer (DiT) アーキテクチャに基づくオープンソースの text-to-image モデルです。このモデルは短い入力を構造化された詳細な記述に変換する軽量な prompt enhancer を備えており、8B パラメータ規模で業界最高水準の生成結果を実現します。複雑なテキストレンダリングやマルチオブジェクトのレイアウト、指示追従タスクに優れており、コンシューマー向け GPU での効率的なデプロイをサポートします。

// 技術解説

ERNIE-Image は、 Diffusion Transformer (DiT) アーキテクチャに基づいて Baidu が開発したオープンソースの text-to-image モデルです。軽量な Prompt Enhancer を導入することで、短いユーザー入力を構造化された記述に変換し、複雑な指示に従うモデルの能力を大幅に向上させています。その技術的な核心は、8B パラメータというコンパクトな規模で非常に競争力のあるパフォーマンスを実現している点にあり、テキストレンダリングや構造化された視覚タスク向けに深く最適化されているため、24GB の VRAM を搭載したコンシューマー向け GPU 上で効率的に動作します。

// 主要ハイライト

コンパクトな 8B パラメータの DiT アーキテクチャを採用し、軽量でありながら大規模モデルに匹敵する生成品質を提供します。

優れたテキストレンダリング機能を備えており、長いテキスト、ポスター、UI インターフェースといった難易度の高い視覚コンテンツを正確に生成可能です。

シンプルなプロンプトを高品質な構造化記述へと自動的に拡張できる、組み込みの Prompt Enhancer モジュールを搭載しています。

複雑な指示への追従をサポートし、複数のオブジェクト間の関係性、知識集約的な記述、マルチパネル構成のタスクを正確に処理します。

ERNIE-Image-Turbo バージョンを提供しており、DMD および RL 最適化を通じてわずか 8 ステップでの高速生成を実現します。

オープンソースエコシステムと広く互換性があり、ComfyUI ワークフロー、Unsloth GGUF ビルド、AI-Toolkit によるファインチューニングをサポートしています。

// ユースケース

高品質なポスターやインフォグラフィックの生成

複雑な指示に基づくマルチオブジェクトおよびレイアウトの制御

マルチスタイルな画像作成と高速な推論アクセラレーション

// クイックスタート

開発者は Hugging Face の diffusers ライブラリを介してモデルを迅速に呼び出すことができます。最新バージョンの diffusers をインストールし、ErnieImagePipeline を使用して推論用にモデルをロードするだけです。本番環境向けには、DiT モデルと Prompt Enhancer の分離デプロイをサポートし、推論速度を向上させる SGLang ベースのデプロイメントソリューションが提供されています。