Boogu-Image-0.1 徹底解説：たった4ステップで画像編集

1. はじめに：2026年夏、またしてもオープンソースに衝撃

2026年6月、AI画像生成のオープンソース界にまた1つ、注目すべきモデルファミリーが登場した。Boogu-Image-0.1 だ。

何が「衝撃」か。このモデルはたった10Bパラメータでありながら、GPT-Image-2やNano Banana Proといったクローズドな最先端モデルに匹敵するパフォーマンスを、1桁少ないデータ量で達成したと主張している。そしてライセンスはApache 2.0。商用利用も再配布も完全に自由だ。

「どうせまた誇大広告でしょ？」——そう思うなら、この記事を読んでほしい。10以上のソースから集めたコミュニティの評価、実測データ、そして開発チームが自ら認める限界までを包み隠さず伝える。

「Booguってどの会社？」という素朴な疑問

コミュニティで最も多い質問の1つだ。現時点でBoogu Teamがどこの組織に所属するのか、公式には一切明らかにされていない。中国のブログでも「モデルの出自が不明」「どの会社の製品か分からない」と困惑の声が上がっている。

開発元が不明という点は確かに引っかかるが、コードはGitHubで公開され、重みはHuggingFaceで配布され、ライセンスはApache 2.0と明確だ。つまりモデルの信頼性はコードとデータで判断できる——少なくとも技術的には、出自の曖昧さは実用上の障壁にはならない。

2. モデルファミリー——4つのバリエーションと使い分け

Boogu-Image-0.1は単一モデルではなく、用途に応じた4つのバリエーションを持つ。

モデル	タスク	推論ステップ	推奨CFG	解像度
Base	文書生成（高品質テキスト）	25-50	2.0-5.0	1K〜2K
Turbo	高速フォトリアル生成	3-4	1.0	1K
Edit	画像編集（高品質）	25-50	2.0-5.0	1K〜2K
Edit-Turbo	高速画像編集	4	1.0	1K〜1.5K

すべて100億パラメータで統一されており、FP8量子化版も提供されている。注目すべきはTurbo系がわずか3〜4ステップで推論を完了する点だ。ベンチ上では1秒未満での生成も可能。これはDMD（Distribution Matching Distillation）という蒸留技術によるもので、画質を保ったまま桁違いの速度を実現している。

3. ベンチマーク——オープンソース最速・最高は本当か

Qwen-Image-Bench 総合スコア

モデル	パラメータ数	総合スコア	ライセンス
Boogu-Image-0.1	10B	53.58	Apache 2.0
Qwen-Image-2512	20B	52.06	Apache 2.0
HunyuanImage-3.0	80B	50.81	Apache 2.0
GPT-Image-2	非公開	62.31	クローズド
Nano Banana 2.0	非公開	60.15	クローズド

オープンソースモデルとして総合1位。パラメータ数はQwen-Imageの半分、Hunyuanの8分の1だ。

ImgEdit_O（画像編集ベンチマーク）

モデル	スコア
Boogu-Image-0.1-Edit	4.64
Nano Banana Pro	4.37
Seedream 4.5	4.32

ここではクローズドモデルを含めて全モデル中トップ。ただしBooguチーム自身が「ImgEditの評価は人間の視覚判断と必ずしも一致しない」と注釈をつけており、割り引いて見る必要がある。

4. コミュニティの声——実際に使った人の本音

「Boogu is fun!」——Redditコミュニティの反応

好意的な声：

「たった4ステップであれだけクリーンな画像が出るのは驚き。ミスも少ない」
「編集モデルのテクスチャ保持能力が素晴らしい。Contextノードを追加するとQwen-Image-Editに迫る」
「写真の構図理解は秀逸。Aerial viewのプロンプトを正しく上空視点で解釈した」
「線画の質が高く、二次元スタイルでもしっかりした輪郭が出る」
「ComfyUIとの統合が簡単。すぐに試せる」

厳しい声：

「人物の肌が汚い。細部が強調されすぎてザラザラした質感になる」
「Baseモデルにノイズが多い。45ステップ回しても収まらない」
「編集時の構図オフセット問題が深刻。デフォルトのワークフローでは被写体の位置が変わってしまう」
「画像が全体的に合成っぽい。バリエーションに乏しい」

中国コミュニティからの詳細な実測レビュー

博客園（cnblogs）のユーザーによる10組のプロンプトでの徹底比較が非常に貴重だ：

写実人物：Turboはテクスチャ過剰で「汚い」。Baseは油絵風。Z-Imageは無難
複雑構図：Booguは「Aerial view」を正しく上空視点で解釈。Z-Imageは平視に近かった。言語理解力でBooguが優位
大規模シーン：Baseで顕著なノイズ・粒子。地面テクスチャが異常
中文ポスター：Turbo・Baseとも実用的なレベル。Z-Imageと大きな差なし
編集のコツ：デフォルトは構図がズレるが、Flux Context Imageノードを追加して約100万画素に圧縮すると改善。最適化後のAI換装はQwen-Image-Editに迫る品質

5. 技術の核心——「データ効率」の謎を解く

Booguチームの最大の主張：「我々のトレーニングデータ規模は、既存のオープンソースモデルより約1桁少ない」。これがなぜ可能なのか。

統合理解＆生成アーキテクチャ：別々の視覚エンコーダと拡散バックボーンをペアにするのではなく、同じモデル内で理解と生成を同時に扱う。これにより「何を生成すべきか」の理解精度が向上し、無駄な試行が減る
データ品質への集中：「データ量」ではなく「データの質」と「トレーニングパイプライン」の体系的な改善が、閉域モデルとのギャップを埋める鍵
蒸留（Decoupled DMD）：Turbo系はBaseからの蒸留により3-4ステップで同等品質を達成。10Bスケールでの実装は注目に値する

Booguは「より多くのデータでより大きなモデルを」というスケーリング則とは別のベクトルで最適化を進めている。

6. 強みと弱み

強み

写真品質と構図理解が秀逸
中国語・英語のバイリンガルテキストレンダリングに対応
オブジェクト挿入・削除・置換、背景変更、スタイル転送をカバー
ComfyUIとの統合が容易

弱み（Booguチーム公認）

世界知識（実在ブランド・有名人・ランドマーク）ではクローズドモデルに大きく劣る
長文・密なタイポグラフィ・小さなフォントでは崩れが発生
複数人物の複雑なポーズで身体構造が崩れることがある
小さな顔・手足は基盤VAE由来の弱点

7. ライバル比較——2026年夏のオープンソース画像生成マップ

モデル	パラメータ	速度	編集	テキスト品質	ライセンス
Boogu-0.1 Turbo	10B	⚡超高速	⭕	⭕中英文良好	Apache 2.0
Qwen-Image-2512	20B	普通	⭕	⭐英文最強	Apache 2.0
Z-Image-Turbo	非公開	⚡高速	❌	△	独自
Flux	12B	やや遅い	△	△	Apache 2.0

Booguの最大の差別化ポイントは「編集＋高速＋テキスト＋オープンライセンス」の4つを同時に満たしていること。オープンソースのニュースタンダード候補として最右翼と言える。

8. まとめ

Boogu-Image-0.1が示した最も重要なメッセージは、「データの量より質」がオープンソース画像生成の次のフロンティアだということ。10Bパラメータ、約1桁少ないデータ、Apache 2.0——これらの制約の中で、彼らはQwen-Image-Benchでオープンソース1位を獲得し、ImgEdit_Oではクローズドモデルすら上回った。

「0.1」というバージョン番号を考えれば、ファーストリリースとしては驚異的な完成度だ。

「遊んでるだけだけど楽しい」（Redditより）。その「楽しさ」が、次のイノベーションを生む土壌になるのかもしれない。

本記事は2026年7月時点の公開情報に基づきます。ソース：GitHub (boogu-project/Boogu-Image, 666 stars), HuggingFace (Boogu), Reddit r/StableDiffusion・r/LocalLLaMA, 博客園, AI FILMS Studio Blog, YouTube, Trendshift, boogu.org