1. はじめに:2026年夏、またしてもオープンソースに衝撃
2026年6月、AI画像生成のオープンソース界にまた1つ、注目すべきモデルファミリーが登場した。Boogu-Image-0.1 だ。
何が「衝撃」か。このモデルはたった10Bパラメータでありながら、GPT-Image-2やNano Banana Proといったクローズドな最先端モデルに匹敵するパフォーマンスを、1桁少ないデータ量で達成したと主張している。そしてライセンスはApache 2.0。商用利用も再配布も完全に自由だ。
「どうせまた誇大広告でしょ?」——そう思うなら、この記事を読んでほしい。10以上のソースから集めたコミュニティの評価、実測データ、そして開発チームが自ら認める限界までを包み隠さず伝える。
「Booguってどの会社?」という素朴な疑問
コミュニティで最も多い質問の1つだ。現時点でBoogu Teamがどこの組織に所属するのか、公式には一切明らかにされていない。中国のブログでも「モデルの出自が不明」「どの会社の製品か分からない」と困惑の声が上がっている。
開発元が不明という点は確かに引っかかるが、コードはGitHubで公開され、重みはHuggingFaceで配布され、ライセンスはApache 2.0と明確だ。つまりモデルの信頼性はコードとデータで判断できる——少なくとも技術的には、出自の曖昧さは実用上の障壁にはならない。
2. モデルファミリー——4つのバリエーションと使い分け
Boogu-Image-0.1は単一モデルではなく、用途に応じた4つのバリエーションを持つ。
| モデル | タスク | 推論ステップ | 推奨CFG | 解像度 |
|---|---|---|---|---|
| Base | 文書生成(高品質テキスト) | 25-50 | 2.0-5.0 | 1K〜2K |
| Turbo | 高速フォトリアル生成 | 3-4 | 1.0 | 1K |
| Edit | 画像編集(高品質) | 25-50 | 2.0-5.0 | 1K〜2K |
| Edit-Turbo | 高速画像編集 | 4 | 1.0 | 1K〜1.5K |
すべて100億パラメータで統一されており、FP8量子化版も提供されている。注目すべきはTurbo系がわずか3〜4ステップで推論を完了する点だ。ベンチ上では1秒未満での生成も可能。これはDMD(Distribution Matching Distillation)という蒸留技術によるもので、画質を保ったまま桁違いの速度を実現している。
3. ベンチマーク——オープンソース最速・最高は本当か
Qwen-Image-Bench 総合スコア
| モデル | パラメータ数 | 総合スコア | ライセンス |
|---|---|---|---|
| Boogu-Image-0.1 | 10B | 53.58 | Apache 2.0 |
| Qwen-Image-2512 | 20B | 52.06 | Apache 2.0 |
| HunyuanImage-3.0 | 80B | 50.81 | Apache 2.0 |
| GPT-Image-2 | 非公開 | 62.31 | クローズド |
| Nano Banana 2.0 | 非公開 | 60.15 | クローズド |
オープンソースモデルとして総合1位。パラメータ数はQwen-Imageの半分、Hunyuanの8分の1だ。
ImgEdit_O(画像編集ベンチマーク)
| モデル | スコア |
|---|---|
| Boogu-Image-0.1-Edit | 4.64 |
| Nano Banana Pro | 4.37 |
| Seedream 4.5 | 4.32 |
ここではクローズドモデルを含めて全モデル中トップ。ただしBooguチーム自身が「ImgEditの評価は人間の視覚判断と必ずしも一致しない」と注釈をつけており、割り引いて見る必要がある。
4. コミュニティの声——実際に使った人の本音
「Boogu is fun!」——Redditコミュニティの反応
好意的な声:
- 「たった4ステップであれだけクリーンな画像が出るのは驚き。ミスも少ない」
- 「編集モデルのテクスチャ保持能力が素晴らしい。Contextノードを追加するとQwen-Image-Editに迫る」
- 「写真の構図理解は秀逸。Aerial viewのプロンプトを正しく上空視点で解釈した」
- 「線画の質が高く、二次元スタイルでもしっかりした輪郭が出る」
- 「ComfyUIとの統合が簡単。すぐに試せる」
厳しい声:
- 「人物の肌が汚い。細部が強調されすぎてザラザラした質感になる」
- 「Baseモデルにノイズが多い。45ステップ回しても収まらない」
- 「編集時の構図オフセット問題が深刻。デフォルトのワークフローでは被写体の位置が変わってしまう」
- 「画像が全体的に合成っぽい。バリエーションに乏しい」
中国コミュニティからの詳細な実測レビュー
博客園(cnblogs)のユーザーによる10組のプロンプトでの徹底比較が非常に貴重だ:
- 写実人物:Turboはテクスチャ過剰で「汚い」。Baseは油絵風。Z-Imageは無難
- 複雑構図:Booguは「Aerial view」を正しく上空視点で解釈。Z-Imageは平視に近かった。言語理解力でBooguが優位
- 大規模シーン:Baseで顕著なノイズ・粒子。地面テクスチャが異常
- 中文ポスター:Turbo・Baseとも実用的なレベル。Z-Imageと大きな差なし
- 編集のコツ:デフォルトは構図がズレるが、Flux Context Imageノードを追加して約100万画素に圧縮すると改善。最適化後のAI換装はQwen-Image-Editに迫る品質
5. 技術の核心——「データ効率」の謎を解く
Booguチームの最大の主張:「我々のトレーニングデータ規模は、既存のオープンソースモデルより約1桁少ない」。これがなぜ可能なのか。
- 統合理解&生成アーキテクチャ:別々の視覚エンコーダと拡散バックボーンをペアにするのではなく、同じモデル内で理解と生成を同時に扱う。これにより「何を生成すべきか」の理解精度が向上し、無駄な試行が減る
- データ品質への集中:「データ量」ではなく「データの質」と「トレーニングパイプライン」の体系的な改善が、閉域モデルとのギャップを埋める鍵
- 蒸留(Decoupled DMD):Turbo系はBaseからの蒸留により3-4ステップで同等品質を達成。10Bスケールでの実装は注目に値する
Booguは「より多くのデータでより大きなモデルを」というスケーリング則とは別のベクトルで最適化を進めている。
6. 強みと弱み
強み
- 写真品質と構図理解が秀逸
- 中国語・英語のバイリンガルテキストレンダリングに対応
- オブジェクト挿入・削除・置換、背景変更、スタイル転送をカバー
- ComfyUIとの統合が容易
弱み(Booguチーム公認)
- 世界知識(実在ブランド・有名人・ランドマーク)ではクローズドモデルに大きく劣る
- 長文・密なタイポグラフィ・小さなフォントでは崩れが発生
- 複数人物の複雑なポーズで身体構造が崩れることがある
- 小さな顔・手足は基盤VAE由来の弱点
7. ライバル比較——2026年夏のオープンソース画像生成マップ
| モデル | パラメータ | 速度 | 編集 | テキスト品質 | ライセンス |
|---|---|---|---|---|---|
| Boogu-0.1 Turbo | 10B | ⚡超高速 | ⭕ | ⭕中英文良好 | Apache 2.0 |
| Qwen-Image-2512 | 20B | 普通 | ⭕ | ⭐英文最強 | Apache 2.0 |
| Z-Image-Turbo | 非公開 | ⚡高速 | ❌ | △ | 独自 |
| Flux | 12B | やや遅い | △ | △ | Apache 2.0 |
Booguの最大の差別化ポイントは「編集+高速+テキスト+オープンライセンス」の4つを同時に満たしていること。オープンソースのニュースタンダード候補として最右翼と言える。
8. まとめ
Boogu-Image-0.1が示した最も重要なメッセージは、「データの量より質」がオープンソース画像生成の次のフロンティアだということ。10Bパラメータ、約1桁少ないデータ、Apache 2.0——これらの制約の中で、彼らはQwen-Image-Benchでオープンソース1位を獲得し、ImgEdit_Oではクローズドモデルすら上回った。
「0.1」というバージョン番号を考えれば、ファーストリリースとしては驚異的な完成度だ。
「遊んでるだけだけど楽しい」(Redditより)。その「楽しさ」が、次のイノベーションを生む土壌になるのかもしれない。
本記事は2026年7月時点の公開情報に基づきます。ソース:GitHub (boogu-project/Boogu-Image, 666 stars), HuggingFace (Boogu), Reddit r/StableDiffusion・r/LocalLLaMA, 博客園, AI FILMS Studio Blog, YouTube, Trendshift, boogu.org