Emi Model Card

このリポジトリはオリジナルの非公式クローンです。最新のバージョンを落とすためにも、できる限りオリジナルのリポジトリから落としてください。 This repository is the unofficial clone of the original repository. Please use the original repository to use latest version as possible.

Original(PNG)

English: Click Here

はじめに

ライセンスについて

ライセンスについては、これまでとは違い、 CreativeML Open RAIL++-M License です。したがって、商用利用可能です。これは次のように判断したためです。

画像生成AIが普及するに伴い、創作業界に悪影響を及ぼさないように、マナーを守る人が増えてきたため
他の画像生成AIが商用可能である以上、あまり非商用ライセンスである実効性がなくなってきたため

使い方

ここからデモを利用することができます。本格的に利用する人はここからモデルをダウンロードできます。通常版で生成がうまく行かない場合は、安定版をお使いください。

シンプルな作品例

positive prompt: anime artwork, anime style, (1girl), (black bob hair:1.5), brown eyes, red maples, sky, ((transparent))
negative prompt: (embedding:unaestheticXLv31:0.5), photo, deformed, realism, disfigured, low contrast, bad hand

positive prompt: monochrome, black and white, (japanese manga), mount fuji
negative prompt: (embedding:unaestheticXLv31:0.5), photo, deformed, realism, disfigured, low contrast, bad hand

positive prompt: (1man), focus, white wavy short hair, blue eyes, black shirt, white background, simple background
negative prompt: (embedding:unaestheticXLv31:0.5), photo, deformed, realism, disfigured, low contrast, bad hand

モデルの出力向上について

確実にアニメ調のイラストを出したいときは、anime artwork, anime styleとプロンプトの先頭に入れてください。
プロンプトにtransparentという言葉を入れると、より最近の画風になります。
全身 (full body) を描くとうまく行かない場合もあるため、そのときは安定版をお試しください。
使えるプロンプトはWaifu Diffusionと同じです。また、Stable Diffusionのように使うこともできます。
ネガティブプロンプトにTextual Inversionを使用することをおすすめします。
手が不安定なため、DreamShaper XL1.0などの実写系モデルとのマージをおすすめします。
ChatGPTを用いてプロンプトを洗練すると、自分の枠を超えた作品に出会えます。
最新のComfyUIにあるFreeUノードを次のパラメータで使うとさらに出力が上がる可能性があります。次の画像はFreeUを使った例です。
- b1 = 1.1, b2 = 1.2, s1 = 0.6, s2 = 0.4 report

法律について

本モデルは日本にて作成されました。したがって、日本の法律が適用されます。本モデルの学習は、著作権法第30条の4に基づき、合法であると主張します。また、本モデルの配布については、著作権法や刑法175条に照らしてみても、正犯や幇助犯にも該当しないと主張します。詳しくは柿沼弁護士の見解を御覧ください。ただし、ライセンスにもある通り、本モデルの生成物は各種法令に従って取り扱って下さい。

連絡先

[email protected]

以下、一般的なモデルカードの日本語訳です。

モデル詳細

モデルタイプ: 拡散モデルベースの text-to-image 生成モデル
言語: 日本語
ライセンス: CreativeML Open RAIL++-M License
モデルの説明: このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは Latent Diffusion Model と OpenCLIP-ViT/G、CLIP-L です。
補足:
参考文献:

@misc{podell2023sdxl,
      title={SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis}, 
      author={Dustin Podell and Zion English and Kyle Lacey and Andreas Blattmann and Tim Dockhorn and Jonas Müller and Joe Penna and Robin Rombach},
      year={2023},
      eprint={2307.01952},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

モデルの使用例

Stable Diffusion XL 1.0と同じ使い方です。たくさんの方法がありますが、3つのパターンを提供します。

ComfyUI
Fooocus
Diffusers

ComfyUIやFooocusの場合

Stable Diffusion XL 1.0 の使い方と同じく、safetensor形式のモデルファイルを使ってください。詳しいインストール方法は、こちらの記事を参照してください。

Diffusersの場合

🤗's Diffusers library を使ってください。

まずは、以下のスクリプトを実行し、ライブラリをいれてください。

pip install invisible_watermark transformers accelerate safetensors　diffusers

次のスクリプトを実行し、画像を生成してください。

from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
import torch

model_id = "aipicasso/emi"

scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionXLPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "1girl, sunflowers, brown bob hair, brown eyes, sky, transparent"
images = pipe(prompt, num_inference_steps=20).images
images[0].save("girl.png")

複雑な操作はデモのソースコードを参考にしてください。

想定される用途

イラストや漫画、アニメの作画補助
- 商用・非商用は問わない
依頼の際のクリエイターとのコミュニケーション
画像生成サービスの商用提供
- 生成物の取り扱いには注意して使ってください。
自己表現
- このAIを使い、「あなた」らしさを発信すること
研究開発
- Discord上でのモデルの利用
  - プロンプトエンジニアリング
  - ファインチューニング（追加学習とも）
    - DreamBooth など
  - 他のモデルとのマージ
- 本モデルの性能をFIDなどで調べること
- 本モデルがStable Diffusion以外のモデルとは独立であることをチェックサムやハッシュ関数などで調べること
教育
- 美大生や専門学校生の卒業制作
- 大学生の卒業論文や課題制作
- 先生が画像生成AIの現状を伝えること
Hugging Face の Community にかいてある用途
- 日本語か英語で質問してください

想定されない用途

物事を事実として表現するようなこと
先生を困らせるようなこと
その他、創作業界に悪影響を及ぼすこと

使用してはいけない用途や悪意のある用途

マネー・ロンダリングに用いないでください
デジタル贋作 (Digital Forgery) は公開しないでください（著作権法に違反するおそれ）
他人の作品を無断でImage-to-Imageしないでください（著作権法に違反するおそれ）
わいせつ物を頒布しないでください (刑法175条に違反するおそれ）
- いわゆる業界のマナーを守らないようなこと
事実に基づかないことを事実のように語らないようにしてください（威力業務妨害罪が適用されるおそれ）
- フェイクニュース

モデルの限界やバイアス

モデルの限界

拡散モデルや大規模言語モデルは、いまだに未知の部分が多く、その限界は判明していない。

バイアス

拡散モデルや大規模言語モデルは、いまだに未知の部分が多く、バイアスは判明していない。

学習

学習データ

Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて手動で集めた約2000枚の画像
Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて自動で集めた約50万枚の画像

学習プロセス

ハードウェア: H100

評価結果

第三者による評価を求めています。

環境への影響

ハードウェアタイプ: H100
使用時間（単位は時間）: 500
学習した場所: 日本

参考文献

@misc{podell2023sdxl,
      title={SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis}, 
      author={Dustin Podell and Zion English and Kyle Lacey and Andreas Blattmann and Tim Dockhorn and Jonas Müller and Joe Penna and Robin Rombach},
      year={2023},
      eprint={2307.01952},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}