Stability AIは、多くの画像生成プラットフォーム、アプリ、サービスに統合されているStable Diffusion Modelの開発者です。これは、MidjounryやDALLEのモデルなど、他のAI画像生成ツールと比較できます。同社がSDXlをリリースして以来、約3500万枚の画像を生成し、Stability AIのサービスで1日に2万枚の画像が作成されています。
Stability AIは最近、ベンチャーキャピタルで1億ドル、6月にはさらに2500万ドルを調達しました。そしてついに、以前のバージョンよりも強力で正確なStable Diffusion XL 1.0のアップグレード版を発表しました。最初に目につく改善点は、データセットが高品質の画像で洗練されているため、より高品質な画像を提供できるようになり、より正確に手を作成できるようになったことです。
Stable Diffusion XL:テキストから画像へ
これはGitHubで利用可能なオープンソースプロジェクトで、テキストから画像を生成することができます。これは以前の画像生成Stable Diffusion Modelのアップグレード版であり、巨大な画像データセットでトレーニングされています。Stability AIはまた、開発者向けにStable DiffusionモデルのAPIをリリースしており、他の企業がそれをアプリやサービスに統合することができます。最良の部分は、AWS上で完全に管理可能であることです。
具体的には、このアップデートはSDXL 0.9の続編であり、最新バージョンであるSDXL 1.0です。このバージョンでは、より鮮やかで正確な色、より良いコントラスト、照明、影を提供します。複数のアスペクト比で1 MP、1024 x 1024の解像度の画像を生成することができます。多くの機能は現在早期アクセスに制限されていますが、徐々に利用できるようになります。さらに、画像の欠落部分を修正することもできます。
SDXL 1.0は3.5Bパラメータのベースモデルを使用しており、6.6Bパラメータのモデルはまだベータ版です。同じモデルは、Stability AIのツールであるStable Doodleなどでも利用でき、リリース後わずか1週間で300万枚以上の画像を生成しています。
ローカルマシンでStable Diffusion XL 1.0を実行する方法
ローカルマシンで実行する唯一の欠点は、メモリ管理が改善されていないため、いくつかの問題が発生する可能性があることです。ただし、他のすべての機能は十分に使用できます。また、細かい調整も可能なので、必要に応じてカスタマイズすることができます。開発者はデプロイメントのためにAmazon Bedrockから直接使用することもできます。
Stable Diffusion XL 1.0へのアクセス方法
Clipdropを使用してStable Diffusion XL 1.0にアクセスする方法
- Clipdrop Stable Diffusionのウェブページにアクセスしてください。
- 次に、テキストボックスが表示されますので、テキストプロンプトを入力してください。プロンプトを入力してください。
- その後、テキストボックスの右側にあるGenerateボタンの隣に調整が表示されます。画像の作成、アスペクト比、ネガティブプロンプトに含めるものなど、好みに合わせて調整する必要があります。
- プロンプトと設定を調整したら、Generateをクリックしてください。さまざまな画像のバリエーションが表示され、さらに作成するにはギャラリーの次のボタンをクリックしてください。
- 次に、好きな画像を選択してダウンロードすることができます。不満がある場合は、調整して再生成することができます。
以下に例があります。効果的に使用するために、プロンプトを試行錯誤して工夫する必要があります。
DreamStudioを使用してStable Diffusion XL 1.0にアクセスする方法
- DreamStudioにアクセスし、左パネルにプロンプトを入力してください。
- その下には、好みのスタイルの選択、ネガティブプロンプトの回避、参照画像のアップロード、アスペクト比と画像数のバリエーションの調整など、他の調整があります。
- 最後に、Advancedオプションでは、AI画像生成モデル、シード、高さ、幅など、より細かな制御が可能です。無制限の画像を作成することはできません。使用するためにはクレジットを購入する必要があり、アカウントの作成も必要です。
- すべての調整を行ったら、Dreamをクリックしてください。
- 以上です!
最新のアップデートでは、レンダリングの機能が拡張され、ディズニースタイルのアート、アニメアート、風景、オーダーメイドの写真、俳優やキャラクターのイメージなど、さまざまなアートスタイルで画像を生成することができます。処理時間が短くなり、プロンプトをより理解することができます。
興味深いことに、これによりスタイル転送を行うためのまったく異なる方法が可能になります:
– “エッフェル塔の写真、赤いスーパームーン、パリのスカイライン” (1)
– “ヴァン・ゴッホの絵画” (2)
– 両方のプロンプトを同時に使用したコンボ (3)— Xander Steenbrugge (@xsteenbrugge)
最近、Deepfake、ポルノ、誤情報の可能性について懸念が示されていますが、会社はこれらの課題に対処するための安全装置を導入しています。