安定拡散とは何ですか? 1 つの人工知能モデルが、目に見える画像をどのように再形成しているかを見てみましょう

July 29, 2023
にスマートでコネクテッドライフ Aiと科学

安定拡散とは、人工知能画像を作成する（AI）モデル。これは、次のような他の生成 AI モデルと同様に機能します。チャットGPT. テキストプロンプトが提供されると、Stable Diffusion はトレーニングデータに基づいて画像を作成します。

安定拡散とは何ですか?

Stable Diffusion は、テキストプロンプトが提供されたときに画像を作成するコンピュータープログラムです。たとえば、プロンプト「apple」はリンゴの画像を生成します。また、特定の芸術的なスタイルでリンゴの画像を作成するなど、より複雑なプロンプトが必要になる場合もあります。

画像を生成するだけでなく、既存の画像の一部を置き換えたり、画像を拡張して画像を大きくしたりすることもできます。画像内の要素を追加または置換することをインペイントと呼び、画像を拡張して大きくすることをアウトペイントと呼びます。これらのプロセスにより、元の画像が AI で作成されたかどうかに関係なく、あらゆる画像が変更される可能性があります。

安定拡散モデルはオープンソース、誰でも使用できます。

AIはどのように画像を生成できるのでしょうか?

AI はいくつかの異なる方法で画像を生成できますが、安定拡散では潜在拡散モデル (LDM) として知られるものを使用します。アナログテレビの静電気に似たランダムなノイズから始まります。最初の静的な状態から、画像がテキストプロンプトと一致するまで、多くの手順を経て画像からノイズが除去されます。これが可能なのは、モデルが既存の画像にノイズを追加することによってトレーニングされているためであり、本質的にはそのプロセスを逆にしているだけです。

安定拡散は、主に次のような Web サイトからの、インターネットからの多くの画像でトレーニングされました。ピンタレスト、DeviantArt、Flickr。各画像にはテキストのキャプションが付けられました。これにより、モデルはさまざまなものがどのように見えるかを認識し、さまざまなアートスタイルを再現し、テキストプロンプトを受け取って画像に変換することができます。他の画像セットを使用してモデルを微調整して、異なる結果を生成することもできます。

安定拡散とは何ですか?

Stable Diffusion は、テキストプロンプトに基づいてイメージを生成し、インペイントとアウトペイントのプロセスを使用して既存のイメージを変更するために使用されます。たとえば、鮮明なテキストの説明に基づいて画像全体を作成したり、既存の画像の一部を置き換えたりできます。

画像がいつ AI で生成されたのかわかりますか?

安定拡散により、本物と見分けがつきにくいフォトリアリスティックな画像や、手描きやペイントされたアートワークと見分けがつきにくい画像を作成できます。プロンプトやその他の要因によっては、明らかに偽物の画像が判明することもあります。

AI によって生成されたアートを見つける 1 つの方法は、手を観察することです。安定した拡散や他のモデルは、その分野で多くの問題を抱えているためです。画像の被写体が明らかに手を隠している場合、それは誰かが AI モデルの欠点を回避するために賢明なプロンプトエンジニアリングを使用したというヒントです。ただし、AI モデルは信じられないほどの速さで変化しているため、これらの欠点は短期間で終わる可能性が高いことに注意してください。

安定普及に関する論争と問題点

Stable Diffusion によって生成された画像は理論的にはあらゆる目的に使用できますが、AI によって生成されたコンテンツに関連する落とし穴が数多くあります。

AI 画像生成はオブジェクトについてどこかから学習する必要があるため、そのプログラマーはメタデータを含むアートをインターネットから収集しました。彼らはソースアートの作成者からの許可を得ずにこれを行っており、著作権の問題が生じています。

Stable Diffusion はイメージを最初から作成しないため、この問題は特に曖昧です。研究したものからそれらをまとめます。したがって、学習と作成の両方において、許可の有無にかかわらず、他のアーティストの作品を使用します。 DeviantArt のようなサイトは、AI システムがトレーニングにアートを使用することをユーザーがオプトアウトできるようにすることで、大量離脱を回避しているだけです。

AIによって部分的に作成された作品の著作権保護の主題も曖昧であり、AIが生成した要素を含む作品の著作権申請は拒否されている。それにもかかわらず、AI による画像生成が普及するにつれ、この安価で「簡単な」方法に仕事を奪われかねない伝統的なアーティストの生活が脅かされています。

よくある質問

AIアートとは何ですか？

「AI アート」は、Stable Diffusion、Midjourney、DALL-E、およびその他の自然言語画像ジェネレーターの総称です。各バージョンでは、画像のトレーニングと作成に異なる方法が使用されますが、それらはすべて「AI アート」の説明に当てはまります。
なぜAIアートは手を動かすことができないのでしょうか？

AIアートは両手と歯に問題を抱えています。その理由は、ジェネレーターは一般に、これらの体の部分が何であるかを「知っている」一方で、人間が持つ典型的な指や歯の数を理解していないためです。