Co to jest stabilna dyfuzja? Spojrzenie na to, jak jeden model sztucznej inteligencji przekształca obrazy, które widzisz

July 29, 2023
WInteligentne I Połączone życie Sztuczna Inteligencja I Nauka

click fraud protection

Stabilna dyfuzja jest sztuczna inteligencja (AI) model, który tworzy obrazy. Działa podobnie do innych generatywnych modeli AI, takich jak ChatGPT. Po wyświetleniu monitu tekstowego, Stable Diffusion tworzy obrazy na podstawie swoich danych treningowych.

Co to jest stabilna dyfuzja?

Stable Diffusion to program komputerowy, który tworzy obrazy po otrzymaniu monitu tekstowego. Na przykład zapytanie „jabłko” dałoby obraz jabłka. Może to również wymagać bardziej skomplikowanych podpowiedzi, takich jak tworzenie obrazu jabłka w określonym stylu artystycznym.

Oprócz generowania obrazów może zastępować części istniejącego obrazu i rozszerzać obrazy, aby były większe. Dodawanie lub zastępowanie elementów w obrazie nazywa się malowaniem, a powiększanie obrazu w celu jego powiększenia — przemalowywaniem. Procesy te mogą zmienić dowolny obraz, niezależnie od tego, czy oryginalny obraz został wykonany za pomocą sztucznej inteligencji, czy nie.

Model stabilnej dyfuzji jest otwarte źródło, więc każdy może z niego korzystać.

Jak sztuczna inteligencja może generować obrazy?

Sztuczna inteligencja może generować obrazy na kilka różnych sposobów, ale stabilna dyfuzja wykorzystuje coś, co jest znane jako utajony model dyfuzji (LDM). Zaczyna się od losowego szumu, który przypomina statyczny telewizor analogowy. Od tej początkowej statyki przechodzi przez wiele kroków, aby usunąć szum z obrazu, dopóki nie będzie pasował do monitu tekstowego. Jest to możliwe, ponieważ model został przeszkolony poprzez dodanie szumu do istniejących obrazów, więc zasadniczo jest to po prostu odwrócenie tego procesu.

Stable Diffusion zostało przeszkolone na wielu obrazach z Internetu, głównie ze stron takich jak Pinterest, DeviantArt i Flickr. Każde zdjęcie zostało opatrzone podpisem tekstowym, dzięki czemu model wie, jak wyglądają różne rzeczy, może odtworzyć różne style artystyczne i może przyjąć podpowiedź tekstową i przekształcić ją w obraz. Model można również dostroić za pomocą innych zestawów obrazów, aby uzyskać inne wyniki.

Do czego służy stabilna dyfuzja?

Stabilna dyfuzja służy do generowania obrazów na podstawie monitów tekstowych oraz do zmiany istniejących obrazów za pomocą procesów malowania i odmalowywania. Na przykład może utworzyć cały obraz na podstawie wyrazistego opisu tekstowego lub może zastąpić niewielką część istniejącego obrazu.

Czy potrafisz stwierdzić, kiedy obraz jest generowany przez sztuczną inteligencję?

Stable Diffusion może tworzyć fotorealistyczne obrazy, które trudno odróżnić od rzeczywistych, oraz obrazy, które trudno odróżnić od ręcznie rysowanych lub malowanych dzieł sztuki. Może również okazać się, że obrazy są wyraźnie fałszywe, w zależności od monitów i innych czynników.

Jednym ze sposobów na dostrzeżenie grafiki generowanej przez sztuczną inteligencję jest spojrzenie na ręce, ponieważ Stable Diffusion i inne modele mają wiele problemów w tym obszarze. Jeśli osoba na zdjęciu wyraźnie chowa ręce, jest to wskazówka, że ktoś zastosował sprytną szybką inżynierię, aby obejść wady modelu AI. Należy jednak pamiętać, że modele AI zmieniają się niezwykle szybko, więc te niedociągnięcia prawdopodobnie będą krótkotrwałe.

Kontrowersje i problemy ze stabilną dyfuzją

Obrazy generowane przez Stable Diffusion można teoretycznie wykorzystać do dowolnego celu, ale istnieje wiele pułapek związanych z treściami generowanymi przez sztuczną inteligencję.

Ponieważ generowanie obrazów AI musi skądś uczyć się o obiektach, jego programiści przeszukali Internet w poszukiwaniu sztuki z metadanymi. Zrobili to bez zgody twórców grafiki źródłowej, co rodzi kwestie praw autorskich.

Ten problem jest szczególnie niepewny, ponieważ Stable Diffusion nie tworzy swoich obrazów od podstaw; łączy je razem z tymi, które studiował. Więc zarówno od nauki, jak i tworzenia, korzysta z prac innych artystów, niezależnie od tego, czy udzielili pozwolenia, czy nie. Witryny takie jak DeviantArt uniknęły masowych wyjść tylko dlatego, że pozwoliły użytkownikom zrezygnować z pozwolenia systemom sztucznej inteligencji na wykorzystywanie ich sztuki do szkolenia.

Temat praw autorskich do dzieł, które zostały częściowo stworzone przez sztuczną inteligencję, jest również niejasny, ponieważ wnioski o prawa autorskie do dzieł zawierających elementy wygenerowane przez sztuczną inteligencję zostały odrzucone. Mimo to, w miarę jak generowanie obrazów oparte na sztucznej inteligencji staje się coraz bardziej powszechne, zagraża to źródłom utrzymania tradycyjnych artystów, którzy mogą stracić pracę na rzecz tej tańszej, „łatwiejszej” metody.

Często zadawane pytania

Czym jest sztuka AI?

„Sztuka sztucznej inteligencji” to ogólne określenie dla generatorów obrazów w języku naturalnym, Stable Diffusion, Midjourney, DALL-E i innych. Każda wersja może wykorzystywać różne sposoby trenowania i tworzenia obrazów, ale wszystkie mieszczą się w opisie „sztuki sztucznej inteligencji”.
Dlaczego sztuczna inteligencja nie może robić rąk?

Sztuka AI ma problemy zarówno z rękami, jak i zębami. Powodem jest to, że chociaż generatory „wiedzą”, ogólnie, jakie są te części ciała, nie rozumieją typowej liczby palców lub zębów, które mają ludzie.