Hvordan AI-systemer efterligner menneskelig kreativitet

December 02, 2021
INyheder Software Og Apps

Nøgle takeaways

DALL·E er et nyt neuralt netværk, der kan tegne billeder baseret på tekst.
Netværket er et af et voksende antal AI-projekter, der kan efterligne menneskers kreative output.
Eksperter siger, at billeder tegnet af AI ikke er originale kreationer.

AI-Da robot hos Sarabande Foundation i 2019. Interview med Tim Marlow og udstilling af værker. — Ai-Da

Flyt over, Picasso. Et nyt neuralt netværk kan tegne billeder baseret på tekst.

DALL·E, et portmanteau af navnene på kunstneren Salvador Dalí og Pixar's WALL·E, kan tage enhver tekst og skabe et billede ud fra det. Systemet bruger et neuralt netværk, der er blevet trænet på milliarder af billeder og teksteksempler. Det er et af et voksende antal AI-projekter, der kan efterligne, men ikke kopiere, menneskers kreative output.

"Fordi naturligt sprog hele tiden udvikler sig og meget afhængigt af kontekstuelle nuancer, er det en meget vigtig præstation at lære en maskine at forstå sproget godt nok til at tegne et billede." Tamara Schwartz, professor i cybersikkerhed ved York College of Pennsylvania, sagde i et e-mailinterview. "Forestil dig en politiskitser, det er et sjældent talent, der har evnen til at skabe et billede baseret på en vidnebeskrivelse."

Brug af Big Data til at producere billeder

DALL-E blev skabt af AI-forskningsvirksomheden OpenAI og virker ved at akkumulere enorme mængder data fra internettet. Dataene behandles derefter af en naturlig sprogmodel og trænes til at producere billeder ud fra tekst. DALL-E fungerer på samme måde som for nylig udgivet GPT-3, en sprogmodel skabt af OpenAI, der kan blive bedt om at generere originale tekstpassager. GPT-3 blev trænet ved at bruge en halv trillion ord internettekst og kan producere overraskende naturtro tekst.

"At lære en maskine at forstå sprog godt nok til at tegne et billede er en meget vigtig præstation."

Michael Yurushkin, grundlægger og CTO af BroutonLab, en datavidenskabsvirksomhed, sagde i et e-mail-interview, at DALL-E er "en af menneskehedens få succesfulde forsøg på at efterligne vores kreativitet og fantasi." Han tilføjede: "Det er nemmere at indse hvordan AI forudsiger noget ved at gennemgå relevante data, men at forstå, hvordan den er i stand til at generere tegninger ud af ting, den aldrig har 'hørt' om før, er mere svært."

Schwartz er omhyggelig med at bemærke, at AI ikke skaber information, men snarere tager sprogdata og transformerer dem til billeder.

"Den oprindelige kreativitet kommer fra det menneske, der konstruerede opgaven," sagde Schwartz. "Der er en vis 'kreativitet' fra AI'ens side, fordi den eksperimenterer med forskellige kombinationer af data og derefter vælger fra en række potentielle output. Men et menneske undersøger outputtet og lærer AI, hvordan man vælger fra de mange kombinationer."

Robotdetektivarbejde?

En maskine kan eksperimentere med denne kombination af data og objekter meget hurtigere end en menneskelig kunstner. Schwartz bemærkede, at DALL-E en dag kunne samarbejde med en detektiv, der forsøgte at rekonstruere et gerningssted gennem en skitse, baseret på øjenvidneudsagn.

"Når vidner afgiver deres erklæringer, kunne computeren tage den talte, naturlige sproginformation og lave en tegning af scenen eller mange tegninger af scenen," sagde hun. "Disse visualiseringer kunne så integreres for at skabe et mere præcist billede af tabte beviser. Denne visualisering kunne beriges ved at integrere tidligere billeder af stedet før forbrydelsen."

Flere andre AI-drevne programmer kan producere kunst. For eksempel, Ai-Da bruger et robotarmsystem og ansigtsgenkendelsesteknologi parret med kunstig intelligens til at skabe kunst. Systemet kan analysere et billede foran maskinen, som indlæses i en algoritme til at producere robottens armbevægelser.

Menneskelige kunstnere bør dog ikke bekymre sig om, at robotoverlords vil erstatte dem, argumenterede Ahmed Elgammal, direktøren for Art and Artificial Intelligence Lab ved Rutgers University, i New York Times sidste år.

"Mens definitionen af kunst er under konstant udvikling, er det i sin kerne en form for kommunikation mellem mennesker," skrev han. "Uden en menneskelig kunstner bag maskinen kan AI ikke meget mere end at lege med form, uanset om det betyder at manipulere pixels på en skærm eller noter på en musikalsk hovedbog. Disse aktiviteter kan være engagerende og perceptuelt spændende, men de mangler mening uden interaktion mellem kunstner og publikum."

Efter at have set på DALL-E's arbejde, forstår jeg Elgammals pointe om, at de AI-skabte billeder ikke er kunst. På den anden side er de bedre end nogen kunst, jeg kunne skabe. Så hvad er egentlig forskellen?