Artificiële intelligentie en text-to-image: hoe werkt het?

Je hebt wellicht gehoord van een nieuwe technologie waarbij artificiële intelligentie afbeeldingen maakt, op basis van tekst die jij ingeeft. Hoe gaat dat in zijn werk?

Het nieuwe buzz-woord is  text-to-image AI – artificiële intelligentie die op basis van vele afbeeldingen een nieuwe afbeelding creëert aan de hand van tekst die jij ingeeft. Die algoritmes  van de AI zijn getraind op grote datasets met afbeeldingen die op het internet te vinden zijn, waaronder ook publiek toegankelijke afbeeldingen op het internet van beeldbanken zoals Shutterstock.

Maar hoe gaan die databanken te werk, en zit daar misschien ook een afbeelding van jou bij? Wij vonden een uitleg over LAION, het Large Scale Artificial Open Network. Dat is een non-profit organisatie die grootschalige machine learning modellen, datasets en de bijhorende code beschikbaar stelt voor het grote publiek.

Belangrijk daarbij is dat je weet dat geen enkele afbeelding bewaard wordt in die datasets. LAION bekijkt gewoon de afbeeldingen en de alt-text die erbij hoort. Zoals je weet kan je bij elke foto die je online zet, een naam geven die de afbeelding omschrijft. Die titel wordt dan ook gebruikt door bijvoorbeeld schermlezers van blinden en slechtzienden.

Op basis van die alt-txt gaan algoritmes berekenen welke afbeeldingen gelijkaardig zijn, en bijvoorbeeld “kat springt op dak” als omschrijving hebben. De dataset bevat enkel de link naar de afbeelding, de omschrijving ervan en de score van gelijkaardigheid van de afbeeldingen.

Wanneer een organisatie nu de LAION dataset wil gebruiken, dan moet die organisatie de afbeeldingen zelf gaan downloaden, als het meer nodig heeft dan de links, de omschrijvingen en de score. En mogelijk is die afbeelding ondertussen al verdwenen.

Hopelijk heeft dit al wat duidelijk gebracht over hoe die algoritmes getraind worden? Wil je weten of ook jouw afbeelding in die dataset voorkomt? Bij Have I Been Trained kan je de grote AI training database met maar liefst 5,85 miljard afbeeldingen doorzoeken op basis van jouw naam of een foto die je uploadt.

Wat met AI-kunst die op fotostock-afbeeldingen gebaseerd is?

Het principe is dus simpel: artificiële intelligentie kan op basis van tekst een afbeelding maken die jouw trefwoorden bevat. Hoe slimmer je bent in het bedenken van trefwoorden, hoe origineler de afbeeldingen. Het is zelfs zo ver gekomen dat sommigen zich gespecialiseerd hebben in die kunst, en zich AI text-to-image expert noemen.

Het resultaat van die AI vindt zijn weg steeds vaker naar stockfoto-diensten zoals Shutterstock. Maar er zit een addertje onder het gras. Shutterstock heeft afbeeldingen die gratis zijn. Maar anderen zijn dan weer betalend, want ook de fotograaf moet zijn brood verdienen, niet? Wat met de nieuwe text-to-image afbeelding die dan via Shutterstock aangeboden wordt? Kan die gratis zijn? Of moeten de auteursrechten erop gaan naar degene die de tekst-opdracht gaf aan de AI? Of (gedeeltelijk) naar Shutterstock, omdat deze afbeelding deel uitmaakt van de database waarop de AI getraind is? Daarover een interessante discussie bij Ars Technica.

Afbeeldingenplatform Getty Images heeft alvast een standpunt ingenomen in de discussie die zich stilaan aan het ontspinnen is: het verbiedt het uploaden en de verkoop van alle illustraties die gemaakt zijn met AI tools zoals DALL-E en Stable Diffusion. Volgens het bedrijf wordt deze maatregel genomen omdat het zijn klanten wil beschermen tegen mogelijk wettelijke vervolging over AI gegenereerde content.

Wil je de wonderen van deze technologie eens bekijken? Dit YouTube filmpje zal je ongetwijfeld verbazen!

Dit artikel verscheen eerder bij Netties e-zine. Een abonnement op dit e-zine is gratis.

Over de auteur

Verwant

Geef commentaar