November 25, 2024

OpenAI’s nieuwe AI-beeldgenerator verlegt de grenzen met snelle details en resolutie – Ars Technica

OpenAI’s nieuwe AI-beeldgenerator verlegt de grenzen met snelle details en resolutie – Ars Technica

Op woensdag OpenAI Kondig aan DALL-E 3, de nieuwste versie van het AI-beeldsynthesemodel dat volledige integratie met ChatGPT biedt. DALL-E 3 geeft afbeeldingen weer door complexe beschrijvingen nauwkeurig te volgen en de creatie van tekst in de afbeelding (zoals labels en tags) af te handelen, wat een uitdaging is voor eerdere modellen. Momenteel bevindt het zich in een onderzoekspreview en zal begin oktober beschikbaar zijn voor ChatGPT Plus- en Enterprise-klanten.

Net als zijn voorganger is DALLE-3 een tekst-naar-afbeelding-generator die nieuwe afbeeldingen creëert op basis van geschreven beschrijvingen die prompts worden genoemd. Hoewel OpenAI geen technische details over DALL-E 3 heeft vrijgegeven, is het AI-model dat de kern vormt van eerdere versies van DALL-E getraind op miljoenen afbeeldingen gemaakt door menselijke kunstenaars en fotografen, waarvan sommige een licentie uit voorraad hebben. sites zoals Shutterstock. DALL-E 3 volgt waarschijnlijk dezelfde formule, maar met nieuwe trainingstechnieken en langere computationele trainingstijd.

Afgaande op de voorbeelden die OpenAI op zijn promotieblog heeft verstrekt, lijkt DALL-E 3 een radicaal capabeler fotomontagemodel te zijn dan al het andere dat beschikbaar is als het gaat om het volgen van aanwijzingen. Hoewel de voorbeelden van OpenAI zorgvuldig zijn gekozen vanwege hun effectiviteit, lijken ze getrouw en overtuigend snelle instructies te volgen om objecten met minimale vervormingen weer te geven. Vergeleken met DALL-E 2 zegt OpenAI dat DALL-E 3 kleine details zoals handen effectiever optimaliseert, waardoor vrijwel aantrekkelijke beelden worden gecreëerd zonder de noodzaak van hacking of snelle engineering.

Ter vergelijking: Midjourney, een concurrerend AI-beeldsynthesemodel van een andere leverancier, geeft realistische details goed weer, maar vereist nog steeds een aanzienlijke hoeveelheid niet-intuïtief sleutelen aan aanwijzingen om enige controle over de beelduitvoer te krijgen.

De DALL-E 3 lijkt ook met tekst in afbeeldingen om te gaan op een manier die zijn voorgangers niet konden (sommige concurrerende modellen zoals de Stable Diffusion XL en Diep Floyd Ze worden er beter in.) Een avocadocartoon met de quote van het personage werd bijvoorbeeld perfect gemaakt, met een boodschap met de woorden: “Illustratie van een avocado die op de stoel van een therapeut zit en zegt: ‘Ik voel me zo leeg van binnen’, met een gat ter grootte van een krater in het midden. ” Ingekapseld in een tekstballon.

OpenAI zegt met name dat DALL-E 3 “native” is gebouwd op ChatGPT en zal verschijnen als een geïntegreerde functie van ChatGPT Plus, waardoor conversatieverbeteringen aan afbeeldingen mogelijk zijn op een manier die de AI-assistent als brainstormpartner gebruikt. Dit betekent ook dat ChatGPT afbeeldingen kan genereren op basis van de context van het huidige gesprek, wat tot nieuwe nieuwe mogelijkheden zou kunnen leiden. De Bing Chat AI-assistent van Microsoft, eveneens gebouwd op OpenAI-technologie, kan sinds maart afbeeldingen in de chat maken.

De theepot die de storm veroorzaakte

Afbeelding gegenereerd door de kunstmatige intelligentie van DALL-E 3
In zoomen / Door AI gegenereerde afbeelding DALL-E 3 van “een 3D-weergave van een koffiekopje dat op een winderige dag op een vensterbank wordt geplaatst. De storm buiten het raam wordt weerspiegeld in de koffie, met miniatuurbliksemschichten en turbulente golven zichtbaar in het kopje. De kamer is zwak verlicht, wat bijdraagt ​​aan de dramatische sfeer.”

OpenAI

De originele versie van DALL-E verscheen in januari 2021, en OpenAI lanceerde zijn dramatisch capabeler vervolg in april 2022, waarmee een nieuw tijdperk van door AI gegenereerde beelden met zo’n verbazingwekkende tamtam werd gelanceerd dat het de aanvankelijke gesloten bètatesters boeide. DALL-E-modellen maken gebruik van een technologie genaamd Latente verspreiding Dat verfijnt ruis tot beelden die het ‘herkent’ op basis van de kennis die het verkrijgt door training op de dataset en begeleiding door de vector. Dankzij dezelfde technologie kon in augustus vorig jaar het Stable Diffusion open gewichtsmodel op de markt komen.

Gezien de manier waarop DALL-E tijdens training concepten over afbeeldingen leert door een enorme dataset van door mensen gegenereerde kunstwerken te ontginnen, is de AI-technologie voor het genereren van afbeeldingen sinds de introductie vorig jaar zeer controversieel. De technologie heeft geleid tot protesten van artiesten die vrezen dat het hun methoden op onethische wijze zal vervangen of repliceren, tot rechtszaken wegens schending van het auteursrecht op basis van gestolen afbeeldingen die als trainingsgegevens worden gebruikt zonder de houders van auteursrechten te raadplegen, en nieuwe auteursrechtelijke uitspraken van het Copyright Office. . Kantonrechter.

Als knipoog naar deze controverses zegt OpenAI dat DALL-E 3 is ontworpen om verzoeken af ​​te wijzen waarin om een ​​afbeelding in de stijl van een live artiest wordt gevraagd. Open AI ook Biedt een model Makers kunnen ervoor kiezen om hun afbeeldingen niet te laten gebruiken om toekomstige modellen te trainen. Het lijkt onwaarschijnlijk dat deze maatregelen kunstenaars tevreden zullen stellen die doorgaans van mening zijn dat AI-training alleen opt-in mag zijn en niet standaard in beelddatasets moet worden opgenomen.

Vergelijking tussen
In zoomen / Vergelijking van “Een expressief olieverfschilderij van een dunkende basketbalspeler, afgebeeld als een nevelexplosie” zoals gemaakt door DALL-E 2 (links) en DALL-E 3 (rechts).

OpenAI

Momenteel stelt het Amerikaanse auteursrechtbeleid dat alleen kunstwerken die door AI zijn gemaakt geen auteursrechtelijke bescherming kunnen genieten, dus technisch gezien zou elke afbeelding die met DALL-E 3 is gemaakt in het publieke domein vallen. Hoewel OpenAI dit niet expliciet erkent, staat er wel dat “de afbeeldingen die u met DALL-E 3 maakt, van u zijn om te gebruiken en dat we geen toestemming nodig hebben om ze te herdrukken, verkopen of op de markt te brengen.” Dit is een duidelijke verandering ten opzichte van vorig jaar, toen OpenAI Beperkt gebruik van afbeelding DALE-2 Gebaseerd op een licentie waarin staat dat OpenAI ‘alle generaties bezit’.

Op het gebied van veiligheid zegt OpenAI dat het, net als DALL-E 2, trefwoord- en beelddetectiefilters in DALL-E 3 heeft geïmplementeerd om het vermogen om gewelddadige, seksuele of haatdragende inhoud te produceren te beperken. Het systeem is ook geprogrammeerd om verzoeken af ​​te wijzen die foto’s van publieke figuren op naam genereren, wat problemen veroorzaakte met de rivaliserende AI-aangedreven fotogenerator Midjourney toen deze valse arrestatiefoto’s van Donald Trump maakte.

OpenAI zegt dat het heeft samengewerkt met experts die bekend staan ​​als het ‘Rode Team’ om potentiële risico’s, zoals schadelijke vooroordelen of het genereren van propaganda en verkeerde informatie, te identificeren en te beperken. OpenAI heeft geen enkel woord gezegd over het potentieel van zijn tool om dit te doen Buig het historische record Met nauwelijks verhulde beledigingen zegt het echter dat het experimenteert met een “source classifier”-tool die zou kunnen helpen bepalen of een afbeelding door DALL-E 3 is gemaakt of niet.

Op dit moment hebben we nog geen toegang tot DALL-E 3 om het te testen, maar OpenAI zegt dat de AI-beeldgenerator nu gesloten tests ondergaat. Het is van plan het beschikbaar te maken voor ChatGPT Plus- en Enterprise-klanten “in oktober via de API en later dit najaar in Labs.”