September 10, 2024

De tekst-naar-afbeelding-generator van Google “Imagen” is zeer realistisch

De tekst-naar-afbeelding-generator van Google “Imagen” is zeer realistisch

De afgelopen weken is het DALL-E 2 AI-beeldgenerator maakt furore op Twitter. Deze avond publiceerde Google zijn eigen versie genaamd “AfbeeldingEen diepgaand niveau van taalbegrip gaat gepaard met een ‘ongekende mate van beeldrealisme’. “

naar mij Google AI leidt Jeff Dean, AI-systemen zoals deze “kunnen gecombineerde creativiteit van mens en computer ontketenen” en Imagen “One Direction” [the company is] Stalking.” De vooruitgang die is geboekt door Google Research, Brain Team, in het tekst-naar-beeld-publicatiemodel is een niveau van realisme. Over het algemeen is DALL-E 2 grotendeels realistisch met zijn uitvoer, maar een diepere blik kan de aangeboden technische licenties onthullen. (Voor meer, zorg ervoor dat u Bekijk deze uitleg video.)

Imagen vertrouwt op de kracht van grote transformatortaalmodellen om tekst te begrijpen en is afhankelijk van de kracht van diffusiemodellen om afbeeldingen met een hoge resolutie te genereren. Onze belangrijkste bevinding is dat generieke grote taalmodellen (zoals T5), voorheen getraind op een set met alleen tekst, verrassend effectief zijn in het coderen van tekst voor beeldsynthese: het vergroten van het taalmodel in Imagen verbetert zowel de steekproefnauwkeurigheid als de afbeeldingstekst uitlijning veel meer dan het vergroten van het taalmodel in Imagen.

Om deze vooruitgang te demonstreren, heeft Google een standaard gemaakt voor het evalueren van tekst-naar-afbeelding-modellen, genaamd Tekenbank. Menselijke beoordelaars gaven de voorkeur aan “Imagen boven andere modellen in vergelijkingen naast elkaar, voor voorbeeldkwaliteit en uitlijning van afbeeldingstekst.” Vergeleken met VQ-GAN + CLIP, latente diffusiemodellen en DALL-E 2.

Statistieken die worden gebruikt om aan te tonen dat Imagen gebruikersverzoeken beter begrijpt, zijn onder meer ruimtelijke relaties, lange teksten, zeldzame woorden en moeilijke prompts. Een andere vooruitgang is de efficiënte nieuwe U-Net-architectuur die “meer computerefficiëntie, grotere geheugenefficiëntie en snellere convergentie biedt.”

Imagen behaalt een nieuwe FID-score van 7,27 op de COCO-dataset, zonder enige COCO-training, en menselijke beoordelaars vinden dat Imagen-samples gelijk zijn aan dezelfde COCO-gegevens bij het uitlijnen van de afbeeldingstekst.

Op het gebied van maatschappelijke impact heeft Google besloten om op dit moment “geen pictogram of openbare demo vrij te geven” van Imagen vanwege mogelijk misbruik. in aanvulling op:

Imagen vertrouwt op tekstcodecs die zijn getraind op onverzadigde webbrede gegevens, waardoor de sociale vooroordelen en beperkingen van grote taalmodellen worden geërfd. Als zodanig bestaat het risico dat Imagen schadelijke stereotypen en representaties heeft gecodeerd, wat ons leidt tot onze beslissing om Imagen niet vrij te geven voor openbaar gebruik zonder verdere waarborgen.

Dat is wat er werd gezegd, er is een bestand Interactieve presentatie op de siteen de Onderzoekspapier is hier beschikbaar.

Meer over Google AI:

FTC: we gebruiken gelieerde links om inkomsten te genereren. meer.


Bekijk 9to5Google op YouTube voor meer nieuws: