April 24, 2024

Nvidia en Microsoft hebben een AI-model uitgerold met een waarde van 530 miljard variabelen • The Register

Nvidia en Microsoft hebben hun grootste monolithische transformatortaalmodel tot nu toe aangekondigd, een kunstmatige-intelligentiemodel met 530 miljard parameters die ze samen hebben ontwikkeld, het Megatron-Turing Natural Language Generation-model.

De MT-NLG is krachtiger dan eerdere op switcher gebaseerde systemen die de twee bedrijven hebben getraind, namelijk het Turing-NLG-model van Microsoft en Nvidia’s Megatron-LM. MT-NLG bestaat uit drie keer de parameters verdeeld over 105 lagen, en is veel groter en complexer. Ter vergelijking: OpenAI’s GPT-3-model 175 miljard docenten en Google wissel adapter De demo bevat 1,6 biljoen parameters.

Groter is over het algemeen beter als het gaat om neurale netwerken. Het vereist dat ze meer trainingsgegevens opnemen. MT-NLG is beter in een verscheidenheid aan natuurlijke taaltaken, zoals het automatisch aanvullen van zinnen, vraag en antwoord, lezen en gevolgtrekking dan zijn voorgangers. Het kan deze taken ook uitvoeren met weinig of geen fine-tuning, iets dat low-shot learning of no-shot learning wordt genoemd.

Naarmate deze taalmodellen groter worden, moeten AI-onderzoekers en ingenieurs allerlei technieken en trucs bedenken om ze te trainen. Het vereist een nauwkeurige opmaak: het model en de trainingsgegevens moeten op meerdere chips tegelijk worden opgeslagen en verwerkt.

De MLT-NLG is getraind met behulp van Nvidia’s Selene machine learning supercomputer, een systeem van 560 DGX A100-servers waarbij elke server acht 80GB A100 GPU’s bevat. Selene wordt ook aangedreven door AMD’s EPYC 7v742 CPU en heeft een geschatte kostprijs van meer dan $85 miljoen. volgens naar het volgende platform.

Alle 4.480 GPU’s gebruiken NvLink en NVSwitch om met elkaar te communiceren. Elk was in staat om meer dan 113 teraflops per seconde te draaien. Deze modellen zijn ongelooflijk duur om te trainen, en zelfs als ze op high-end hardware draaien, hebben ze softwarehacks nodig om de trainingstijd te verkorten. Gebruik Nvidia en Microsoft DeepSpeed, een deep learning-bibliotheek met PyTorch-code waarmee ingenieurs meer gegevens parallel door vele pijplijnen konden proppen.

“Door tensor slicing en parallelling met pijpleidingen te combineren, kunnen we ze binnen het systeem uitvoeren waar ze het meest effectief zijn”, aldus Paresh Kharia, senior director productmanagement en marketing voor Accelerated Computing bij NVIDIA, en Ali Alvi, group program manager voor Microsoft’s Turing Team, uitgelegd in a Blogpost.

Meer specifiek gebruikt het systeem tensor slicing van Megatron-LM om het model binnen een knooppunt te schalen en gebruikt het pijplijnparallellisme van DeepSpeed ​​​​om het model over knooppunten te schalen.

Voor het model van 530 miljard omvat elke replica bijvoorbeeld 280 NVIDIA A100 GPU’s, met een 8-weg tensor-slicing binnen een knooppunt en 35-weg pijplijnparallellisme tussen knooppunten.Vervolgens gebruiken we dataparallellisme van DeepSpeed ​​​​om het te schalen naar duizenden van grafische verwerkingseenheden.

MT-NLG is getraind op een gigantische dataset die bekend staat als: stapel. Samengesteld door Eleuther AI, een groep onderzoekers en ingenieurs op het gebied van kunstmatige intelligentie die een basisinspanning voor grote open source-taalmodellen leiden, is het samengesteld uit meerdere kleinere datasets van in totaal 825 gigabyte aan tekst afkomstig van internet uit bronnen zoals Wikipedia en repositories Academische tijdschriften , nieuwsfragmenten.

Omgaan met zulke grote hoeveelheden tekst betekent dat een dataset niet kan worden gezuiverd van giftige taal. Helaas betekent dit dat MT-NLG aanstootgevende resultaten kan genereren die racistisch of seksistisch kunnen zijn.

“Onze observaties met MT-NLG geven aan dat het model stereotypen en vooroordelen oppikt uit de gegevens die worden getraind”, aldus Kharya en Alvi.

Microsoft en NVIDIA doen er alles aan om dit probleem aan te pakken. We moedigen voortdurend onderzoek aan om de mate van modelbias te helpen bepalen… Bovendien moet elk gebruik van MT-NLG in productiescenario’s ervoor zorgen dat passende maatregelen worden getroffen om mogelijke schade aan gebruikers te beperken en te minimaliseren.”®