October 22, 2024

Microsoft en Tsinghua University bieden het DIFF Transformer LLM-programma aan

Microsoft en Tsinghua University bieden het DIFF Transformer LLM-programma aan

Onderzoekers van Microsoft-kunstmatige intelligentie En Tsinghua Universiteit Ik heb een nieuwe structuur geïntroduceerd genaamd Differentieelomvormer (DIFF-converter)met als doel de prestaties van grote taalmodellen te verbeteren. Dit model verbetert de aandachtsmechanismen door de manier waarop modellen omgaan met context te verbeteren en afleidingen door irrelevante informatie te verminderen.

Het belangrijkste kenmerk van DIFF-converter Het is een mechanisme van differentiële aandacht. Het berekent de aandacht door twee afzonderlijke aandachtskaarten te vergelijken, waardoor het model zich effectiever kan concentreren op relevante delen van de invoer. Deze aanpassing verbetert de nauwkeurigheid, vooral bij taken zoals het beantwoorden van vragen en het samenvatten van tekst.

De architectuur verbetert ook de schaalbaarheid, waardoor prestaties worden behaald die vergelijkbaar zijn met die van grotere modellen met minder trainingsbronnen. Deze efficiëntie is handig bij het omgaan met langere gegevensreeksen, waardoor het geschikt is voor taken waarbij grote hoeveelheden informatie in één keer moeten worden verwerkt.

Experimenten tonen dat aan DIFF-converter Het presteert consequent beter dan traditionele transformatoren bij taken zoals Taalmodellering En Ophalen van informatiewat verbeterde prestaties en efficiëntie biedt in grote taalmodellen (LLM's). Het ontwerp verbetert praktische toepassingen zoals lange-contextmodellering, het ophalen van basisinformatie, het beperken van hallucinaties en het leren van contexten, terwijl ook de activeringsuitschieters worden verminderd. Deze verbeteringen leiden tot een betere nauwkeurigheid in diverse datasets en een grotere robuustheid bij veranderingen in de invoervolgorde DIFF-converter Meer geschikt voor omgevingen met weinig middelen.

De volgende tabel vergelijkt de nulsomprestaties van de DIFF-transformator met verschillende goed opgeleide transformatormodellen, waaronder OpenLLaMA-v2-3B, StabieleLM-base-alpha-3B-v2En StabielLM-3B-4E1T De DIFF-converter geeft betere of vergelijkbare resultaten.

Liefhebbers en professionals hebben dat gedaan Toon interesse In de praktijktoepassing, vooral in scenario's waarin de nauwkeurigheid van de voorspelling een grotere rekenkracht kan rechtvaardigen.

Datawetenschap Kuldeep Singh Aandelen op X:

Hoewel Google Transformer misschien 'aandacht is alles wat je nodig hebt', zijn Microsoft en Tsinghua_Uni hier met DIFF Transformer en stellen dat 'verspreide aandacht alles is wat je nodig hebt'.

Onderzoeker op het gebied van kunstmatige intelligentie Manu Hotel boeken:

Maar de andere schakelaar heeft een kleine afweging: hij heeft dubbele schakelaarkoppen.

Discussies Over de DIFF-converter benadrukken de afweging tussen rekenkosten en voorspellingsnauwkeurigheid. De noodzaak van het model om aandachtsoperaties tweemaal uit te voeren kan zowel de training als de gevolgtrekking vertragen, maar er wordt gespeculeerd of dit betere resultaten zou kunnen opleveren met minder trainingsiteraties of minder gegevens.