November 16, 2024

Een nieuwe techniek voor het evalueren van de betrouwbaarheid van een AI-model voor algemene doeleinden voordat het wordt ingezet

Een nieuwe techniek voor het evalueren van de betrouwbaarheid van een AI-model voor algemene doeleinden voordat het wordt ingezet

Om de betrouwbaarheid van grote deep learning-modellen, basislijnmodellen genoemd, te schatten, ontwikkelden MIT-onderzoekers een techniek om de consistentie te evalueren van representaties die door een groep vergelijkbare modellen over hetzelfde testgegevenspunt zijn geleerd. Auteursrecht: Massachusetts Institute of Technology

Baseline-modellen zijn enorme deep learning-modellen die vooraf zijn getraind op een enorme hoeveelheid openbare, ongelabelde gegevens. Het kan worden toegepast op een verscheidenheid aan taken, zoals het maken van afbeeldingen of het beantwoorden van vragen van klanten.

Maar deze modellen, die de ruggengraat vormen van krachtige AI-tools zoals ChatGPT en DALL-E, kunnen onjuiste of misleidende informatie opleveren. In een veiligheidskritische situatie, zoals een voetganger die een zelfrijdende auto nadert, kunnen deze fouten ernstige gevolgen hebben.

Om dergelijke fouten te helpen voorkomen, hebben onderzoekers van MIT en het MIT-IBM Watson AI Laboratory een techniek ontwikkeld om de betrouwbaarheid van basismodellen te schatten voordat ze voor een specifieke taak worden ingezet.

Dit doen ze door een set basismodellen te trainen die enigszins van elkaar verschillen. Vervolgens gebruiken ze hun algoritme om de consistentie te evalueren van de representaties die elk model leert over hetzelfde testgegevenspunt. Als de representaties consistent zijn, is het model betrouwbaar.

Toen ze hun techniek vergeleken met de modernste basislijnmethoden, was deze beter in het vastleggen van de betrouwbaarheid van basislijnmodellen voor een verscheidenheid aan classificatietaken.

Iedereen kan deze techniek gebruiken om te bepalen of een model in een bepaalde omgeving moet worden toegepast, zonder het op een echte dataset te hoeven testen. Dit kan met name handig zijn wanneer datasets niet beschikbaar zijn vanwege privacyoverwegingen, zoals in gezondheidszorgomgevingen. Bovendien kan deze techniek worden gebruikt om modellen te rangschikken op basis van betrouwbaarheidsscores, zodat de gebruiker het beste model voor zijn of haar taak kan kiezen.

“Alle modellen kunnen fout zijn, maar modellen die weten wanneer ze fout zitten zijn dat wel.” Het probleem van het bepalen van de onzekerheid of betrouwbaarheid wordt voor deze basismodellen moeilijker omdat hun abstracte representaties moeilijk te vergelijken zijn. Met onze methode kun je bepalen hoe betrouwbaar de representatie is. is voor alle gegeven invoergegevens.”

Hij wordt vergezeld in een paper over het werk van hoofdauteur Young-Jin Park, een afgestudeerde student aan LIDS; Hao Wang, onderzoeker bij het MIT-IBM Watson AI Laboratory; en Shervin Ardashir, senior onderzoeker bij Netflix. Het paper zal worden gepresenteerd op de Uncertainty in Artificial Intelligence-conferentie (Iraakse Unie van Landbouwingenieurs 2024), dat van 15 tot en met 19 juli in Barcelona werd gehouden beschikbaar Op de Arksif Preprint-server.

Bereken consensus

Traditionele machine learning-modellen zijn getraind om een ​​specifieke taak uit te voeren. Deze modellen maken meestal een concrete voorspelling op basis van input. Een model kan u bijvoorbeeld vertellen of een bepaalde afbeelding een kat of een hond bevat. In dit geval kan het beoordelen van de betrouwbaarheid slechts een kwestie zijn van kijken naar de uiteindelijke voorspelling om te zien of het model correct is.

Maar de funderingsmodellen zijn anders. Het model is vooraf getraind met behulp van openbare gegevens, in een omgeving waarin de makers ervan niet alle volgende taken kennen waarop het zal worden toegepast. Gebruikers passen het aan hun specifieke taken aan nadat ze het al hebben getraind.

In tegenstelling tot traditionele machine learning-modellen leveren basismodellen geen tastbare resultaten op, zoals ‘kat’- of ‘hond’-labels. In plaats daarvan genereren ze een abstracte weergave op basis van een invoergegevenspunt.

Om de betrouwbaarheid van het basismodel te evalueren, gebruikten onderzoekers een clusterbenadering door verschillende modellen te trainen die veel kenmerken gemeen hebben maar enigszins van elkaar verschillen.

“Ons idee lijkt op een consensusberekening”, zegt Park. “Als al deze basismodellen consistente weergaven bieden van alle gegevens in onze dataset, kunnen we zeggen dat dit model betrouwbaar is.”

Maar ze stonden voor een probleem: hoe konden ze abstracte representaties met elkaar vergelijken?

“Deze modellen produceren slechts een vector die uit een aantal getallen bestaat, dus we kunnen ze niet gemakkelijk vergelijken”, voegt hij eraan toe.

Ze hebben dit probleem opgelost met behulp van een idee genaamd live consistentie.

Volgens hun aanpak bereiden onderzoekers een reeks betrouwbare referentiepunten voor om op een reeks modellen te testen. Vervolgens onderzoeken ze voor elk model referentiepunten die zich in de buurt van de representatie van het testpunt door het model bevinden.

Door naar de consistentie van aangrenzende punten te kijken, kunnen ze de betrouwbaarheid van de modellen inschatten.

Voorstellingen uitlijnen

Basismodellen zetten datapunten uit in een zogenaamde representatieruimte. Eén manier om deze ruimte te beschouwen is als een bol. Elk model tekent identieke gegevenspunten uit voor hetzelfde deel van de bal, zodat afbeeldingen van katten op de ene plek verschijnen en afbeeldingen van honden op een andere plek.

Maar elk model zal dieren in zijn eigen domein op een andere manier in kaart brengen, dus terwijl katten voor één domein in de buurt van de Zuidpool kunnen worden gegroepeerd, kan een ander model katten ergens op het noordelijk halfrond in kaart brengen.

Onderzoekers gebruiken aangrenzende punten als ankers om deze gebieden op één lijn te brengen, zodat ze de representaties vergelijkbaar kunnen maken. Als de buren van een datapunt consistent zijn over meerdere representaties heen, moet men vertrouwen hebben in de betrouwbaarheid van de modeluitvoer voor dat punt.

Toen ze deze aanpak testten op een breed scala aan classificatietaken, ontdekten ze dat deze consistenter was dan de basislijnen. Bovendien werd de aanpak niet verzand door lastige testpunten waardoor andere methoden faalden.

Bovendien kan hun aanpak worden gebruikt om de betrouwbaarheid van invoergegevens te evalueren, en zo kan men evalueren hoe goed het model werkt met een bepaald type individu, zoals een patiënt met bepaalde kenmerken.

“Zelfs als alle modellen over het geheel genomen gemiddelde prestaties leveren, zou je vanuit individueel oogpunt de voorkeur geven aan het model dat het beste werkt voor dat individu”, zegt Wang.

Eén beperking komt echter voort uit het feit dat ze een reeks grote basismodellen moeten trainen, wat rekentechnisch duur is. In de toekomst zijn ze van plan efficiëntere manieren te vinden om meerdere modellen te bouwen, misschien met behulp van kleine verstoringen van één enkel model.

meer informatie:
Young-Jin Park et al., Bepaling van de betrouwbaarheid van representatie in zelfgecontroleerde leermodellen, Arksif (2023). DOI: 10.48550/arxiv.2306.00206

Tijdschriftinformatie:
Arksif

Geleverd door MIT

Dit verhaal is opnieuw gepubliceerd met toestemming van MIT News (Website: www.mit.edu/newsoffice/), een populaire site met nieuws over onderzoek, innovatie en onderwijs aan het MIT.

de Quote:Een nieuwe techniek om de betrouwbaarheid van een AI-model voor algemene doeleinden te evalueren vóór de publicatie ervan (2024, 16 juli) Opgehaald op 16 juli 2024 van https://techxplore.com/news/2024-07-technique-general-purpose- ai-reliability.html

Op dit document rust auteursrecht. Niettegenstaande eerlijke handel met het oog op privéstudie of onderzoek, mag geen enkel deel ervan worden gereproduceerd zonder schriftelijke toestemming. De inhoud wordt uitsluitend ter informatie verstrekt.