December 26, 2024

De snelheid van de ontwikkeling van AI overtreft de risicobeoordeling

De snelheid van de ontwikkeling van AI overtreft de risicobeoordeling

Logo-montage
In zoomen / Google, Anthropic, Cohere en Mistral hebben de afgelopen twee maanden allemaal AI-modellen uitgebracht in hun poging OpenAI van de top van de algemene ranglijst te verdrijven.

voet

De toenemende kracht van de nieuwste AI-systemen drijft traditionele beoordelingsmethoden tot het breekpunt, waardoor bedrijven en overheidsinstanties worden uitgedaagd over de beste manier om met de snel evoluerende technologie te werken.

Gebreken in de evaluatiecriteria die doorgaans worden gebruikt om prestaties, nauwkeurigheid en veiligheid te meten, komen aan het licht naarmate er meer modellen op de markt komen, zeggen mensen die AI-tools bouwen, testen en erin investeren. Traditionele tools zijn gemakkelijk te manipuleren en te beperkt voor de complexiteit van de nieuwste modellen, zeiden ze.

De steeds snellere technologierace die werd aangewakkerd door de lancering van OpenAI's ChatGPT-bot in 2022 en aangewakkerd door tientallen miljarden dollars van durfkapitalisten en grote technologiebedrijven, zoals Microsoft, Google en Amazon, heeft veel oude maatstaven voor het evalueren van AI-vooruitgang vernietigd. .

“De gemeenschappelijke standaard heeft een houdbaarheidsdatum”, zegt Aidan Gomez, oprichter en CEO van AI-startup Coher. “Het is nuttig totdat mensen het verbeteren [their models] erop of speel ermee. Dat zou een paar jaar duren; Nu is het twee maanden geleden.”

Google, Anthropic, Cohere en Mistral hebben de afgelopen twee maanden allemaal AI-modellen uitgebracht in hun poging om het door Microsoft gesteunde OpenAI te onttronen van de top van de algemene ranglijst van grote taalmodellen (LLM's), die systemen als ChatGPT aandrijven.

Er verschijnen routinematig nieuwe AI-systemen die de bestaande normen “volledig kunnen overtreffen”, zei Gomez. “Naarmate de modellen verbeteren, maken de mogelijkheden deze beoordelingen overbodig”, zei hij.

Het probleem van het evalueren van MBA’s is verschoven van de academische wereld naar directiekamers, waarbij generatieve AI nu de hoogste investeringsprioriteit is voor 70% van de CEO’s, volgens een onderzoek van KPMG onder ruim 1.300 CEO’s wereldwijd.

“Mensen zullen geen technologie gebruiken die ze niet vertrouwen”, zegt Shelley McKinley, Chief Legal Officer bij GitHub, een coderepository die eigendom is van Microsoft. “Bedrijven moeten betrouwbare producten op de markt brengen.”

Overheden worstelen ook met de manier waarop ze de risico’s van de nieuwste AI-modellen kunnen inzetten en beheersen. Vorige week ondertekenden de VS en Groot-Brittannië een baanbrekende bilaterale overeenkomst over AI-veiligheid, voortbouwend op nieuwe AI-instituten die de twee landen vorig jaar hebben opgericht om “verrassing te minimaliseren… veroorzaakt door snelle en onverwachte ontwikkelingen op het gebied van AI.”

De Amerikaanse president Joe Biden vaardigde vorig jaar een uitvoerend bevel uit waarin hij overheidsinstanties, waaronder het National Institute of Standards and Technology, opriep om normen vast te stellen voor de risicobeoordeling van hulpmiddelen voor kunstmatige intelligentie.

Of het nu gaat om het evalueren van veiligheid, prestaties of efficiëntie, groepen die belast zijn met het stresstesten van AI-systemen haasten zich om op de hoogte te blijven van de nieuwste ontwikkelingen.

“De belangrijkste beslissing die veel bedrijven nemen is: moeten we de LLM gebruiken en welke moeten we gebruiken?” zei Rishi Bomasani, die een team leidt bij het Stanford Center for Foundation Model Research.

Bomasani's team ontwikkelde de Comprehensive Language Modeling Assessment, die onder meer redenering, memoriseren en vatbaarheid voor misleiding test.

Andere openbare systemen zijn onder meer de Massive Multi-Task Language Comprehension Benchmark, een dataset die in 2020 door Berkeley-studenten is gemaakt om modellen te testen op vragen uit 57 vakgebieden. Een andere applicatie is HumanEval, die de programmeervaardigheid beoordeelt op basis van 164 programmeerproblemen.

Evaluaties hebben echter moeite om gelijke tred te houden met de verfijning van de huidige AI-modellen, die een reeks onderling verbonden taken over een lange horizon kunnen uitvoeren. Dergelijke complexe taken zijn moeilijk te evalueren in gecontroleerde omgevingen.

“Het eerste dat je moet beseffen is dat het heel moeilijk is om modellen goed te evalueren, net zoals het heel moeilijk is om mensen goed te evalueren”, zegt Mike Volpe, partner bij durfkapitaalbedrijf Index Ventures. “Als je naar iets kijkt als 'Kun je hoog springen of snel rennen?', dan is dat gemakkelijk. Maar menselijke intelligentie? Het is een bijna onmogelijke taak.”

Een andere groeiende zorg over openbare tests is dat modeltrainingsgegevens de exacte vragen kunnen bevatten die bij beoordelingen worden gebruikt.

“Het is misschien geen opzettelijke fraude; “Het kan onschadelijk zijn”, zei Bomasani van Stanford. “Maar we leren nog steeds hoe we dit besmettingsprobleem kunnen verminderen tussen waar de modellen op zijn getraind en waarop ze zijn getest.”

Hij voegde eraan toe dat de normen “zeer homogeen” zijn. “We evalueren de kracht van houders van een LLM-diploma, maar je evaluatie als bedrijf is meer dan dat. Je moet rekening houden met de kosten [and] Of je nu open source wilt [where code is publicly available] Of gesloten bron.

Hugging Face, een startup van $4,5 miljard die tools levert voor AI-ontwikkeling en een invloedrijk platform is voor open source-modellen, host een leaderboard genaamd LMSys, dat modellen rangschikt op basis van hun vermogen om aangepaste tests uit te voeren die zijn ingesteld door individuele gebruikers, in plaats van een vaste set. . Van vragen. Als gevolg hiervan legt het direct de werkelijke voorkeuren van gebruikers vast.

Dit scorebord is nuttig voor individuele gebruikers, maar is van beperkter nut voor bedrijven, die specifieke eisen stellen aan AI-modellen, aldus Gomez van Cohere.

In plaats daarvan raadt hij bedrijven aan “een interne testsuite te bouwen, die slechts honderden voorbeelden nodig heeft, niet duizenden.”

“Wij zeggen altijd dat menselijke evaluatie het beste is”, zei hij. “Het is de meest representatieve manier om prestaties te beoordelen.”

De modelkeuzes van individuele bedrijven zijn zowel kunst als wetenschap, aldus Volpe van Index Ventures.

“Deze maatstaven zijn vergelijkbaar met wanneer je een auto koopt en deze heeft deze hoeveelheid pk’s en deze hoeveelheid koppel en gaat van nul naar 100 kilometer per uur”, zei hij. “De enige manier waarop je kunt besluiten om het te kopen, is door er een ritje mee te maken.”

© 2024 Financial Times Limited. Alle rechten voorbehouden. Het mag op geen enkele manier worden herverdeeld, gekopieerd of gewijzigd.