November 28, 2024

Amazon zal menselijke benchmarkingteams introduceren om AI-modellen te testen

Amazon zal menselijke benchmarkingteams introduceren om AI-modellen te testen

Amazon wil dat gebruikers zijn AI-modellen beter evalueren en meer mensen aanmoedigen om aan het proces deel te nemen.

Tijdens de AWS re:Invent-conferentie maakte AWS Vice President Database, Analytics en Machine Learning Swami Sivasubramanian de aankondiging Evaluatie van het model op de eerste steen, is nu beschikbaar als preview voor modellen in het Amazon Bedrock-magazijn. Zonder een manier om modellen transparant te testen, kunnen ontwikkelaars uiteindelijk modellen gebruiken die niet nauwkeurig genoeg zijn voor een vraag- en antwoordproject of een model dat te groot is voor hun gebruiksscenario.

“Het model wordt niet alleen aan het begin geselecteerd en geëvalueerd, maar is iets dat periodiek wordt herhaald”, aldus Sivasubramanian. “Wij geloven dat het belangrijk is om een ​​mens op de hoogte te hebben, dus bieden we een manier om menselijke evaluatieworkflows eenvoudig te beheren en prestatiestatistieken te modelleren.”

Sivasubramanian zei de rand In een afzonderlijk interview weten sommige ontwikkelaars vaak niet of ze een groter model voor een project moeten gebruiken, omdat ze ervan uitgaan dat een krachtiger model aan hun behoeften zal voldoen. Later ontdekten ze dat ze op een kleinere hadden kunnen voortbouwen.

Een typische evaluatie bestaat uit twee componenten: geautomatiseerde evaluatie en menselijke evaluatie. In de geautomatiseerde versie kunnen ontwikkelaars naar hun Bedrock-console gaan en een model kiezen om te testen. Ze kunnen vervolgens de prestaties van het model evalueren op basis van statistieken zoals robuustheid, nauwkeurigheid of toxiciteit voor taken zoals samenvatting, tekstclassificatie, vraag en antwoord en het genereren van tekst. Bedrock bevat populaire AI-modellen van derden, zoals Meta’s Llama 2, Anthropic’s Claude 2 en Stable Diffusion’s Stable Diffusion.

Hoewel AWS testdatasets levert, kunnen klanten hun eigen gegevens naar het platform brengen om te benchmarken, zodat ze beter kunnen begrijpen hoe de modellen zich gedragen. Vervolgens genereert het systeem een ​​rapport.

Als er mensen bij betrokken zijn, kunnen gebruikers ervoor kiezen om samen te werken met een menselijk evaluatieteam van AWS of hun eigen team. Klanten moeten het type taak selecteren (bijvoorbeeld samenvattingen of tekst genereren), de evaluatiestatistieken en de dataset die ze willen gebruiken. AWS zal aangepaste prijzen en schema’s bieden voor degenen die met het evaluatieteam werken.

zei Vassie Filomin, vice-president van Generatieve AI van AWS de rand In een interview leidt een beter begrip van hoe modellen presteren tot een betere ontwikkeling. Het stelt bedrijven ook in staat om te zien of modellen niet voldoen aan bepaalde verantwoorde AI-normen – zoals lage of zeer hoge toxiciteitsgevoeligheden – voordat ze met het model gaan bouwen.

“Het is belangrijk dat de modellen voor onze klanten werken, om te weten welk model het beste voor hen werkt, en we geven ze een manier om dat beter te evalueren”, aldus Philomene.

Sivasubramanian zei ook dat wanneer mensen AI-modellen evalueren, ze andere maatstaven kunnen ontdekken die een geautomatiseerd systeem niet kan ontdekken: zaken als empathie of vriendelijkheid.

AWS zal niet van alle klanten eisen dat ze modellen benchmarken, omdat sommige ontwikkelaars misschien al eerder met enkele basismodellen op Bedrock hebben gewerkt of een idee hebben van wat de modellen voor hen kunnen doen, zei Philomen. Bedrijven die nog uitzoeken welke modellen ze moeten gebruiken, kunnen profiteren van het doorlopen van het benchmarkingproces.

AWS zei dat hoewel de benchmarkingservice in preview is, deze alleen kosten in rekening brengt voor de modelinferentie die tijdens de evaluatie wordt gebruikt.

Hoewel er geen specifieke standaard bestaat voor het meten van AI-modellen, zijn er wel specifieke maatstaven die sommige sectoren over het algemeen accepteren. Het doel van benchmarking op Bedrock is niet om modellen op schaal te evalueren, maar eerder om bedrijven een manier te bieden om de impact van het model op hun projecten te meten, aldus Philomin.