December 26, 2024

OpenAI heeft meer dan een miljoen uur aan YouTube-video's getranscribeerd om GPT-4 te trainen

OpenAI heeft meer dan een miljoen uur aan YouTube-video's getranscribeerd om GPT-4 te trainen

Eerder deze week, Wall Street tijdschrift genoemd AI-bedrijven lopen tegen een muur aan als het gaat om het verzamelen van hoogwaardige trainingsgegevens. Vandaag, New Yorkse tijden Scharnier Enkele manieren waarop bedrijven hiermee zijn omgegaan. Het is niet verwonderlijk dat dit ook het doen van dingen omvat die binnen het duistere grijze gebied van de AI-auteursrechtwetgeving vallen.

Het verhaal begint op OpenAI, dat, wanhopig op zoek naar trainingsgegevens, zijn Whisper-audiotranscriptiemodel ontwikkelde om over de drempel heen te komen, waarbij meer dan een miljoen uur aan YouTube-video's werd getranscribeerd om GPT-4, het meest geavanceerde grootschalige taalmodel, te trainen. dit volgens New Yorkse tijden, wat suggereert dat het bedrijf wist dat dit juridisch twijfelachtig was, maar dacht dat het redelijk gebruik was. OpenAI-president Greg Brockman was persoonlijk betrokken bij het verzamelen van de gebruikte video's keer Hij schrijft.

Dat zei OpenAI-woordvoerder Lindsey Heald de rand in een e-mail waarin het bedrijf “unieke” datasets beheert voor elk van zijn modellen om “hen te helpen de wereld te begrijpen” en zijn mondiale onderzoeksconcurrentievermogen te behouden. Heald voegde eraan toe dat het bedrijf “veel bronnen gebruikt, waaronder openbaar beschikbare gegevens en partnerschappen voor niet-openbare gegevens”, en dat het zijn eigen synthetische gegevens wil creëren.

de keer Het artikel zegt dat het bedrijf zijn aanbod aan bruikbare gegevens in 2021 had uitgeput en besprak het transcriberen van YouTube-video's, podcasts en audioboeken na het ontginnen van andere bronnen. Tegen die tijd had ze haar modellen getraind op basis van gegevens zoals computercode van Github, databases met schaakzetten en inhoud van schoolopdrachten van Quizlet.

Dat zei Google-woordvoerder Matt Bryant de rand In een e-mail heeft het bedrijf “onbevestigde rapporten gezien” van OpenAI-activiteit, eraan toevoegend dat “zowel robots.txt-bestanden als onze Servicevoorwaarden het ongeoorloofd kopiëren of downloaden van YouTube-inhoud verbieden”, in navolging van Gebruiksvoorwaarden van het bedrijf. YouTube-CEO Neil Mohan zei deze week soortgelijke dingen over het mogelijk gebruik van YouTube's OpenAI om zijn Sora-videogeneratiemodel te trainen. Bryant zei dat Google ‘technische en juridische maatregelen’ neemt om dergelijk ongeoorloofd gebruik te voorkomen ‘wanneer we daarvoor een duidelijke juridische of technische basis hebben’.

Google verzamelde volgens Google ook transcripties van YouTube keer bronnen. Bryant zei dat het bedrijf zijn modellen heeft getraind “op bepaalde YouTube-inhoud, in overeenstemming met onze overeenkomsten met makers van YouTube-inhoud.”

de keer Hij schrijft dat de juridische afdeling van Google het privacyteam van het bedrijf heeft gevraagd zijn beleidstaal aan te passen om uit te breiden wat het kan doen met consumentengegevens, zoals kantoortools zoals Google Docs. Het nieuwe beleid werd naar verluidt met opzet op 1 juli uitgevaardigd om te profiteren van de afleiding van het weekend van Onafhankelijkheidsdag.

Op dezelfde manier is Meta tegen de grenzen van de beschikbaarheid van goede trainingsgegevens en opnames aangelopen keer Ik hoorde dat het AI-team ongeoorloofd gebruik van auteursrechtelijk beschermde werken besprak terwijl ze bezig waren OpenAI in te halen. Nadat het bedrijf “vrijwel beschikbare boeken, artikelen, gedichten en nieuwsartikelen in het Engels op internet had gezien”, overwoog het blijkbaar stappen te ondernemen zoals het betalen voor boeklicenties of zelfs het rechtstreeks kopen van een grote uitgever. Het lijkt ook beperkt te zijn in de manieren waarop het consumentengegevens kan gebruiken door de op privacy gerichte veranderingen die het heeft doorgevoerd in de nasleep van het Cambridge Analytica-schandaal.

Google, OpenAI en de bredere AI-trainingswereld worstelen met snel verdampende trainingsgegevens voor hun modellen, die verbeteren naarmate ze meer gegevens absorberen. de tijdschrift Hij schreef deze week dat bedrijven in 2028 de nieuwe content wellicht ontgroeid zijn.

Mogelijke oplossingen voor het door hem genoemde probleem tijdschrift Maandag gaat het om het trainen van modellen op ‘synthetische’ gegevens gegenereerd door hun eigen modellen of het zogenaamde ‘curriculum leren’, waarbij modellen op een gestructureerde manier gegevens van hoge kwaliteit worden ingevoerd in de hoop dat ze deze kunnen gebruiken om ‘slimmere verbindingen tussen concepten te maken’. ” Informatie gebruiken Veel minder, maar geen van beide benaderingen is tot nu toe bewezen. Maar de andere optie voor bedrijven is om te gebruiken wat ze maar kunnen vinden, of ze nu toestemming hebben of niet, en op basis van meerdere rechtszaken die het afgelopen jaar zijn aangespannen, is die aanpak, laten we zeggen, meer dan een beetje riskant.

Eerder deze week, Wall Street tijdschrift genoemd AI-bedrijven lopen tegen een muur aan als het gaat om het verzamelen van hoogwaardige trainingsgegevens. Vandaag, New Yorkse tijden Scharnier Enkele manieren waarop bedrijven hiermee zijn omgegaan. Het is niet verwonderlijk dat dit ook het doen van dingen omvat die binnen het duistere grijze gebied van de AI-auteursrechtwetgeving vallen.

Het verhaal begint op OpenAI, dat, wanhopig op zoek naar trainingsgegevens, zijn Whisper-audiotranscriptiemodel ontwikkelde om over de bult heen te komen en meer dan een miljoen uur aan YouTube-video's transcribeerde om GPT-4, het meest geavanceerde grote taalmodel, te trainen. dit volgens New Yorkse tijden, wat suggereert dat het bedrijf wist dat dit juridisch twijfelachtig was, maar dacht dat het om redelijk gebruik ging. OpenAI-president Greg Brockman was persoonlijk betrokken bij het verzamelen van de gebruikte video's keer Hij schrijft.

Dat zei OpenAI-woordvoerder Lindsey Heald de rand in een e-mail waarin het bedrijf “unieke” datasets beheert voor elk van zijn modellen om “hen te helpen de wereld te begrijpen” en zijn mondiale onderzoeksconcurrentievermogen te behouden. Heald voegde eraan toe dat het bedrijf “veel bronnen gebruikt, waaronder openbaar beschikbare gegevens en partnerschappen voor niet-openbare gegevens”, en dat het zijn eigen synthetische gegevens wil creëren.

de keer Het artikel zegt dat het bedrijf zijn aanbod aan bruikbare gegevens in 2021 had uitgeput en besprak het transcriberen van YouTube-video's, podcasts en audioboeken na het ontginnen van andere bronnen. Tegen die tijd had ze haar modellen getraind op basis van gegevens zoals computercode van Github, databases met schaakzetten en inhoud van schoolopdrachten van Quizlet.

Dat zei Google-woordvoerder Matt Bryant de rand In een e-mail heeft het bedrijf “onbevestigde rapporten gezien” van OpenAI-activiteit, eraan toevoegend dat “zowel robots.txt-bestanden als onze Servicevoorwaarden het ongeoorloofd kopiëren of downloaden van YouTube-inhoud verbieden”, in navolging van Gebruiksvoorwaarden van het bedrijf. YouTube-CEO Neil Mohan zei deze week soortgelijke dingen over het mogelijk gebruik van YouTube's OpenAI om zijn Sora-videogeneratiemodel te trainen. Bryant zei dat Google ‘technische en juridische maatregelen’ neemt om dergelijk ongeoorloofd gebruik te voorkomen ‘wanneer we daarvoor een duidelijke juridische of technische basis hebben’.

Google verzamelde volgens Google ook transcripties van YouTube keer bronnen. Bryant zei dat het bedrijf zijn modellen heeft getraind “op bepaalde YouTube-inhoud, in overeenstemming met onze overeenkomsten met makers van YouTube-inhoud.”

de keer Hij schrijft dat de juridische afdeling van Google het privacyteam van het bedrijf heeft gevraagd zijn beleidstaal aan te passen om uit te breiden wat het kan doen met consumentengegevens, zoals kantoortools zoals Google Docs. Het nieuwe beleid werd naar verluidt met opzet op 1 juli uitgevaardigd om te profiteren van de afleiding van het weekend van Onafhankelijkheidsdag.

Op dezelfde manier is Meta tegen de grenzen van de beschikbaarheid van goede trainingsgegevens en opnames aangelopen keer Ik hoorde dat het AI-team ongeoorloofd gebruik van auteursrechtelijk beschermde werken besprak terwijl ze bezig waren OpenAI in te halen. Nadat het bedrijf “vrijwel beschikbare boeken, artikelen, gedichten en nieuwsartikelen in het Engels op internet had gezien”, overwoog het blijkbaar stappen te ondernemen zoals het betalen voor boeklicenties of zelfs het rechtstreeks kopen van een grote uitgever. Het lijkt ook beperkt te zijn in de manieren waarop het consumentengegevens kan gebruiken door de op privacy gerichte veranderingen die het heeft doorgevoerd in de nasleep van het Cambridge Analytica-schandaal.

Google, OpenAI en de bredere AI-trainingswereld worstelen met snel verdampende trainingsgegevens voor hun modellen, die verbeteren naarmate ze meer gegevens absorberen. de tijdschrift Hij schreef deze week dat bedrijven in 2028 de nieuwe content wellicht ontgroeid zijn.

Mogelijke oplossingen voor het door hem genoemde probleem tijdschrift Maandag gaat het om het trainen van modellen op ‘synthetische’ gegevens gegenereerd door hun eigen modellen of het zogenaamde ‘curriculum leren’, waarbij modellen op een gestructureerde manier gegevens van hoge kwaliteit worden ingevoerd in de hoop dat ze deze kunnen gebruiken om ‘slimmere verbindingen tussen concepten te maken’. ” Informatie gebruiken Veel minder, maar geen van beide benaderingen is tot nu toe bewezen. Maar de andere optie voor bedrijven is om te gebruiken wat ze maar kunnen vinden, of ze nu toestemming hebben of niet, en op basis van meerdere rechtszaken die het afgelopen jaar zijn aangespannen, is die aanpak, laten we zeggen, meer dan een beetje riskant.