Apple, Nvidia beschuldigd van het gebruik van duizenden gestolen YouTube-video's om AI te trainen

Ontdek de controverse rond techgiganten zoals Apple, Nvidia en Anthropic die duizenden gestolen YouTube-video's gebruiken om hun AI-modellen te trainen zonder toestemming van de makers. Onthul de implicaties voor de industrie en de lopende juridische strijd over fair use en datarechten.

21 februari 2025

party-gif

Ontdek hoe grote techbedrijven zoals Apple, Nvidia en Anthropic content van populaire YouTubers zoals Mr. Beast, MKBHD en PewDiePie hebben gebruikt om hun AI-modellen te trainen zonder toestemming. Deze blogpost onderzoekt de juridische en ethische implicaties van deze praktijk en biedt inzicht in de voortdurende strijd over gegevenseigendom en fair use in de AI-industrie.

De opkomst van AI-dataschrapen: hoe big tech YouTubers' content uitbuit

Het artikel onthult een zorgwekkende trend waarbij grote techbedrijven, waaronder Apple, Nvidia en Anthropic, duizenden YouTube-video's hebben gebruikt om hun AI-modellen te trainen zonder toestemming van de contentmakers. Deze praktijk heeft woede opgewekt bij populaire YouTubers zoals Mr. Beast, MKBHD, PewDiePie en anderen.

Het onderzoek van Proof News heeft ontdekt dat een dataset genaamd "the Pile", die veel wordt gebruikt door AI-bedrijven, ondertitels bevat van meer dan 173.000 YouTube-video's verspreid over meer dan 48.000 kanalen. Dit omvat educatieve kanalen zoals Khan Academy, MIT en Harvard, evenals populaire entertainmentkanalen zoals The Late Show with Stephen Colbert, Last Week with John Oliver en Jimmy Kimmel Live.

MKBHD, een prominente tech-YouTuber, heeft zich uitgesproken over het probleem en stelt dat hoewel Apple mogelijk niet rechtstreeks verantwoordelijk is voor de dataverzameling, dit een zich ontwikkelend probleem is dat een blijvende uitdaging zal zijn. Hij wijst er ook op dat hij een dienst betaalt om nauwkeurigere transcripties van zijn video's te leveren, die vervolgens worden gestolen.

Het artikel bespreekt ook de juridische implicaties van deze praktijk, waarbij parallellen worden getrokken met de lopende rechtszaak tussen The New York Times en OpenAI, waarbij de krant de AI-onderneming ervan beschuldigde grote delen van haar artikelen te kopiëren. Daarnaast wordt vermeld dat andere AI-bedrijven, zoals Midjourney, ervan worden beschuldigd auteursrechtelijk beschermd materiaal te gebruiken om hun modellen te trainen.

Het artikel gaat in op het argument van fair use, waarbij AI-bedrijven beweren dat hun acties vergelijkbaar zijn met een mens die publiek beschikbare content leest en daarvan leert. Het artikel erkent echter de zorgen van contentmakers, die het gevoel hebben dat hun harde werk wordt geëxploiteerd zonder hun toestemming.

Het artikel kaart ook het probleem aan van verwijderde YouTube-video's, die nog steeds worden opgenomen in AI-modellen, zelfs als de makers niet langer willen dat hun werk toegankelijk is. Dit benadrukt de complexe juridische en ethische uitdagingen rond het gebruik van door gebruikers gegenereerde content in AI-training.

Overall biedt het artikel een uitgebreid overzicht van de groeiende kwestie van AI-dataverzameling en de spanningen die dit heeft gecreëerd tussen techgiganten en contentmakers.

FAQ