Die gesamte Technologiebranche sieht mit dem Aufkommen generativer künstlicher Intelligenz zunehmend den Wert von Nutzerdaten nicht mehr nur als Mittel zum verbesserten Werbetargeting, sondern auch fürs Training der eigenen KI-Systeme. Facebook sowie Adobe haben mit jüngsten Veränderungen ihrer Nutzungsbedingungen zahlreiche Anwender und Kunden verärgert, nachdem sie darin vorsahen, die gespeicherten Kundendaten künftig fürs KI-Training zu verwenden. Sämtliche Daten, zu denen die Konzerne exklusiven Zugriff haben, könnten entscheidend sein für die Verbesserung der Qualität der gebotenen KI gegenüber der Konkurrenz.
„Frei“ verfügbare Daten aus dem Internet, darunter Artikel von Zeitungen, Blogs oder YouTube-Videos, werden von den meisten KI-Konzernen allerdings als „vogelfrei“ angesehen und können dementsprechend mangels praktischer Durchsetzbarkeit von Rechten und fehlender Einsicht ins Training der KI-Modelle von jedem verwendet werden. Apple, Nvidia sowie Anthropic stehen nun jedoch in der Kritik der Öffentlichkeit sowie einiger bekannter Creator auf YouTube.
Laut einem Bericht von ProofNews haben diese Unternehmen ein Datenset fürs KI-Training verwendet, das Untertitel von zahlreichen YouTube-Videos enthielt. Das Problem: Die betreffenden Informationen wurden automatisiert von der Videohosting-Seite entnommen, ohne dabei die betreffenden Creator um Erlaubnis zu fragen oder gar die YouTube-Nutzungsbedingungen zu beachten, welche den Zugriff auf Videos durch „automatisierte Mittel“ verbieten. In dem Dataset von EleutherAI sind Untertitel von 173.536 YouTube-Videos enthalten, welche von über 48.000 Kanälen heruntergeladen wurden. Laut der Publikation handelt es sich dabei um ein 5,7 GB großes (489 Millionen Wörter) Trainingsdatenset, das auch Untertitel von über 12.000 Videos enthält, die von der Plattform gelöscht wurden.
Proof News fand auch Material von YouTube-Prominenz, darunter MrBeast (289 Millionen Abonnenten, zwei Videos), Marques Brownlee (19 Millionen Abonnenten, sieben Videos im Dataset), Jacksepticeye (fast 31 Millionen Abonnenten, 377 Videos im Trainingset) und PewDiePie (111 Millionen Abonnenten, 337 Videos). Einige der Materialien, die zum Trainieren von KI verwendet wurden, förderten auch Verschwörungstheorien wie die These, dass die Erde eine Scheibe sei.
Vertreter von EleutherAI reagierten nicht auf die Anfrage der Journalisten nach einem Kommentar zu den Ergebnissen und Vorwürfen, dass die Videos ohne Erlaubnis von YouTube oder der Ersteller benutzt wurden. Zudem ist unklar, welche Unternehmen genau die Datasets von EleutherAI fürs Training ihrer KI benutzt haben und, ob diese Unternehmen die Inhalte zusätzlich, nachträglich gefiltert haben. Kaum Unternehmen geben die Trainingdaten an, um sich wohl auch vor rechtlichen Schwierigkeiten zu bewahren.
Marques Brownlee, ein bekannter YouTuber aus dem Technik-Bereich, äußerte sich dazu wie folgt:“Also Unternehmen, die Transkripte scrapen, stehlen bezahlte Arbeit in mehr als einer Hinsicht. Nicht gut.“ In seinem konkreten Beispiel hatte er einen Bezahldienst genutzt, um Transkripte für seine Videos zu generieren.
Es wird noch sehr spannend, welche Regulierungen für das KI-Training noch aufkommen können und insbesondere auch, wie eventuell die Gerichte darüber entscheiden werden, wenn sich Inhaltsersteller und insbesondere größere Publikationen dagegen zu wehren beginnen. Als kleine Publikation ergibt es schlichtweg keinen Sinn, daran einen Gedanken zu verlieren.
Quelle: ProofNews