
Es ist längst kein Geheimnis, dass praktisch sämtliche KI-Produkte unerlaubt mit urheberrechtlich geschütztem Material trainiert wurden. Insbesondere Blogs- und News-Beiträge, Forum-Einträge und andere „kostenfrei“ im Netz verfügbare Informationen wurden meist ohne Zustimmung der Rechteinhaber von ChatGPT, Copilot und Co. aufgesogen. Immerhin nahmen die Konzerne hinter der KI etwas Rücksicht auf bekannte Rechteinhaber und mussten widerwillig Deals mit großen Verlagshäusern und Filmstudios unterschreiben.
Dass die Branche allerdings den Wert jenes Materials nicht zu schätzen weiß, zeigt der Fall eines alten, nun von Microsoft gelöschten Blogposts über KI-Training. In dem Beitrag vom November 2024 zeigte das Unternehmen Entwicklern, wie man KI‑Modelle mit Textdateien trainiert. Das genutzte „Textbeispiel“ waren allerdings J.K. Rowlings Harry Potter-Bücher. Den Kaggle-Datensatz, welchen der Konzern als „Public Domain“-Quelle angab, enthielt nämlich alle sieben Harry Potter-Bücher zur Gänze.
Der Blogpost sollte eigentlich nur demonstrieren, wie man Azure‑Funktionen nutzt, um KI‑Features in Apps einzubauen. Microsoft animierte allerdings direkt dazu, urheberrechtlich geschützte Werke für KI-Training zu verwenden. Dazu brach erst kürzlich eine Diskussion auf Hacker News aus, die Microsoft nicht ignorieren konnte. Der Blogpost wurde daraufhin stillschweigend vom Konzern gelöscht. In der Zwischenzeit wurde allerdings der Datensatz über 10.000 Mal heruntergeladen.
Der Fall zeigt allerdings ein viel tieferes Problem der Branche auf: Hochwertige Trainingsdaten sind schwer zu bekommen und die KI-Konzerne sehen sämtliche Werke offenbar als frei zugänglich und für sie kostenlos an, sobald sie im Internet verfügbar sind. Sie argumentieren damit, dass KI‑Training unter „Fair Use“ falle und OpenAI-Chef Sam Altman erklärte, dass KI ohne geschützte Inhalte praktisch unmöglich sei. Dies ist allerdings offenbar nicht das Problem der KI-Konzerne, sondern der Rechteinhaber, denn keiner der KI-Hersteller gibt an, mit welchen Daten konkret trainiert wurde und somit können auch Betroffene nicht wissen, ob ihre Inhalte dafür verwendet wurden. Während sich Microsoft versucht, als verantwortungsbewusster KI-Akteur zu positionieren, wirft ein solcher Blogpost und das eklatante Legitimieren von Piraterie ein sehr negatives Licht auf den Konzern.
via hackernews

