Mehrere Unternehmen für künstliche Intelligenz umgehen einen gemeinsamen Webstandard, der von Verlagen verwendet wird, um das Scraping ihrer Inhalte für die Verwendung in generativen KI-Systemen zu verhindern. Das Startup TollBit, das Inhalte lizenziert, hat dies den Verlagen mitgeteilt.

Das Schreiben an die Verlage, das Reuters am Freitag vorlag und in dem weder die KI-Unternehmen noch die betroffenen Verlage namentlich genannt werden, kommt inmitten eines öffentlichen Streits zwischen dem KI-Such-Startup Perplexity und dem Medienunternehmen Forbes, bei dem es um denselben Webstandard geht, und einer breiteren Debatte zwischen Technologie- und Medienunternehmen über den Wert von Inhalten im Zeitalter der generativen KI. Der Wirtschaftsmedienverlag beschuldigte Perplexity öffentlich, seine investigativen Geschichten in KI-generierten Zusammenfassungen zu plagiieren, ohne Forbes zu zitieren oder um Erlaubnis zu fragen.

Eine in dieser Woche veröffentlichte Untersuchung von Wired ergab, dass Perplexity wahrscheinlich die Bemühungen umgeht, seinen Web-Crawler über das Robots Exclusion Protocol oder "robots.txt" zu blockieren, einen weithin akzeptierten Standard, der festlegen soll, welche Teile einer Website gecrawlt werden dürfen.

Perplexity lehnte eine Anfrage von Reuters nach einem Kommentar zu diesem Streit ab.

TollBit, ein Startup in der Frühphase, positioniert sich als Vermittler zwischen inhaltshungrigen KI-Unternehmen und Verlagen, die bereit sind, Lizenzverträge mit ihnen abzuschließen.

Das Unternehmen verfolgt den KI-Verkehr auf den Websites der Verlage und nutzt Analysen, um beiden Seiten dabei zu helfen, sich auf die Gebühren zu einigen, die für die Nutzung verschiedener Arten von Inhalten zu zahlen sind.

So können Verlage beispielsweise höhere Gebühren für "Premium-Inhalte wie die neuesten Nachrichten oder exklusive Einblicke" festlegen, so das Unternehmen auf seiner Website.

Nach eigenen Angaben waren im Mai bereits 50 Websites in Betrieb, die jedoch nicht namentlich genannt wurden.

Laut dem Schreiben von TollBit ist Perplexity nicht der einzige Übeltäter, der die robots.txt zu ignorieren scheint.

TollBit sagte, dass seine Analysen darauf hindeuten, dass "zahlreiche" KI-Agenten das Protokoll umgehen, ein Standardwerkzeug, das von Verlagen verwendet wird, um anzugeben, welche Teile ihrer Website gecrawlt werden können.

"In der Praxis bedeutet dies, dass KI-Agenten aus verschiedenen Quellen (nicht nur von einem Unternehmen) das robots.txt-Protokoll umgehen, um Inhalte von Websites abzurufen", schreibt TollBit. "Je mehr Publisher-Protokolle wir einlesen, desto deutlicher wird dieses Muster.

Das robots.txt-Protokoll wurde Mitte der 1990er Jahre entwickelt, um die Überlastung von Websites durch Webcrawler zu vermeiden. Obwohl es keinen gesetzlichen Durchsetzungsmechanismus gibt, wurde es in der Vergangenheit im Internet weitgehend eingehalten.

In jüngster Zeit hat sich robots.txt zu einem wichtigen Instrument entwickelt, mit dem Verlage verhindern, dass Technologieunternehmen ihre Inhalte kostenlos für die Verwendung in generativen KI-Systemen übernehmen, die die menschliche Kreativität nachahmen und Artikel sofort zusammenfassen können.

Die KI-Unternehmen verwenden die Inhalte sowohl zum Trainieren ihrer Algorithmen als auch zur Erstellung von Zusammenfassungen von Echtzeitinformationen.

Einige Verlage, darunter die New York Times, haben KI-Firmen wegen dieser Nutzung wegen Urheberrechtsverletzung verklagt. Andere schließen Lizenzvereinbarungen mit den KI-Unternehmen ab, die bereit sind, für die Inhalte zu zahlen, auch wenn sich die Parteien oft nicht über den Wert des Materials einig sind. Viele KI-Entwickler argumentieren, dass sie mit dem kostenlosen Zugang zu den Inhalten keine Gesetze gebrochen haben.

Thomson Reuters, der Eigentümer von Reuters News, gehört zu denen, die Vereinbarungen zur Lizenzierung von Nachrichteninhalten für die Nutzung durch KI-Modelle getroffen haben.

Seit Google im vergangenen Jahr ein Produkt auf den Markt gebracht hat, das mithilfe von KI Zusammenfassungen für bestimmte Suchanfragen erstellt, schlagen die Verleger vor allem bei Nachrichtenzusammenfassungen Alarm.

Wenn die Verleger verhindern wollen, dass ihre Inhalte von Googles KI zur Erstellung dieser Zusammenfassungen verwendet werden, müssen sie dasselbe Tool verwenden, das auch verhindern würde, dass sie in den Google-Suchergebnissen erscheinen, wodurch sie im Web praktisch unsichtbar würden. (Berichte von Katie Paul in New York; Bearbeitung durch Kenneth Li und Jamie Freed)