Google-Extended schließt Bard und Vertex AI aus

Google-Extended erweitert die robots-txt-Datei. Damit lassen sich Webseiten für Googles KI-Modelle sperren.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen

(Bild: BigTunaOnline/Shutterstock.com)

Update
Lesezeit: 3 Min.

Webseitenbetreiber können künftig Bard und Vertex AI den Zugriff auf ihre Inhalte verbieten. Das geschieht mittels der für Crawler bereits bestehenden robots-txt-Datei. Diese wird um Google-Extended erweitert. Vertex AI ist die Cloudplattform für alle Machine-Learning-Anwendungen Googles; dazu gehört das Training der Modelle. Google ist der Meinung, dass alle Anbieter von KI-Modellen eine solche Möglichkeit verfügbar machen sollten.

Auch die Web-Crawler von OpenAI halten sich an die Informationen in robots.txt. Es müssen lediglich zwei Zeilen eingefügt werden. Es lassen sich zudem einzelne Ordner sperren.

Gerade erst hat OpenAI ChatGPT ins Internet entlassen – und dabei auf die guten Erfahrungen verwiesen, die in den vergangenen Monaten offenbar mit der Umsetzung gemacht wurden. Zuvor konnte der Chatbot nämlich offensichtlich hinter Paywalls schauen, was kein erwünschtes Verhalten war, weshalb eine Erweiterung, die ChatGPT ins Internet brachte, zurückgenommen wurde.

"Da sich die KI-Anwendungen jedoch erweitern, werden die Web-Publisher mit der zunehmenden Komplexität konfrontiert sein, verschiedene Anwendungen in großem Maßstab zu verwalten", heißt es im Blogbeitrag. Des Weiteren: "Deshalb sind wir entschlossen, uns mit den Web- und KI-Communities zu beschäftigen, um zusätzliche maschinenlesbare Ansätze zur Auswahl und Kontrolle für Web-Publisher zu erkunden." Bei Google stehen laut eigener Auskunft immer die eigenen "KI Prinzipien" im Vordergrund, ebenso wie die Privatsphäre der Menschen. Deshalb sei es offensichtlich eigentlich gar nicht nötig, einen Crawler ausschließen zu wollen. Aber: "Wir haben von Web-Publishern gehört, dass sie erweiterte Möglichkeiten haben wollen, um die Kontrolle über ihre Inhalte zu behalten."

Google spricht auch davon, dass mit Google-Extended eine Möglichkeit geschaffen wurde, mit der Webseitenbetreiber entscheiden können, ob ihre Inhalte dabei "helfen, Bard und Vertex AI generative APIs zu verbessern, sowie künftige Modelle, die unsere Produkte unterstützen".

Dass Bard auf Basis aller verfügbaren Inhalte im Internet trainiert wird, hat Google bereits bestätigt. Unlängst wurden die Nutzungsbedingungen dahingehend geändert, dass alle Inhalte für das KI-Training genutzt werden dürfen. Ein bisschen, als gehörte das Internet Google.

[Update]

In der englischsprachigen Dokumentation zu den Google-Crawlern zeigt Google, wie man die eigene KI ausschließt: Die Zeilen

User-agent: Google-Extended
Disallow: /

in robots.txt sperren sämtliche Verzeichnisse des Webservers für Googles KI-Crawler. Einen eigenen User Agent String hat er nicht.

(emw)