cURL-Maintainer: KI liefert "Scheiß-Berichte" als Bug-Reports

Mit sehr deutlichen Worten hat sich cURL-Maintainer Daniel Stenberg zu KI geäußert: Sie werde bei der Bug-Bounty missbraucht und liefere falsche Ergebnisse.

In Pocket speichern vorlesen Druckansicht 48 Kommentare lesen

(Bild: Peshkova/ Shutterstock.com)

Lesezeit: 5 Min.
Von

Daniel Stenberg, Maintainer der cURL-Bibliothek, hat sich äußerst kritisch zum Einsatz von Künstlicher Intelligenz geäußert. Er erläutert, wie KI-generierte Fehlerberichte so gut aussähen, dass sie echte Arbeit bereiten, obwohl sie inhaltlich falsch seien.

Stenberg erläutert, dass das cURL-Projekt bereits seit Jahren ein Bug-Bounty-Programm betreibt. Wer Sicherheitslücken in der Software findet, kann sie etwa auf der Hackerone-Bug-Bounty-Plattform melden und je nach Schweregrad und Qualität des Berichts eine Prämie einstreichen. Bislang seien 415 Fehlerberichte eingegangen. Davon hätten sich 64 als echte Sicherheitsprobleme entpuppt, weitere 77 waren informativer Natur, also nicht sicherheitsrelevante Fehler. 66 Prozent der Reports seien weder ein Sicherheitsproblem noch ein normaler Fehler gewesen.

Die Möglichkeit, Geld zu verdienen, rufe Glücksritter auf den Plan. Diese suchten lediglich nach typischen Mustern im Quellcode oder ließen bestenfalls einige einfache Sicherheits-Scanner drüberlaufen. Die Befunde kippen sie ohne weitere Analyse in der Hoffnung ein, dass sie "ein paar Kröten als Belohnung" herausschlagen könnten, führt Stenberg in seinem Blog-Beitrag aus.

Bislang stellte die Menge solcher "Müll-Berichte" kein größeres Problem dar. Sie ließen sich in der Regel auch leicht erkennen und aussortieren und sollen selten echte Probleme verursacht oder Zeit gefressen haben. "Ein wenig wie die beklopptesten Spam-Mails", schreibt Stenberg.

Mit Künstlicher Intelligenz ändere sich das nun. Die Glücksritter nutzten sie, um ihre Berichte auszuformulieren und besser aussehen zu lassen, sodass sie erscheinen, als würden sie einen wunden Punkt treffen. Das führt dazu, dass es längere Zeit für die Untersuchung braucht, um den Bericht am Ende zu verwerfen. Jede Sicherheitsmeldung muss von einem Menschen analysiert werden, was Zeit bedarf, um sie anzuschauen und zu erfassen, was sie bedeute. "Je besser der Mist, desto mehr Zeit und Energie müssen wir darauf verwenden, um den Bericht zu schließen", flucht Stenberg, "ein Scheiß-Bericht hilft dem Projekt überhaupt nicht".

Da Sicherheitsarbeit als einer der wichtigsten Bereiche betrachtet werde, binden Sicherheitsmeldungen die Arbeitskraft, die sonst etwa in das Beheben ärgerlicher Fehler gehen könnte. Stenberg schreibt weiter: "Stellt sich ein Bericht als Scheiß heraus, haben wir die Sicherheit nicht verbessert und wir haben Zeit verpasst, um Fehler zu beheben oder neue Funktionen zu programmieren. Um nicht zu erwähnen, wie es Energie raubt, mit dem Müll umzugehen".

KI könne auch nützliche Dinge tun, erklärt Stenberg. Berichterstatter sprächen oftmals nicht fließend Englisch, und hätten Probleme, ihre Intention verständlich zu machen. Sprachliche und kulturelle Barrieren seien real, hier sei KI eine Hilfe, die unterstützen könne, zu kommunizieren. Allerdings scheinen Nutzer scharf darauf zu sein, die aktuellen Large Language Models (LLMs) mit cURL-Code zu bewerfen und deren Output als Meldung einer Sicherheitslücke durchzureichen. Das erschwere das Erkennen von KI-Berichten: Ein paar typische Anzeichen, dass ein Text von einer KI generiert wurde, seien keine unmittelbaren "Red Flags". Er könne noch immer Wahres enthalten und ein echtes Problem beschreiben.

Als konkretes Beispiel führt Stenberg einen Bericht zu einer angeblichen Sicherheitslücke vom Ende des vergangenen Jahres an. Angeblich gebe es einen Pufferüberlauf im Umgang mit WebSockets. Der Bug-Report wurde laut Stenberg von einem Nutzer eingereicht, den er nie zuvor gesehen habe, der aber eine ordentliche Reputation auf Hackerone genießt. Der Bericht selbst sei sehr hübsch gewesen: Er habe Details enthalten und sei in ordentlichem Englisch verfasst gewesen, sogar einen Lösungsvorschlag habe er enthalten. Stenberg hielt den Bericht für seriös.

Bei der Analyse des Codes fand er jedoch kein Problem. Auf die Rückfrage, wo dort genau ein Pufferüberlauf auftreten würde, seien wirre Antworten zurückgekommen, die Stenberg als KI-Halluzinationen einstuft, und am Ende des Tages schloss er den Bug-Report als irrelevant. Es gab keinen Pufferüberlauf, was auch in dem Fallverlauf nachvollziehbar ist: Die aufgerufene Funktion macht keine Längenprüfung, was der cURL-Code berücksichtigt und diese Prüfung vor dem Aufruf schlicht selbst vornimmt. Die KI versteht den Code jedoch nicht wirklich. Stenberg ist sich nicht sicher, ob die Antworten des Nutzers von einem LLM erstellt wurden, sie würden jedoch Anzeichen davon aufweisen. Nach einem Hinweis hat Stenberg auf Hackerone die Funktion gefunden, wie solche Nutzer gebannt werden können.

Stenberg meint, die Verlockungen der Abkürzung durch KI würden zunehmen und noch mehr Leute damit versuchen, ohne Sachverstand insbesondere bei Bug-Bounty-Programmen abzusahnen.

In der Software-Entwicklung hält künstliche Intelligenz jedoch immer weiter Einzug. Etwa der Github Copilot Chat für Visual Studio und VS Code ist inzwischen allgemein verfügbar.

(dmk)