Peer Review durch eine KI? – Hinweise auf verbreiteten Einsatz von ChatGPT & Co.

Das Peer-Review-System steckt seit Jahren in der Krise. Nun gibt es Hinweise, dass unter Zeitdruck auf die Hilfe von KI-Textgeneratoren zurückgegriffen wird.

In Pocket speichern vorlesen Druckansicht 13 Kommentare lesen
Mediziner an Laptop, überall Forschungssymbole

(Bild: metamorworks/Shutterstock.com)

Lesezeit: 3 Min.

Im wichtigen Prozess der Vorabbegutachtung wissenschaftlicher Arbeiten kommen womöglich immer öfter KI-Techniken wie ChatGPT & Co. zum Einsatz. Darauf deutet eine vorab einsehbare Studie hin, bei der unter anderem jene Häufigkeit ermittelt wurde, mit der in englischen "Peer Reviews" Vokabeln vorkommen, die KI-Systeme gerne benutzen. Demnach schreiben unabhängige Gutachter und Gutachterinnen von Arbeiten, die zu mehreren KI-Konferenzen eingereicht wurden, seit der Verfügbarkeit von ChatGPT viel häufiger "commendable", "innovative" "meticoulous", "intricate", "notable" und "versatile". In Peer Reviews für Titel des Forschungsmagazins Nature wurde keine solche Zunahme ermittelt. Parallel dazu hat das US-Magazin 404 einen Fall eines Forschers ermittelt, der überzeugt ist, dass seine Begutachtung aus einer KI stammt. Beweisen kann er das nicht.

Bei der sogenannten Peer Review prüfen ehrenamtliche Gutachter oder Gutachterinnen eingereichte Forschungsarbeiten aus ihrem Fachgebiet, bevor sie in Wissenschaftsmagazinen veröffentlicht werden. Das System ist seit vielen Jahren komplett überlastet und steckt in einer tiefen Krise. Gleichzeitig ist es für den Einsatz der KI-Sprachmodelle geradezu prädestiniert. So verspricht die Technologie, nicht nur Zusammenfassungen von vorgelegten Texten, sondern kann auch gezielt bestimmte Verbesserungsvorschläge zu generieren. Gleichzeitig ist ein so entstandener Text nicht unbedingt als solcher zu entdecken oder Texte werden von speziellen Detektoren fälschlicherweise als KI-Produkt klassifiziert.

404 Media zitiert nun den italienischen Linguisten Nicholas LoVecchio, der überzeugt ist, dass zwei anonyme erstellte Peer Reviews zu einer Forschungsarbeit von ihm in wesentlichen Teilen aus einer KI stammt. Das macht er unter anderem daran fest, dass die Gutachten äußerst oberflächlich waren und sich nicht wirklich mit seiner Arbeit auseinandergesetzt hätten. Das fragliche Magazin dementiert die Vorwürfe und auch die Gutachter haben dem widersprochen. LoVecchio wiederum beruft sich nicht nur auf sein Gefühl, sondern auch auf das Ergebnis mehrere KI-Detektoren, die allesamt angegeben hätten, dass die Gutachten mit hoher Wahrscheinlichkeit generiert wurden. Dass die aber eine immer wieder falschliegen, ist lange bekannt.

Deutlich substanzieller ist derweil die Analyse eines Forschungsteams um Weixin Liang von der Universität Stanford. Die hat eine große Menge an Gutachten auf bestimmte Begriffe hin durchsucht, die bei Textgeneratoren deutlich beliebter sind, als bei Menschen. Sie wurden demnach zuletzt deutlich häufiger gefunden, die Gruppe schätzt, dass zwischen 6,5 und 16,9 Prozent aller Peer Reviews "substanzielle durch Sprachmodelle" verändert wurden. Auffallend war demnach auch, dass mutmaßlich KI-generierte Peer Reviews vor allem kurz vor dem Fristende deutlich häufiger wurden. Das deutet darauf hin, dass Gutachter und Gutachterinnen vor allem unter Zeitdruck auf die neue Technologie zurückgreifen. Noch ist die auf Arxiv.org einsehbare Arbeit aber selbst nicht begutachtet.

(mho)