Seit ChatGPT Ende 2022 öffentlich verfügbar wurde, wird viel darüber diskutiert, wie generative KI die Hochschullehre verändert. Deutlich weniger Aufmerksamkeit bekam zunächst eine andere Frage: Was bedeuten große Sprachmodelle für die Wissenschaft selbst?
Genau dieser Frage sind wir in einer Delphi-Studie mit 72 Expertinnen und Experten aus den Bereichen KI, Digitalisierung, Wissenschaft und Gesellschaft nachgegangen. In zwei Befragungsrunden wollten wir wissen: Wo können Large Language Models, kurz LLMs, wissenschaftliche Arbeit unterstützen? Wo liegen ihre Grenzen? Welche Risiken entstehen für das Wissenschaftssystem? Und welche Kompetenzen brauchen Forschende, um diese Technologien sinnvoll und verantwortungsvoll einzusetzen?
Sprachmodelle als Werkzeuge wissenschaftlicher Arbeit
Die Ergebnisse zeigen zunächst: Forschende sehen in LLMs vor allem Werkzeuge zur Unterstützung, nicht zum Ersatz wissenschaftlicher Arbeit. Besonders relevant erscheinen sie für textnahe Tätigkeiten. Dazu gehören das Überarbeiten und Verbessern von Texten, das Zusammenfassen von Informationen, Übersetzungen, erste Entwürfe, Ideenentwicklung und auch Unterstützung beim Programmieren.
Das ist wenig überraschend, denn Wissenschaft ist in vielen Disziplinen stark textbasiert. Forschungsanträge, Artikel, Gutachten, E-Mails, Lehrmaterialien, Projektberichte und Präsentationen prägen den Alltag. Wenn LLMs hier Routineaufgaben beschleunigen, können sie tatsächlich Zeit freisetzen: für Analyse, Reflexion, Forschungsdesign und kreative wissenschaftliche Arbeit.
Besonders deutlich wurde in unserer Studie, dass viele Expertinnen und Experten LLMs als Entlastung bei administrativen Aufgaben verstehen. Die Technologie erscheint also weniger als autonome „KI-Wissenschaftlerin“, sondern eher als Assistenzsystem für wiederkehrende, zeitintensive Tätigkeiten.
Der größte Nutzen liegt nicht nur im Schreiben
Textverbesserung wurde in der Befragung als besonders wichtige Anwendung bewertet. Aber der potenzielle Nutzen reicht darüber hinaus. LLMs können auch beim Sortieren von Gedanken helfen, beim Einstieg in ein Thema, bei der Strukturierung von Argumenten oder bei der Formulierung von Code.
Gerade für Forschende, die nicht auf Englisch als Erstsprache publizieren, könnten solche Systeme eine gewisse Ausgleichsfunktion haben. Wenn sprachliche Hürden geringer werden, kann das wissenschaftliche Teilhabe erleichtern. Zugleich ist dieser Punkt ambivalent: Wer Zugang zu leistungsfähigen Systemen hat, könnte Vorteile gewinnen; wer keinen Zugang hat, bleibt zurück. LLMs können also Ungleichheiten mindern, aber auch neue schaffen.
Die Grenzen bleiben wissenschaftlich relevant
So groß das Potenzial ist, so klar benannten die Expertinnen und Experten auch die Schwächen. Die wichtigste Grenze ist die Fehleranfälligkeit. LLMs können überzeugend klingende, aber falsche Aussagen produzieren. Besonders problematisch ist das bei Literaturangaben, Faktenbehauptungen und komplexen fachlichen Zusammenhängen.
Hinzu kommt fehlende Transparenz. Oft ist nicht nachvollziehbar, auf welchen Daten eine Antwort beruht, welche Quellen tatsächlich verwendet wurden oder warum ein Modell zu einer bestimmten Formulierung kommt. Für wissenschaftliche Arbeit ist das ein grundlegendes Problem, weil Nachvollziehbarkeit, Überprüfbarkeit und Begründung zentrale Qualitätskriterien sind.
Weitere Grenzen liegen in der möglichen Oberflächlichkeit der Ergebnisse. LLM-Texte können glatt, plausibel und ausgewogen wirken, ohne analytisch tief zu sein. Gerade diese Mischung aus sprachlicher Qualität und inhaltlicher Unsicherheit macht sie für die Wissenschaft riskant.
Drei Risiken für das Wissenschaftssystem
Unsere Studie zeigt drei besonders relevante Risiken.
Erstens können LLMs bestehende Verzerrungen verstärken. Da sie aus vorhandenen Daten lernen, reproduzieren sie tendenziell dominante Perspektiven, etablierte Wissensbestände und Mainstream-Positionen. Marginale, neue oder widersprechende Perspektiven können dadurch weiter an den Rand gedrängt werden.
Zweitens können LLMs Desinformation begünstigen. Wenn sich massenhaft plausible, aber falsche Inhalte erzeugen lassen, steigt die Gefahr, dass wissenschaftlich klingende Aussagen ohne belastbare Grundlage zirkulieren. Das betrifft nicht nur die Wissenschaft selbst, sondern auch ihr Verhältnis zur Öffentlichkeit.
Drittens könnten Qualitätssicherungsmechanismen überlastet werden. Peer Review, redaktionelle Prüfung und wissenschaftliche Selbstkorrektur sind ohnehin bereits unter Druck. Wenn KI-gestützte Texte die Menge wissenschaftlich aussehender Publikationen weiter erhöhen, wird die Unterscheidung zwischen substanzieller Forschung und plausibler Fassade schwieriger.
Forschende werden nicht ersetzt, aber ihre Rolle verändert sich
Die Expertinnen und Experten gingen mehrheitlich nicht davon aus, dass LLMs Forschende ersetzen. Wahrscheinlicher ist eine Verschiebung wissenschaftlicher Arbeit. Weniger Zeit könnte auf erste Formulierungen, sprachliche Glättung oder administrative Routinen entfallen. Mehr Gewicht bekämen Prüfung, Kontextualisierung, Bewertung und Verantwortung.
Das bedeutet: Die entscheidende Kompetenz ist nicht bloß „Prompt Engineering“. Wichtiger ist ein reflektierter Umgang mit KI-generierten Ergebnissen. Forschende müssen einschätzen können, wann ein Ergebnis hilfreich ist, wann es falsch oder unvollständig ist und welche Annahmen darin stecken. Sie brauchen fachliche Expertise, methodische Urteilskraft und ein ethisches Verständnis für den Einsatz solcher Systeme.
Kurz gesagt: Je besser die Werkzeuge werden, desto wichtiger wird wissenschaftliches Urteilsvermögen.
Regulierung und wissenschaftliche Standards sind nötig
Ein zentrales Ergebnis der Studie ist der klare Wunsch nach Orientierung und Regulierung. Dabei geht es nicht nur um rechtliche Fragen wie Urheberrecht, Datenschutz und Haftung. Es geht auch um wissenschaftliche Normen: Wann muss der Einsatz von KI offengelegt werden? Welche Rolle darf ein LLM im Publikationsprozess spielen? Wer trägt Verantwortung für KI-generierte Inhalte? Und wie lässt sich verhindern, dass kommerzielle Anbieter zu stark über wissenschaftliche Infrastrukturen bestimmen?
LLMs können keine Verantwortung übernehmen. Deshalb können sie auch nicht im gleichen Sinne Autorinnen oder Autoren wissenschaftlicher Arbeiten sein. Verantwortung bleibt bei den Menschen, die solche Systeme einsetzen.
Zwei mögliche Zukünfte
Aus den Antworten der Expertinnen und Experten lassen sich zwei Szenarien ableiten.
Im positiven Szenario helfen LLMs, repetitive Aufgaben zu automatisieren, Forschung inklusiver zu machen und interdisziplinäre Zusammenarbeit zu fördern. Wissenschaftlerinnen und Wissenschaftler gewinnen Zeit für kreative, analytische und gesellschaftlich relevante Arbeit.
Im negativen Szenario sinkt die Qualität wissenschaftlicher Kommunikation. Fehlerhafte, generische oder verzerrte Inhalte verbreiten sich schneller. Qualitätssicherung wird überfordert, wissenschaftliche Vielfalt nimmt ab und das Vertrauen in Wissenschaft leidet.
Welche dieser Zukünfte wahrscheinlicher wird, ist keine rein technische Frage. Sie hängt davon ab, welche Standards, Kompetenzen und institutionellen Regeln wir entwickeln.
Fazit: Kein Feind, aber auch kein neutraler Freund
Große Sprachmodelle werden die Wissenschaft nicht automatisch verbessern. Sie sind auch keine bloße Bedrohung. Sie sind Werkzeuge mit erheblichem Veränderungspotenzial.
Ihr Nutzen liegt vor allem dort, wo sie Forschende von Routineaufgaben entlasten, Zugänge erleichtern und wissenschaftliche Kommunikation unterstützen. Ihre Risiken liegen dort, wo Plausibilität mit Wahrheit verwechselt wird, wo Verzerrungen unsichtbar bleiben und wo Qualitätssicherung nicht Schritt halten kann.
Die zentrale Aufgabe besteht deshalb nicht darin, LLMs entweder zu feiern oder zu verbieten. Entscheidend ist, sie wissenschaftlich zu verstehen, kritisch zu nutzen und institutionell so einzubetten, dass sie Forschung stärken, ohne wissenschaftliche Standards zu unterlaufen.
Dieser Blogbeitrag basiert auf dem wissenschaftlichen Artikel „Friend or foe? Exploring the implications of large language models on the science system“, den ich gemeinsam mit Benedikt Fecher, Melissa Laufer, Jörg Pohle und Fabian Sofsky verfasst habe. Der Artikel ist als Open-Access-Beitrag in AI & Society erschienen und untersucht auf Grundlage einer Delphi-Studie mit 72 Expertinnen und Experten, welche Chancen, Risiken und Kompetenzanforderungen große Sprachmodelle für Wissenschaft und wissenschaftliche Praxis mit sich bringen. Die vollständige wissenschaftliche Zitation lautet: Fecher, B., Hebing, M., Laufer, M., Pohle, J., & Sofsky, F. (2025). Friend or foe? Exploring the implications of large language models on the science system. AI & Society, 40, 447–459. https://doi.org/10.1007/s00146-023-01791-1