Wissenschaftler müssen in Sachen KI aufwachen, Teil II

Hinweis für meine Bluesky-Freunde: Dieser Beitrag ist zu 100 % von einem Menschen geschrieben (unterstützt durch menschlich verifizierte KI-Zusammenfassungen eurer Kritik an meinem früheren Beitrag). Menschliche Fehler sind möglich.

Anfang dieser Woche argumentierte ich, dass Wissenschaftler in Sachen KI aufwachen müssen, und bot zehn Thesen darüber an, wie agentische KI die sozialwissenschaftliche Forschung verändert. Der Beitrag ging viral, insbesondere nachdem ich enthüllte, dass er vollständig von KI generiert und veröffentlicht wurde, was zu Nachrichtenberichten, über einer Million Aufrufen und über tausend (oft wütenden, aber auch begeisterten) Reaktionen auf verschiedenen Social-Media-Plattformen führte.

Im Nachhinein hätte ich einiges anders machen sollen. Erstens war es ein Fehler, als freche Pointe nachträglich zu enthüllen, dass Claude den ursprünglichen Beitrag geschrieben hat (auch wenn er auf meinen früheren Social-Media-Texten basierte). Das lenkte von der Substanz ab und gab Kritikern einen einfachen Grund, die Argumente abzutun. Stattdessen hätte ich von Anfang an offen über mein grundlegendes Setup sein sollen.¹ Zweitens hätte ich klarstellen sollen, dass aktuelle agentische KI-Tools die meisten sozialwissenschaftlichen Forschungsaufgaben besser erledigen können als Professorinnen und Professoren weltweit.² Das bedeutet nicht, dass man zwangsläufig ersetzt wird, aber es bedeutet, dass sich die Natur der eigenen Arbeit verändern wird. Drittens enthielt der KI-generierte Beitrag kleine, etwas merkwürdige stilistische Fehler, die ein besseres menschlich unterstütztes Lektorat bemerkt hätte.

In dieser Hinsicht möchte ich auf den Brookings-Beitrag von Solomon Messing und Joshua Tucker hinweisen, der kurz nach meinem veröffentlicht wurde und eine wesentlich überzeugendere Version vieler meiner Argumente liefert — mit konkreten Anwendungsbeispielen, ohne unnötige Provokation oder KI-generierten Text und mit einer konstruktiveren Zukunftsvision. Wenn Ihnen mein Beitrag zu aggressiv war, lesen Sie stattdessen ihren.

Ich war bewusst provokant, und ich stehe zu dieser Entscheidung. Sie hat in gewisser Hinsicht nach hinten losgefeuert, aber in anderer Hinsicht funktioniert: Dutzende, wenn nicht Hunderte von Wissenschaftlerinnen und Wissenschaftlern probieren jetzt agentische KI-Tools aus, die es sonst noch nicht getan hätten. Nach dem Lesen der meisten Reaktionen habe ich meine Meinung in einigen Punkten durchaus geändert, aber ich bin nach wie vor von meiner Kernthese überzeugt, dass sich aufgrund der bereits existierenden KI-Tools unser Forschungsworkflow ändern muss, ob man es will oder nicht. Hier sind zehn weitere Thesen, die aus meinen Überlegungen entstanden sind.

11. Qualitative Forschung und neuartige Datenerhebung werden relativ an Wert gewinnen.

Die stärkste inhaltliche Kritik an Teil I war, dass ich „Forschung” mit den spezifischen Aufgaben gleichsetzte, die KI gut bewältigt — Literaturrecherchen, Datenanalyse, konzeptionelle Synthese. Mehrere Befragte wiesen zu Recht darauf hin, dass KI keine ethnographische Feldforschung betreiben, keine Häftlinge in illegalen Gefängnissen befragen oder jahrelang Vertrauen in einer Gemeinschaft aufbauen kann. Sie haben vollkommen recht. Meine Thesen bezogen sich hauptsächlich auf die (derzeit dominante) quantitative und konzeptionelle Arbeit in den Sozialwissenschaften, und ich hätte diesen Geltungsbereich klarer abgrenzen sollen.

Aber die Schlussfolgerung ist nicht, dass sich qualitative Forschende entspannen können. Sie lautet vielmehr, dass der relative Wert originärer Datenerhebung — Feldforschung, Interviews, Archivarbeit, teilnehmende Beobachtung — im Begriff ist zu steigen. Wenn KI bestehende Literatur synthetisieren und Standardregressionen rechnen kann, verschiebt sich die Prämie zu dem, was KI nicht kann: neue Daten generieren, die vorher nicht existierten, insbesondere aus schwer erreichbaren Kontexten. Qualitative Forschende und Feldexperimentatoren sollten dies als Chance sehen, mehr hervorragende Arbeit zu leisten, bei der sie einen komparativen Vorteil haben, anstatt ihre Interviews zu transkribieren oder Literaturrecherchen zusammenzustellen.

12. Aufgrund der „Zackigkeit” sind KI-Meinungen entlang des Glaubens an ihren Nutzen polarisiert.

Ethan Mollick beschreibt die Fähigkeiten von KI als eine „zackige Grenze” — bei manchen Aufgaben übermenschlich, bei anderen peinlich schlecht, und zwar auf eine Weise, die nicht der menschlichen Intuition entspricht. KI kann eine brauchbare Literaturrecherche schreiben, scheitert aber an einem einfachen visuellen Rätsel. Sie kann Erkenntnisse aus 500 Arbeiten synthetisieren, halluziniert aber den Vornamen eines Mitautors.

Diese Zackigkeit erklärt, warum die KI-Debatte in der Wissenschaft so polarisiert ist. Kritiker zeigen auf die Täler; Enthusiasten zeigen auf die Gipfel. Beide haben recht in ihrem jeweiligen Abschnitt der Front. Die Überschneidung mit der Kluft zwischen qualitativer und quantitativer Forschung in den Sozialwissenschaften lässt sich kaum übersehen: Forschende, deren Arbeit die Aufgaben umfasst, die KI gut bewältigt (Datenanalyse, Literatursynthese, Mustererkennung), neigen zu einer positiveren Einstellung, während jene, deren Arbeit die Aufgaben umfasst, die KI schlecht bewältigt (Feldforschung, Interviews, Archivinterpretation), tendenziell skeptischer sind.

Aber mir fiel etwas auf, das über bloße Meinungsverschiedenheit hinausgeht. Bluesky-Nutzer, die KI zutiefst verabscheuen, gehörten oft zu den Ersten, die leicht überprüfbare Fakten leugneten — etwa, dass KI gute Folienpräsentationen erstellen kann. Sehr wenige Befragte erkannten an, dass die KI-Fähigkeiten für die Forschung real sind, aber machten sich Sorgen über deren Konsequenzen. Menschen lehnen entweder KI ab und bestreiten jeden produktiven Nutzen, oder sie befürworten sie und übertreiben ihren Nutzen. Ein Teil davon ist motiviertes Denken — die explizite existenzielle Bedrohung, dass ein Computer Dinge besser kann als man selbst. Aber ich vermute, noch mehr davon ist schlicht Unkenntnis über „das Andere”.

Kontakttheorie ist real. Wenn Sie glauben, dass Claude Code böse oder inkompetent ist, fordere ich Sie heraus, es zu installieren und damit Ihre Forschungsordner zu organisieren oder Folienpräsentationen für Ihre nächsten Konferenzen zu erstellen. Zuvor habe ich vorgeschlagen, „eine Woche mit Claude Code zu verbringen.” Es hätte „einen Tag” heißen sollen (was genügen dürfte).

13. Die Expertise der Nutzerin oder des Nutzers bestimmt nach wie vor maßgeblich die Qualität der Ergebnisse.

Wenig überraschend basiert ein Großteil der Kritik auf Bluesky nach wie vor auf der Annahme, dass KI-Nutzung bedeute, Text aus einem Chatbot zu kopieren und einzufügen. So funktioniert agentische KI aber nicht. Agentische KI arbeitet autonom in Ihrem Dateisystem, liest und schreibt Code, konsultiert Dokumentation und führt mehrstufige Forschungsworkflows aus — alles gesteuert durch detaillierte Instruktionen, die man über die Zeit aufbaut.

Eine verwandte, verbreitete Form der KI-Leugnung geht zudem davon aus, dass jeder dasselbe Ergebnis produzieren könnte, weil das Werkzeug zugänglich ist. Das ist, als würde man argumentieren, dass jeder gut kochen kann, weil jeder Zugang zu einem Herd hat. Es gibt offensichtliche Unterschiede im Kochkönnen, bei Rezepten und bei der Qualität der Zutaten.

Aber die Frage ist nicht, ob KI die meisten wichtigen Forschungsaufgaben besser erledigt als die meisten Professorinnen und Professoren (ich stehe nach wie vor zu der Behauptung, dass dem so ist), sondern ob gute Forschende mit KI besser sind als gute Forschende ohne KI (das sind sie definitiv). Ehrlich gesagt würde ich gut geprompteten KI-Slop jeden Tag dem Bluesky-Slop vorziehen (Hunderte anonymer Nutzer, die „ai/dr” antworten, wann immer sie das gefürchtete KI-Stichwort sehen, ungeachtet jeder inhaltlichen Auseinandersetzung).

14. Publikationsverzögerungen machen KI-Fähigkeitskritiken obsolet, bevor sie erscheinen.

Hier ist ein Problem, das fast niemand in der Debatte anerkennt: Akademische Publikationszeitpläne und Buchveröffentlichungszeiträume sind strukturell inkompatibel mit dem Verbesserungstempo von KI. Wenn jemand eine Studie aus dem Jahr 2025 (initiiert 2024) zitiert, die die Halluzinationsrate von GPT-4 dokumentiert, um im März 2026 gegen den Einsatz von KI zu argumentieren, zitiert man Evidenz über ein System, das nicht mehr existiert. Es ist, als würde man eine Studie von 2005 über die Limitierungen von Klapphandys anführen, um gegen Smartphones zu argumentieren. Wahrscheinlich ist deshalb das neue Buch „AI Con” so schlecht — offensichtlich veraltet, bevor es überhaupt in den Regalen stand.

Ich weise die Forschung an sich nicht pauschal zurück. Die Studien sind oft methodisch solide. Aber die Evidenzbasis verfällt schneller, als sie publiziert, begutachtet und zitiert werden kann. Der Brookings-Beitrag von Messing und Tucker, veröffentlicht im März 2026 (und „zügig” in nur zwei Wochen begutachtet), dokumentiert bereits Fähigkeiten, die sechs Monate zuvor spekulativ gewirkt hätten. Bis ein begutachteter Aufsatz über aktuelle KI-Limitierungen in einer Zeitschrift erscheint, werden die darin dokumentierten Einschränkungen wahrscheinlich behoben sein. Das ist keine komfortable Situation für Akademikerinnen und Akademiker, die darauf trainiert sind, sich auf publizierte Evidenz zu stützen. Aber es ist die Situation, in der wir uns befinden.

15. Die meisten Aufsätze werden bereits überwiegend von KI gelesen, nicht von Menschen.

Es ist ein offenes Geheimnis in der Wissenschaft, dass die meisten publizierten Aufsätze nie von jemandem außer den Autorinnen und Autoren, den Gutachterinnen und Gutachtern und manchmal der Redaktion zitiert oder gelesen werden. Mit der kommenden Flut KI-verfasster Aufsätze — ob nun kompletter Schund oder nicht — wird es für Forschende unmöglich werden, selbst in ihren eigenen Nischenfeldern auf dem Laufenden zu bleiben. Ich bilde mir gerne ein, dass ich die gesamte neue Literatur zu Einwanderungseinstellungen kenne, aber wahrscheinlich verpasse ich 80 % dessen, was außerhalb der USA, Europas und der führenden Fachzeitschriften produziert wird.

Das bedeutet, dass Wissenschaftlerinnen und Wissenschaftler akzeptieren sollten, dass ihr primäres Publikum zunehmend LLMs sind. Tyler Cowen spricht schon seit einiger Zeit über das Schreiben für LLMs, aber mit dem Aufstieg agentischer Tools gilt dies auch für die meisten Akademikerinnen und Akademiker — einschließlich qualitativer Forschender, deren Arbeit selbst nicht automatisiert werden kann. Ich habe noch keine klare Vorstellung davon, was Autorinnen und Autoren diesbezüglich tun sollten, aber sicherzustellen, dass eine maschinenlesbare Version des Aufsatzes existiert (idealerweise im .md-Format), scheint ein guter erster Schritt zu sein.

16. KI legt offen, was in der Wissenschaft und darüber hinaus bereits kaputt war.

Eng damit zusammenhängend lautete eine große Zahl der Reaktionen auf Teil I: „Wenn KI deine Forschung machen kann, war deine Forschung nie gut.” Ich stimme zu (LOL) — aber das ist eine Anklage gegen weite Teile der Sozialwissenschaften, keine Verteidigung gegen KI oder ein kluger persönlicher Angriff gegen mich. Die Replikationskrise, Zitationspolsterung, P-Hacking und die Produktion von Aufsätzen, die niemand liest, waren allesamt vorbestehende Zustände.

Von Menschen generierter akademischer Schund war schon immer allgegenwärtig; KI macht ihn nur sichtbar. Nathan Smith formulierte es in seinem Restack noch unverblümter: Akademische Institutionen horten Humankapital, das Tenure-System belohnt kollektive Nabelschau statt gesellschaftlicher Wirkung, und die meisten Professorinnen und Professoren könnten nützlicher sein, wenn sie etwas anderes täten. Das ist eine harte Perspektive. Aber wenn nur ein kleiner Prozentsatz publizierter Aufsätze echten Wert hat, war das System, das KI nun umkrempelt, auch vorher nicht gerade blühend.

17. Der Kompetenzverlust ist ein reales Risiko, besonders für die künftige Generation von Forschenden.

Das bringt uns zu einer weiteren starken Reaktion auf meinen ursprünglichen Beitrag: dass die Auslagerung kognitiver Prozesse wie „Quellenauswertung” und „Datenkodierung” das eigene Verständnis der Forscherin oder des Forschers beeinträchtigt. Viele äußerten berechtigte Sorge über die „Reduktion komplexer, denkgetriebener Prozesse auf eine Reihe diskreter Aufgaben zur Auslagerung, obwohl kognitiv so viel zwischen und nach den einzelnen Schritten passiert.” Messing und Tucker kennzeichnen dasselbe Risiko unter dem Begriff „Kompetenzverlust”.

Ich nehme das ernst und räume ein, dass das Risiko real ist — insbesondere für Studierende und Auszubildende, die die kognitiven Fähigkeiten, die KI möglicherweise kurzschließt, noch nicht verinnerlicht haben. Die Forschenden, die sich um Kompetenzverlust sorgen, haben recht, dass etwas verloren geht. Aber sie unterschätzen, was gewonnen wird: die Fähigkeit, auf einer höheren Abstraktionsebene zu arbeiten, mehr Hypothesen zu testen, schneller zu iterieren. Für etablierte Forschende ist das Risiko des Kompetenzverlusts gering, weil die Fähigkeiten bereits vorhanden sind. Für Studierende und künftige Forschende müssen wir dringend eine Lösung für die Aktualisierung unserer Graduiertencurricula finden.

18. KI-Schreiberkennungstools und Offenlegungsnormen funktionieren nicht.

KI-Schreiberkennungstools waren schlecht, sind immer noch schlecht und werden wahrscheinlich schlecht bleiben. Der ursprüngliche, von Claude produzierte Beitrag bestand jeden großen KI-Detektor als „100 % menschlich”, ohne dass ich dafür ein aufwendiges Prompting zur Vermeidung verwendet hätte. Viele Kritiker meines ursprünglichen Beitrags sagten, sie hätten sofort „gespürt”, dass er KI-geschrieben war. Aber sie sagten das, nachdem ich den Workflow offengelegt hatte — ein Lehrbuchbeispiel für Bestätigungsfehler. Vor der Enthüllung hat niemand es bemerkt. Tatsächlich beschwerte sich sogar jemand, ich hätte keine KI benutzt, um einen Beitrag zu schreiben, der KI lobt.³

Der wichtigere Punkt betrifft die Offenlegungsanreize. Messing und Tucker empfehlen die Standardisierung von KI-Nutzungserklärungen über Fachgebiete hinweg. Ich respektiere ihre Argumentation und den Ruf nach Standardisierung (anstelle des Chaos, das wir jetzt haben), aber ich bezweifle, dass ein umfassender KI-Erklärungsstandard angesichts der aktuellen Anreizstruktur irgendwelche Vorteile haben kann.

Verstehen Sie mich nicht falsch — Menschen in Autoritätspositionen wie Zeitschriftenherausgeberinnen und -herausgeber sollten transparent über ihren Workflow sein. Aber für reguläre Autorinnen und Autoren schafft freiwillige Offenlegung ein System, in dem ehrliche Nutzer bestraft und unehrliche Nutzer nicht mit Konsequenzen konfrontiert werden. Ich legte meinen KI-Workflow offen und erhielt Drohungen, berufliche Angriffe und Forderungen nach meiner Entlassung. Der rationale Anreiz ist zu lügen. „KI-Nutzungsbestätigungen” klingen vernünftig, aber sie scheitern beim Kontakt mit den tatsächlichen sozialen Dynamiken des akademischen Lebens im Jahr 2026. Solange die beruflichen Kosten der Offenlegung nicht sinken, werden verbindliche Anerkennungsnormen Unehrlichkeit selektieren.

Es gibt auch ein tieferes Problem: Offenlegungsnormen stellen die Frage der Verantwortlichkeit auf den Kopf. Für manche kann KI-Offenlegung sogar als Ausrede funktionieren — „Ich habe KI benutzt, also ist es jetzt an dir herauszufinden, ob es Schund ist.” Aber Autorinnen und Autoren sollten hinter dem Endprodukt stehen, unabhängig davon, wie es produziert wurde. Wenn KI einen Fehler einführt, liegt das in der Verantwortung der Autorin oder des Autors. Was zählt, ist, ob die Arbeit korrekt und wertvoll ist, nicht ob ein Mensch oder eine Maschine die Sätze getippt hat.

19. Akademisches Bluesky ist kein ernstzunehmender Ort für diese Debatte.

Ich muss das ansprechen, weil es alles, was folgte, gefärbt hat. Bluesky erzeugte fast so viele Reaktionen wie Twitter, aber sie waren überwiegend feindselig und zwar auf die am wenigsten produktive Art und Weise. Die häufigste Antwort war eine Variante von „Wenn du es nicht geschrieben hast, warum sollte ich es lesen?” oder „ai/dr.” Viele enthielten Beschimpfungen, Anschuldigungen, von KI-Unternehmen bezahlt zu werden (?), und Forderungen, meine früheren veröffentlichten Arbeiten nicht mehr zu zitieren (??) oder mich sogar zu entlassen (???), wobei Leute meinen Arbeitgeber markierten, um mich durch KI zu ersetzen, da ich ja behaupte, sie sei so gut.

Mein ursprünglicher Beitrag war provokant. Aber ich habe niemanden persönlich angegriffen. Ich habe Argumente über KI und Wissenschaft vorgebracht, basierend auf meiner eigenen Erfahrung im Feld, denen man zustimmen oder widersprechen kann. Dafür reagierten Wissenschaftlerinnen und Wissenschaftler auf Bluesky mit beruflichen Drohungen, Ad-hominem-Angriffen und koordinierten Shitstorms. Ich habe ein dickes Fell und eine sichere Anstellung. Ich kann das aushalten.

Aber die meisten Menschen, die heterodoxe Ansichten über KI in der Wissenschaft teilen könnten, haben diesen Luxus nicht. Es sind Doktorandinnen und Doktoranden, befristet Beschäftigte und Nachwuchsforschende (tatsächlich war ich selbst noch vor ein paar Monaten in dieser Position!), die beobachten, was mir passiert ist, und die naheliegende Schlussfolgerung ziehen: Halt den Mund. Das sind die wahren Kosten der Shitstorm-Kultur — nicht für Leute wie mich, sondern für den offenen Austausch von Ideen, den die Wissenschaft eigentlich schützen soll. Und obwohl ich allen sympathisierenden Personen dankbar bin, die sich per Direktnachricht gemeldet haben, wünsche ich mir, dass Sie sich öffentlich äußern. Das ist der einzige Weg, wie sich diese unglückliche Dynamik ändern kann.

20. Forschung kann ohne „Seele” sein und trotzdem der Öffentlichkeit dienen.

Max Kagan hat eine verbreitete Sorge von Bluesky-Nutzern artikuliert und adressiert, die auch bei mir Resonanz findet: die Idee, dass Forschung, die von oder mit KI produziert wird, etwas Wesentliches fehlt — nennen Sie es Seele, Handwerk oder authentisches intellektuelles Engagement. Der Prozess des Ringens mit einer Frage, des Ausharrens in Ambiguität und des langsamen Aufbaus eines Arguments ist für viele Forschende persönlich transformativ. Es gibt einen Grund, warum Menschen trotz furchtbarer Arbeitsmarktperspektiven promovieren: Die Arbeit selbst ist bedeutsam. Wenn KI diesen Prozess auf Stunden komprimiert, geht etwas wirklich Wertvolles verloren.

Ich fühle die Anziehungskraft dieses Arguments. Aber ich bin mir nicht sicher, ob es die Konfrontation mit der Frage überlebt, wer dafür bezahlt. Die meiste akademische Forschung ist öffentlich finanziert. Steuerzahlerinnen und Steuerzahler finanzieren Universitäten nicht, damit Professorinnen und Professoren sich selbst verwirklichen. Sie finanzieren Universitäten, um Wissen zu produzieren, das der Gesellschaft zugutekommt. Wenn KI-gestützte Forschung mehr und besseres Wissen schneller produziert, ist das Argument im öffentlichen Interesse für ihre Nutzung schwer von der Hand zu weisen — selbst wenn das persönliche Erleben der Forschung weniger romantisch wird.

Ich verwende die Claude-Desktop-App unter Windows, verbunden mit meinen GitHub-Ordnern über Claude Code (Opus 4.6, Max-Abonnement für 200 $/Monat), plus die Claude-Chrome-Erweiterung für Browseraufgaben. Für meinen vorherigen Beitrag bat ich die KI, meine Social-Media-Beiträge zu KI und Wissenschaft in Form von 10 Thesen zusammenzufassen, unter Befolgung von Abläufen und Stilrichtlinien, die ich nach und nach in projektspezifischen Instruktionsdateien aufgebaut habe. Kein geheimes Wissen, wirklich. ↩
Wenn Sie davon ausgingen, ich spräche von US-amerikanischen Professorinnen und Professoren an R1-Universitäten, liegt das an Ihnen. Als jemand, der die gängige sozialwissenschaftliche Forschung in Entwicklungsländern und dem postsowjetischen Raum kennt, kann ich Ihnen sagen, dass die meiste in MDPI-ähnlichen Zeitschriften produzierte Arbeit wenig Wert hat, selbst wenn sie kein offenes Plagiat ist. Es handelt sich überwiegend um grundlegende, repetitive quantitative Arbeit — Begriffe neu definieren und Variablen korrelieren —, der Art, die in den Sozialwissenschaften verbreitet ist und die KI bereits kompetenter erledigen kann. ↩
Ryan Briggs macht einen fairen Punkt: KI-Detektoren sind darauf kalibriert, Falsch-Positive zu reduzieren, sodass sie durchaus nützlich sein können, um Studierende zu erkennen, die zu viel schummeln. Für Forschungszwecke bin ich mir allerdings nicht sicher, ob das eine Rolle spielt. ↩