Der jüngste Skandal um KI-Texte kam passenderweise mit dem Papst. Am 25. Mai 2026 veröffentlichte der Vatikan die erste Enzyklika von Papst Leo XIV., Magnifica Humanitas, datiert auf den 15. Mai, über den Schutz der menschlichen Person im Zeitalter der künstlichen Intelligenz. Innerhalb weniger Tage fütterten Leute damit Pangram, jenen Detektor, der plötzlich zum respektablen Instrument literarischen und akademischen Misstrauens geworden ist. Einige Passagen wurden offenbar als KI-unterstützt markiert, und der Vorwurf war leicht zu verstehen: Der Papst, oder zumindest der Vatikan, hatte KI genutzt, um über KI zu schreiben.
Meine Reaktion war im Grunde: Okay, und was dann? Enzykliken durchlaufen ohnehin institutionelle Entwürfe, Zuarbeit, Konsultation, Überarbeitung, Übersetzung und ausschussartige Glättung. Wenn ein Vatikan-Mitarbeiter Claude verwendet hat, um die Ideen von Papst Leo in Prosa zu verwandeln, wären die entscheidenden Fragen nach wie vor, ob das Dokument präzise, durchdacht und lesenswert ist. Aber ich muss zugeben, dass ich mich geirrt habe.
In Teil II meiner KI-Reihe schrieb ich, dass Detektoren für KI-Texte schlecht seien und es wohl auch bleiben würden. Pangram hat mich umgestimmt: Es hat Belege Dritter vorzuweisen, beansprucht eine sehr niedrige Falsch-Positiv-Rate und ist zu dem Detektor geworden, zu dem Leute greifen, wenn sie nicht offengelegte KI-Texte vermuten. Kelsey Piper schrieb kürzlich über die Behauptungen von Pangram Labs, dass mehrere preisgekrönte Kurzgeschichten KI-generiert oder erheblich KI-unterstützt seien, und Matteo Wong von The Atlantic hat nun über Pangrams wachsende Macht in Schulen, im Verlagswesen, im Journalismus und in der Ökonomie des KI-Vorwurfs geschrieben.
Ein funktionierender Detektor macht die ethische Frage dringlicher, weil er Menschen dazu verleitet, die Herkunft als Urteil zu behandeln. Deshalb ist der Witz, Pangram zu nutzen, um von Menschen geschriebene Inhalte auszufiltern, schärfer, als er zunächst klingt: In vielen Kontexten kann KI-unterstütztes Schreiben lesbarer und nützlicher sein als unassistierte menschliche Prosa. Wenn die zugrundeliegenden Daten solide sind, trägt das menschliche Ringen auf Satzebene wenig bei.
Ich sollte auch offen sagen, dass ich hier befangen bin. Ich bin jener berüchtigte KI-Professor, der mit Stolz mithilfe von KI schreibt. Ein Essay, der argumentiert, dass KI-Erkennung zu einer Status-Kontrolle werden kann, ist praktischerweise eine Verteidigung meiner eigenen Praxis, und Lesende sollten sich fragen, ob ich die Grenze so ziehe, dass sie mir schmeichelt.
Das Spektrum der Herkunft
Die Ethik von KI-Texten beginnt mit dem Versprechen, das die schreibende Person gegeben hat. Man kann ein Versprechen gegenüber einer Lehrkraft, einer Redaktion, Lesenden, einer Institution oder einer Empfängerin geben. Die ethische Frage hängt von diesem Versprechen ab, bevor sie von einem Detektorwert abhängt.
Beginnen wir dort, wo die Skeptiker recht haben. Eine studentische Arbeit, die KI ausdrücklich verbietet, ist der offensichtliche Fall. Ein Wettbewerb für kreatives Schreiben, der verspricht, neue menschliche Talente zu würdigen, ist ein weiterer. Ein Kondolenzschreiben gehört in eine andere Kategorie als eine Prüfung, aber wenn jemand in Trauer Worte von Ihnen erwartet, fühlt es sich wie ein Verrat an, den emotionalen Akt an eine Maschine auszulagern.
Manche Entscheidungen erfordern zudem ein verantwortbares menschliches Urteil. Wenn ich darüber entscheide, ob jemand ein Stipendium oder eine Förderung erhält, ist die Herkunft wichtig, weil der Bewerberin mein Urteil zusteht. KI kann helfen, Belege zu ordnen oder die Konsistenz zu prüfen, aber der wertende Akt muss mein eigener bleiben.
Auch die Folgen zählen. Je einflussreicher die Entscheidung ist und je stärker sie von persönlichem Urteil abhängt, desto wichtiger ist es zu wissen, wer oder was die Entscheidung getroffen hat. Menschliches Ermessen kann auch schlechter sein als das einer KI: Ein Gremium kann voreingenommen oder willkürlich sein, und ein gut konzipiertes KI-System mag manche Entscheidungen mit der Zeit konsistenter treffen.
Es gibt auch eine Sonderregel für Aussagen in der ersten Person. Wenn ich „ich denke” oder „ich fühle” schreibe, sollte diese Überzeugung tatsächlich meine sein. KI kann mir helfen, sie zu formulieren, auf den Prüfstand zu stellen oder weniger holprig zu machen. Die Überzeugung selbst kann sie nicht liefern.
Forschung und Journalismus liegen näher an der Mitte. Eine Verfasserzeile ist das Versprechen, dass die Autorin für die Behauptungen, Belege und Urteile einsteht. Sie hat nie bedeutet, dass die Autorin jeden Satz persönlich getippt hat, ohne Hilfe von Suchmaschinen, Lektoren, Ko-Autoren, Übersetzerinnen oder nun LLMs. Wenn mein Name unter einem Argument steht, muss das Argument meines sein; die Prosa darf assistiert sein.
Vieles an technischem Schreiben gehört eher auf die Seite, auf der der Inhalt zählt. Wenn ich KI bitte, ein Diagramm zu beschreiben, einen Methodenabschnitt zu verfassen oder ein Regressionsergebnis in normales Deutsch zu übertragen, ist die entscheidende Frage, ob das Ergebnis korrekt ist. Ich muss die Zahlen weiterhin überprüfen und den finalen Text verantworten. Genauigkeit und Verantwortlichkeit tragen das moralische Gewicht.
Am äußersten Ende stehen administrative Nachrichten, bei denen sich fast niemand für den menschlichen Akt des Schreibens interessiert. Wenn ein Fachbereich Sie bittet, eine höfliche Nachricht zur Bestätigung eines Ausschusstreffens zu senden, nutzen Sie KI bedenkenlos. Der relevante Maßstab ist, ob die Nachricht wahr und klar ist.
Ein einzelner KI-Wert kann die ethische Frage nicht beantworten. Dasselbe Maß an KI-Unterstützung kann in einer Verwaltungs-E-Mail harmlos, in einem technischen Bericht nützlich, in einem persönlichen Essay fragwürdig und in einer KI-freien Klassenaufgabe disqualifizierend sein. Der Kontext ist der springende Punkt, selbst wenn die zugrundeliegende Erkennung korrekt ist.
Auch die Erkennung hat ein Spektrum
Die Ethik der Erkennung sollte der Ethik der Nutzung folgen. Wenn eine Lehrkraft den Studierenden vorgegeben hat, eine bestimmte Aufgabe ohne KI zu schreiben, kann ein Detektor Teil eines Verfahrens zur akademischen Integrität sein. Ein Pangram-Wert sollte niemals das einzige Indiz sein, gerade angesichts dessen, was für Studierende auf dem Spiel steht.
Kreativwettbewerbe stehen vor einem ähnlichen Problem. Pipers Argument zum Commonwealth Short Story Prize sollte man ernst nehmen, weil es bei Literaturpreisen zum Teil um menschliches Handwerk geht. Wenn ein Preis die Stimme einer schreibenden Person würdigt, verletzt ein vollständig KI-generierter Beitrag die Prämisse. Die Veranstalter können KI erlauben, KI verbieten oder eine eigene Kategorie schaffen. Vertrauen allein wird das Problem nicht lösen.
Peer-Review ist schwieriger. Seth Lazar lieferte als Antwort auf meinen früheren Pangram-Beitrag die stärkste Version des Arguments für Erkennung: KI-generierte Forschungsergebnisse können zu einem Denial-of-Service-Angriff auf das Peer-Review werden. Die Kosten, plausibel wirkende Aufsätze zu produzieren, brechen zusammen, während die Pflicht, sie zu lesen, teuer bleibt. In diesem Kontext kann ein Detektor helfen, knappe Begutachtungskapazitäten zu bewahren.
Der Peer-Review-Fall hängt dennoch vom Ziel ab. Wenn das Ziel ist, Studierende zu erwischen, die eine ausdrückliche Regel brechen, ist die Herkunft das Ziel. Wenn das Ziel ist, Gutachter vor wertlosen Einreichungen zu schützen, ist die Herkunft nur ein Näherungswert: Ein Detektor schätzt die Wahrscheinlichkeit, dass ein Text von einer KI stammt, nie die Wahrscheinlichkeit, dass er schlecht ist. Das eigentliche Ziel ist schlechte Arbeit: erfundene Daten, gefälschte Quellenangaben, nicht existierende Methoden und Aufsätze ohne eine Frage, die eine Antwort wert wäre. Ein Detektor mag bei der Vorsortierung helfen, aber jemand muss die tatsächlichen Behauptungen trotzdem prüfen.
Meine Sorge ist, dass wir die Gedankenstriche kontrollieren und die erfundenen Daten darunter ignorieren. Das wäre eine sehr akademische Art, den Kern aus den Augen zu verlieren: ausgesuchte Aufmerksamkeit für das oberflächliche Merkmal, kaum Aufmerksamkeit dafür, ob die Sache überhaupt etwas Wahres sagt.
Warum Offenlegung meist scheitert
Der naheliegende Kompromiss ist die Offenlegung. Man lässt Leute KI nutzen, verlangt, dass sie es angeben, und überlässt den Lesenden die Entscheidung, wie viel es zählt. Das klingt verlockend, weil es KI-Unterstützung als Information behandelt und die moralische Temperatur senkt.
In Teil II der KI-Reihe argumentierte ich, dass Offenlegungsnormen unter den Anreizen zusammenbrechen, die sie selbst erzeugen. Die Detektor-Hälfte dieses Arguments muss nun revidiert werden, weil Pangram offenbar viel besser funktioniert, als ich erwartet hatte. Die Offenlegungs-Hälfte erscheint mir nach wie vor richtig.
Je ethisch fragwürdiger die KI-Nutzung ist, desto stärker ist der Anreiz, sie zu verbergen. Eine studentische Person, die KI genutzt hat, nachdem sie versprochen hatte, ohne Hilfe zu schreiben, eine Wettbewerbsteilnehmerin, die maschinengeschriebene Belletristik bei einem Preis für menschliches Schreiben eingereicht hat, oder ein Forschender, der KI genutzt hat, um gefälschte Quellen zu kaschieren, hat allen Grund zu schweigen.
Am ehesten legen jene offen, die KI in risikoarmer Weise nutzen: einen Absatz aufpolieren, ein Diagramm übersetzen oder grobe Notizen in lesbare Prosa verwandeln, die ihnen weiterhin gehört. Das sind auch die Fälle, in denen die Offenlegung am wenigsten zählt. Das wahrscheinliche Gleichgewicht ist eine Welt voller ritueller Hinweise auf harmlose KI-Unterstützung, während die wirklich täuschenden Fälle verborgen bleiben, bis jemand sie untersucht.
Offenlegung kann dennoch helfen, wenn sie selbst die Arbeit erklärt, wie es hier der Fall ist. Auch Redaktionen, Lehrkräfte, Preisjurys und Personen, die institutionelle Autorität ausüben, sollten über die Regeln, die sie durchsetzen, Klarheit schaffen. Aber wenn das gesamte System von ehrlichem Bekenntnis abhängt, bestraft es die Gewissenhaften und lässt die strategischen Nutzer ungeschoren.
Die neue Grammatik-Kontrolle
Ich weiß, dass die Formulierung „Grammatik-Nazismus” anstößig ist, und ich meine damit etwas Bestimmtes. Ich wurde in der Sowjetunion geboren, und die russische Elitekultur kann äußerst empfindlich auf Grammatik, Aussprache, Betonungsmuster und die kleinen Statusmarker in der Sprache reagieren. In der Praxis diente Grammatikkorrektur oft zugleich der sozialen Sortierung: die falsche Schule, die falsche Region, die falsche familiäre Herkunft oder die falsche Art von Bildung konnten durch die Art, wie man sprach, durchscheinen.
Amerika hat seine eigene Version davon. Akademisches Englisch ist voll von Statussignalen, die sich als Standards tarnen. Die richtige Art von Sprachgewandtheit lässt einen klug klingen, bevor jemand prüft, ob man recht hat, und der falsche Akzent oder die falsche Redewendung können einen als unseriös abstempeln, bevor das Argument überhaupt gehört wird.
KI-Erkennung verwandelt diese alte Gewohnheit in ein neues technisches Ritual. Dieselben Leute, die einst Grammatik kontrollierten, kontrollieren nun „KI-Verräter”: Gedankenstriche, geschmeidige Übergänge, generische Metaphern, seltsam ausgewogene Absätze, Prosa, die ein wenig zu sauber wirkt. Manchmal haben sie recht. KI-Texte haben tatsächlich erkennbare Muster, weshalb ich einen Stilleitfaden voll davon habe.
Wenn jemand einen Text liest, etwas Neues lernt und das Gespräch dann auf eine verdächtige Formulierung lenkt, hat der Pangrammatik-Instinkt allen die Zeit verschwendet. Die Aufmerksamkeit der Lesenden sollte zuerst der Behauptung, den Belegen und dem Ertrag gelten, und Stilkontrolle den Fällen vorbehalten bleiben, in denen die Prosa das Verständnis tatsächlich blockiert oder Täuschung signalisiert.
Diese Statusdynamik ist sehr vertraut. Der Detektorwert verleiht eine wissenschaftlich anmutende Lizenz, Arbeit abzutun, ohne sie sorgfältig zu lesen. Profitieren tun meist die etablierten Schreibenden und die akkreditierten Türsteher, die ein Ermessensurteil in einen Wert verwandeln können. Der Vorwurf wird besonders praktisch gegen statusniedrigere Schreibende und Menschen, die nicht gut Englisch schreiben, aber nun KI nutzen können, um zu übersetzen, zu entwerfen und ein englischsprachiges Publikum zu erreichen. Zu poliert wirkt unecht. Zu holprig wirkt minderwertig. So oder so gewinnt der Türsteher.
Die Logik der moralischen Kontamination verschärft das Problem. Sobald KI-Beteiligung wie eine Unreinheit behandelt wird, genügt jede Spur von Unterstützung, um das ganze Werk zu verurteilen. Das ist ein seltsamer Maßstab für eine Welt, in der menschliches Schreiben stets sozial hervorgebracht wurde, durch Lektoren, Gutachterinnen, Ko-Autoren, Übersetzerinnen und den Satz, den Sie gestern gelesen haben.
Das komischste mögliche Gleichgewicht ist bereits da. KI-Werkzeuge schreiben Prosa, die zu klar ist, Detektoren bestrafen die Klarheit, und dann schreiben neue „Humanizer”-Werkzeuge die Prosa um, damit sie holpriger wirkt. TIME beschrieb kürzlich, wie Menschen Fehler und Eigenheiten einbauen, um nicht KI-generiert zu klingen. Das ist Grammarly in umgekehrter Richtung: das Schreiben schlechter machen, damit es authentischer wirkt.
Was stattdessen zu tun ist
Ich plädiere für Bescheidenheit gegenüber Detektoren. Pangram sollte nur dort eingesetzt werden, wo die Herkunft Teil der Vereinbarung ist: Prüfungen mit ausdrücklichen KI-Verboten, Wettbewerbe, die menschliches Handwerk versprechen, oder institutionelle Kontexte, in denen die Quelle des Textes zur Aufgabe gehört. Die institutionelle Regel sollte festgelegt werden, bevor der Wert herangezogen wird: Definieren Sie, welche KI-Nutzung das Versprechen verletzen würde und welches Einspruchsverfahren auf einen hohen Wert folgt.
In vielen Bereichen sollte der Maßstab recht einfach sein: Wenn Sie Ihren Namen unter die Arbeit setzen, gehört sie Ihnen. Ihnen gehören die Fakten, die Behauptungen, die Fehler, der Geschmack, die Struktur und das Urteil. Wenn KI Ihnen geholfen hat, eine korrekte technische Zusammenfassung zu erstellen, gut. Wenn KI Ihnen geholfen hat, schneller Unsinn zu produzieren, ist das Ihre Sache.
Weil Aufmerksamkeit knapp ist, werden Menschen weiterhin auf Abkürzungen setzen. Sie werden Namen vertrauen, die sie kennen, Zeitschriften, die sie schätzen, Redakteuren mit einer Erfolgsbilanz, Freunden, die die Arbeit gelesen haben, und Institutionen, die etwas zu verlieren haben, wenn sie Schrott veröffentlichen. Das ist unvollkommen und oft ungerecht. Außenseiter und Neulinge zahlen einen Preis, wenn Reputation zum Filter wird. Aber zumindest ist Reputation über die Zeit verantwortbar. Wenn eine Zeitschrift, ein Preis, eine Professorin oder eine schreibende Person immer wieder schlechte Arbeit befürwortet, kann man es bemerken.
Ein Pangram-Wert ist etwas anderes. Er liefert eine schnelle Vermutung über die Herkunft eines Textes und lädt uns ein, mit dem Lesen aufzuhören, bevor wir gefragt haben, was der Text leistet. Pangram scheint zu funktionieren, also lautet die Frage nicht mehr, ob wir KI erkennen können. Die Frage ist, was wir mit dieser Information tun sollten. Nutzen Sie sie, wenn die Herkunft Teil des Geschäfts ist und der Einsatz eine Untersuchung rechtfertigt. Behandeln Sie sie als Anstoß zum Urteilen, niemals als Ersatz fürs Urteilen.
Wenn die Arbeit gefälscht, falsch, plagiiert, emotional unaufrichtig oder ein Verstoß gegen eine klare Regel ist, dann sagen Sie das und handeln Sie entsprechend. Wenn die Arbeit korrekt und nützlich ist und der Person gehört, deren Name darunter steht, dann ist die Tatsache, dass Codex, Claude oder ChatGPT beim Zusammensetzen der Sätze geholfen hat, eine schwache Grundlage für einen Skandal. Der Skandal wäre, eine Kultur aufzubauen, in der alle lernen, ihr Schreiben schlechter zu machen, damit es als menschlich durchgeht.
Eine letzte Offenlegung, da es im ganzen Text um genau diese Frage geht: Der obige Essay wurde vollständig in Codex aus mehreren Stunden meiner diktierten Gedanken, früheren Beiträgen, gespeicherten Stilvorgaben und jüngsten Austauschen in den sozialen Medien geschrieben. Das Titelbild und das Spektrum-Diagramm wurden ebenfalls von Codex erstellt. Das war kein einzelner Prompt. Wir gingen durch mehr als ein Dutzend Iterationen, hauptsächlich um das Argument und das Diagramm zu verfeinern. Ja, ich nutze Codex inzwischen mehr als Claude Code. Ja, ich habe den Entwurf vor der Veröffentlichung gelesen, aber die Prosa überhaupt nicht zeilenweise redigiert. Nach meinem eigenen Diagramm liegt dieser Essay auf der Seite, auf der der Inhalt zählt, und ich stehe dahinter.
