Warum evidenzbasierte Politik überschätzt wird

Vor drei Jahren erklärten die Vereinigten Staaten das Ende des Pandemie-Notstands, und das Land atmete auf. Sie, liebe Leserin, lieber Leser, haben die ganze Sache vermutlich längst abgehakt. Es tut mir leid, aber ich komme einfach nicht davon los, und Macedos und Lees ausgezeichnetes „In Covid’s Wake“, das ich letzte Woche auf dem Rückweg aus Irland las, hat mich daran erinnert, warum. Das Virus war natürlich nicht die Schuld irgendeines Einzelnen von uns.¹ Aber wie wir als demokratische Gesellschaft darüber nachdachten, war absolut unsere Schuld. Die sogenannten Fachleute verbrachten Jahre damit, dem Rest von uns zu sagen, wir sollten „der Wissenschaft folgen“, beanspruchten dann eine Gewissheit, die die Wissenschaft ihnen nie gab, gaben Werturteile als technische aus, erzählten zu unserem eigenen Wohl reichlich edle Lügen und wischten jede Kostenfolge beiseite, die jenseits ihres eigenen engen Fachgebiets lag. Wir ertranken in Daten, doch woran es uns fehlte, war ehrliches Urteil.

Diese reflexhafte evidenzbasierte Geisteshaltung ist nicht nur eine Sache der Pandemie, und sie taucht überall dort auf, wo wir eine Art von Daten als die einzige behandeln, die zählt. 2018 veröffentlichte eine führende medizinische Fachzeitschrift eine randomisierte kontrollierte Studie (RCT), die ergab, dass Fallschirme nichts bewirkten, um Tod oder Verletzung zu verhindern, wenn Menschen aus einem Flugzeug sprangen. Der Haken war, dass die Flugzeuge am Boden parkten und die mittlere Sprunghöhe etwa einen halben Meter betrug. Die ganze Studie war natürlich ein Scherz. Die Autorinnen und Autoren hatten nichts gegen Experimente als solche, aber sie verspotteten den unter ihren Kolleginnen und Kollegen verbreiteten Reflex, der RCTs als die einzige seriöse Form von Wissen behandelt, selbst bei einer Behauptung, die man durch einen Blick aus dem Flugzeugfenster überprüfen könnte.²

Ich habe einen großen Teil meines Berufslebens damit verbracht, zu besserer Evidenz in Einwanderungsdebatten beizutragen und danach zu verlangen, gewöhnlich zum stillen Verdruss von Menschen auf meiner eigenen Seite, also werde ich gewiss nicht damit anfangen, Daten zu verachten und nach „Bauchgefühl“ zu handeln. Gute Politik braucht durchaus Evidenz, Kosten-Nutzen-Analysen und sorgfältiges kontrafaktisches Denken. Aber sie braucht auch Demut und ein besseres Urteil darüber, welche Art von Evidenz eine bestimmte Frage tatsächlich erfordern kann, falls überhaupt.

Es gibt manche Maßnahmen, die so offensichtlich gut sind, dass wir keine perfekte Studie brauchen sollten, um sie auszuprobieren, etwa rechtlich mehr Wohnraum zuzulassen, wo die Nachfrage hoch ist, zuverlässige kohlenstoffarme Stromerzeugung am Netz zu halten, wenn der Ersatz fossile Energie ist, oder Visa für ausländische Spitzenkräfte zu erhöhen, die alle angeblich wollen. Vernünftige Menschen können über Details und Zielkonflikte streiten. Aber bei Fragen wie diesen hängt die Begründung zum Handeln nicht von einer perfekten RCT ab, und die Beweislast sollte nicht unendlich sein.

Es gibt auch Maßnahmen, die so offensichtlich schlecht sind, dass wir keine Studie brauchen sollten, um sie zu stoppen, etwa Arbeitsverbote für Asylsuchende. Im Ernst, Sie brauchen keine randomisierte Studie und überhaupt keine harte Evidenz, um vorherzusagen, was passiert, wenn man einem arbeitswilligen Erwachsenen in rechtlicher Schwebe das Arbeiten verbietet, stattdessen für seine Unterbringung zahlt und dann auf seinen Müßiggang als Beweis dafür verweist, dass das System kaputt ist. Die meisten der schwierigsten Entscheidungen in der Politik sehen eher so aus als wie ein großes Rätsel, das ein gut konzipiertes Experiment verlangt.

Was „Evidenz“ tatsächlich bedeutet

Eine Stufe unter dem Fallschirm sitzt die Zahnseide. Ich persönlich benutze nicht gern Zahnseide, aber die meisten von uns können nach einer großen Mahlzeit den Unterschied wohl spüren, und unsere Zahnärztinnen und Zahnärzte sehen ihn bei der nächsten Reinigung. Doch als einige Journalistinnen und Journalisten eine Übersichtsarbeit aufgriffen, die wenig hochwertige randomisierte Evidenz für Zahnseide fand, verkündete eine Reihe von Schlagzeilen, es gebe überhaupt keine Evidenz, dass sie wirke. Wie die Wissenschaftshistorikerin Naomi Oreskes betont, war das ein Missverständnis. Wir sollten gegenüber Evidenz „aufgeschlossen“ sein, so argumentiert sie, und auch berufliche Erfahrung und gewöhnliche Beobachtung mitzählen, besonders dort, wo eine saubere Langzeitstudie undurchführbar ist oder nie finanziert werden wird.

Dieselbe Verwirrung, wenn auch mit weit höherem Einsatz, durchzog die COVID-Pandemie. In ihrem jüngsten (sehr empfehlenswerten) Buch zum Thema legen Stephen Macedo und Frances Lee eine verblüffende These dar: Ein Großteil des einschlägigen Wissens über den Umgang mit einer respiratorischen Pandemie war bereits vorhanden, doch Regierungen im gesamten Westen ließen es weitgehend beiseite. Vor 2020 standen die maßgeblichen Pläne zur Pandemievorsorge weitreichenden Maßnahmen wie Lockdowns und langanhaltenden Schulschließungen skeptisch gegenüber und warnten, die Evidenz dafür sei schwach und die menschlichen und wirtschaftlichen Kosten hoch. In der Panik des frühen Jahres 2020 verwarfen diese Regierungen jene Leitlinien fast über Nacht und gaben sich dann eine Zuversicht, die die Wissenschaft nie stützte.

Es hilft, die Dinge nach der Art der Rückmeldung zu sortieren, die sie geben, und zu welchem Zweck. Ein Fallschirm gibt die einfachste Art: Der Nutzen, am Leben zu bleiben, ist unmittelbar, individuell und unmöglich zu übersehen, sodass eine Studie nur bestätigen würde, was ohnehin jeder sehen kann. Ein neues Medikament oder ein Impfstoff gibt das Gegenteil: Nutzen und Kosten mögen echt sein, aber sie sind auch viel vielfältiger und oft unsichtbar. Die Infektion, die nie eintritt, lässt sich leicht mit Glück oder der Selbstheilung des Körpers verwechseln, was genau der Grund ist, warum eine randomisierte Studie mit Placebos unverzichtbar ist und warum die moderne Medizin auf ihnen beruht.

Die meiste staatliche Politik liegt dazwischen. Man kann gewöhnlich erkennen, ob eine Maßnahme auf Gewinn oder Verlust zusteuert, lange bevor man eine saubere Zahl darauf setzen kann, und die Effekte laufen zugleich durch Arbeitsmärkte, Preise und Politik, sodass keine einzelne Studie sie isolieren kann und oft gar keine durchgeführt werden kann. Aber man kann es nicht einfach durch Hinsehen klären, so wie bei einem Fallschirm, und man kann es nicht mit einem sauberen Experiment klären, so wie bei einem Medikament. Was bleibt, ist Urteilskraft auf der Grundlage kumulativer Evidenz, von Vergleichen über Orte und Zeiten hinweg und von ehrlichem Kosten-Nutzen-Denken unter Unsicherheit, alles offen ausgesprochen statt als gesicherte Wissenschaft verkleidet.

Ein weiteres Opfer unserer tatsächlich bestehenden reflexhaften evidenzbasierten Politik ist die vorgelagerte Frage, was überhaupt als relevante Evidenz zählt und wessen Sachverstand darüber entscheiden darf. Hier sind Macedo und Lee vernichtend. Wie sie dokumentieren, wurde eine Nischengruppe von Fachleuten für öffentliche Gesundheit und Infektionskrankheiten plötzlich als einzige legitime Autorität in einer Krise behandelt, die jeden Lebensbereich berührte, und ihre Brille war von vornherein eng: fixiert auf die Minimierung von Infektionen, schob sie fast jeden anderen Effekt, ob wirtschaftlich oder nicht-wirtschaftlich, als Sache eines anderen Ressorts vom Tisch.

Francis Collins, der die National Institutes of Health leitete, räumte ein, dass die „Geisteshaltung der öffentlichen Gesundheit“, die er teilte, ihn dazu brachte, „der Eindämmung der Krankheit unendlichen Wert beizumessen“ und „null Wert darauf, ob dies das Leben der Menschen wirklich völlig durcheinanderbringt, die Wirtschaft ruiniert und viele Kinder von der Schule fernhält“. In Großbritannien sagte der oberste Medizinbeamte, Chris Whitty, der offiziellen Covid-Untersuchungskommission, dass die Aufnahme von Wirtschafts- oder Sozialfachleuten in die Beratergruppe der Regierung diese zu „schwerfällig“ gemacht hätte. Das Virus zu stoppen, wurde zum einzigen Ziel, das als der Wissenschaft folgen galt, und die Kosten, die jede ehrliche Politik abwägen muss, wurden für außerhalb des Geltungsbereichs erklärt.

Die Ökonominnen und Ökonomen hatten diesen Streit schon

Entwicklungsökonominnen und -ökonomen streiten seit 20 Jahren darüber. Die „Glaubwürdigkeitsrevolution“ lehrte die Sozialwissenschaft, schludrigen Kausalbehauptungen zu misstrauen und Identifikation zu schätzen, was ein echter Fortschritt war. Aber der Ökonom Lant Pritchett argumentiert, dass einige ihrer Verfechter dann einen seltsamen Trick vollführten: Nachdem sie die strengstmögliche Evidenz für eine enge Schätzung innerhalb einer Arbeit verlangt hatten, akzeptierten sie umgekehrt weitreichende, systemweite Behauptungen, die auf diesen Schätzungen aufbauten, „mit vollkommener und totaler Leichtgläubigkeit“. Er nennt es die Leichtgläubigkeitsrevolution. Ein Experiment kann intern hieb- und stichfest sein und Ihnen dennoch fast nichts darüber sagen, ob ein Programm auf nationaler Ebene in einem anderen Land funktionieren wird.

Die Klage kommt aus dem Zentrum des Fachs. Angus Deaton und Nancy Cartwright, gewiss keine Feinde der Quantifizierung, argumentieren, dass randomisierte Studien sich nur „als Teil eines kumulativen Programms“ neben Theorie und Mechanismus bewähren. Von einer einzelnen Studie externe Validität zu verlangen, „erwartet zu viel von einer RCT und unterschätzt zugleich ihren Beitrag“.

Pritchett bietet für sein eigenes Feld des Wirtschaftswachstums einen unverblümteren Plausibilitätstest: Wenn reiche Länder nicht mehr von irgendeinem modischen Faktor besitzen als arme, sollten wir Behauptungen misstrauen, er erkläre Entwicklung. Kein Land hat je auf seinem Weg zum Wohlstand eine randomisierte Studie durchgeführt. Polen kletterte nicht wegen eines gut geführten Geldtransfer-Experiments aus dem Kommunismus heraus und in den Wohlstand hinein; es tat dies durch unordentliche, groß angelegte Veränderungen in Märkten, Institutionen und Politik, die keine Studie im Voraus hätte prüfen können. Die Methode sollte zur Frage passen. Wenn das nicht der Fall ist, ist mehr Strenge bei der falschen Frage nur ein kostspieligerer Weg, mit Überzeugung am Punkt vorbeizureden.

Wenn die Studie ihren Aufwand wert ist

Verstehen Sie mich nicht falsch—ich mag meine RCTs und habe selbst einige durchgeführt. Randomisierte Studien sind unverzichtbar, wenn die Intuition dem Wissen vorauseilt. Das beste Argument für eine Studie ist das Spiegelbild des Fallschirms: Manchmal ist die Antwort überhaupt nicht offensichtlich, die Intuition, die fast alle teilen, erweist sich als falsch, und der einzige Weg, es herauszufinden, ist, das Experiment durchzuführen und seinen Preis zu zahlen. Wenn man den Effekt nicht sofort durch bloßes Hinsehen erkennen kann, muss man ihn unbedingt sorgfältig und systematisch messen.

Geldtransfers in reichen Ländern können hier ein interessantes Beispiel sein. In armen Ländern ist die Evidenz, dass das Aushändigen von Geld das Leben der Menschen verbessert, etwa so stark, wie Sozialwissenschaft nur sein kann, wobei randomisierte Studien große Zuwächse bei Einkommen, Vermögen, Ernährungssicherheit und sogar eine niedrigere Säuglingssterblichkeit feststellen. Als Ökonominnen und Ökonomen erstmals vorschlugen, armen Menschen einfach Bargeld auszuhändigen, war die Sorge, sie würden es für Alkohol und andere Versuchungen verschleudern, weshalb Hilfe so oft als Nahrungsmittel oder als Bargeld mit Auflagen kam. Die Studien fanden, dass diese Sorge weitgehend unbegründet war: über Dutzende Studien hinweg erhöhte Bargeld die Ausgaben für Alkohol oder Tabak nicht und verringerte sie oft, denn Menschen in Armut erweisen sich als gute Beurteiler dessen, was sie brauchen.

Da es nun für immer mehr Menschen zunehmend offensichtlich wird, dass Geldtransfers eindeutig funktionieren, könnte man annehmen, dieselbe Logik übertrage sich auf ein reiches Land: Wenn man einer mit Schwierigkeiten kämpfenden Amerikanerin ein paar hundert Dollar im Monat gibt, wird ihr Leben messbar besser. Zumindest schien das den Forschenden offensichtlich, die daran glaubten. Aber dann führten sie die Studien durch.

Wie Kelsey Piper ausführt, fand eine Reihe sorgfältiger amerikanischer Studien, darunter ein OpenResearch-Experiment, das Menschen drei Jahre lang 1.000 Dollar im Monat gab, keine dauerhafte Verbesserung bei Gesundheit, Beschäftigung, Stress oder den Ergebnissen der Kinder. Piper, die davon ausging, dass Bargeld mehr helfen würde, nannte die Befunde „schockierend“. Die Befunde aus Entwicklungsländern waren solide, aber sie ließen sich nicht sauber auf diesen Kontext übertragen, was genau jenes Problem der externen Validität ist, über das Angus Deaton so besorgt war. Hier war die Studie jeden Dollar wert, den sie kostete, denn der Einsatz war hoch, die Intuition war stark, aber sie war letztlich falsch. Das Problem ist natürlich, einen Fallschirm von einer medizinischen Studie zu unterscheiden, bevor man entscheidet, ob die Studie es wert ist, durchgeführt zu werden.

Selbst dann ist das richtige Werkzeug nicht immer ein Experiment, und manchmal steht es gar nicht zur Verfügung. Manches von dem Wichtigsten, was wir wissen, beruht mehr auf Theorie und Modellierung als auf irgendeiner einzelnen Studie. Niemand hat eine randomisierte Studie dazu durchgeführt, ob sich ein Land dem Freihandel öffnen sollte, oder könnte sie durchführen. Die Begründung beruht hier auf der Theorie des komparativen Vorteils, vor zwei Jahrhunderten ausgearbeitet und seither durch Berge nicht-experimenteller Evidenz verfeinert. Niemand teilte Nationen zufällig in Demokratie und Diktatur ein, um zu erfahren, welche ein besseres Leben hervorbringt. Wir denken über Fragen wie diese aus Theorie und Werten heraus, und wir stützen uns auf Gedankenexperimente und formale Modelle, jene Art von rechnerischen und gedanklichen Simulationen, die Sozialwissenschaftlerinnen und Sozialwissenschaftler gerade deshalb bauen, weil manche Fragen nie einem experimentellen Test unterzogen werden können.

Wenn alle zugleich falschliegen

Ich bin überhaupt kein Experte für die Pandemie. Aber sie ist ein sehr wichtiger Fall, der das öffentliche Vertrauen bis heute zum Schlechteren prägt. Die Unsicherheit in der Evidenz haben wir bereits gesehen. Aber das tiefere Versagen war die Weigerung, sie einzugestehen. Verantwortliche auf allen Ebenen wiederholten ständig, dass „wir wissen, was gegen Covid-19 wirkt“, wie Macedo und Lee dokumentieren, „selbst als immer offensichtlicher wurde, dass die politisch Verantwortlichen improvisierten und in Wahrheit nicht mit Gewissheit wussten, was wirkte“. Gewissheit wurde dort beansprucht, wo sie nicht existierte. Die Wissenschaft kann Ihnen sagen, was eine Politik wahrscheinlich bewirken wird. Aber sie kann Ihnen nicht sagen, was Sie schätzen sollten, und etwas anderes vorzugeben verschleißt die Glaubwürdigkeit, die Sie das nächste Mal brauchen.

Die Kritikerinnen und Kritiker machten oft den spiegelbildlichen Fehler und behandelten das Fehlen einer sauberen Studie als Beweis, dass eine Maßnahme wertlos sei, was der auf einen nationalen Notstand vergrößerte Zahnseide-Fehler ist. Macedo und Lee tadeln beide Reflexe zugleich: Es war falsch, schreiben sie, „Maskenskeptiker zu verspotten und zu zensieren, ebenso wie es falsch war, mit Gewissheit zu behaupten, Masken wirkten nicht“. Und unter dem Geschrei lag der Zielkonflikt, den niemand benennen wollte. Die Studien zum Maskentragen maßen „nur eine Seite der Gleichung“, weisen sie darauf hin, und sagten „nichts über die Kosten des Maskentragens für das Lernen, die Kommunikation, die Sozialisation und das psychische Wohlbefinden von Kindern“, während Schulschließungen „armen Kindern am meisten schadeten“. Was beide Fehler teilen, ist eine Weigerung, das Ehrliche zu sagen: Die Evidenz war unvollständig, und die Entscheidungen bürdeten Menschen schwere Kosten auf, die nie eine Stimme dazu hatten.

Das „Folge der Wissenschaft“-Versagen nahm einen Streit über Werte, darüber, wie viel Gewicht man der Beschulung der Jungen gegenüber der Sicherheit der Alten beimisst, der Freiheit gegenüber der Vorsicht, und verkleidete ihn als technischen Disput, den die Daten bereits entschieden hätten. Bei der Einwanderung läuft ständig dasselbe Manöver. Vieles von dem, was wie ein Streit über Evidenz aussieht, ist in Wahrheit ein Streit darüber, was eine Regierung ihren eigenen Bürgerinnen und Bürgern gegenüber dem schuldet, was sie Ausländern schuldet. Kein Experiment kann Ihnen sagen, wie viel Sie den Lohn einer Bürgerin gegenüber der Sicherheit einer Fremden gewichten sollten oder ob eine vielfältigere Gesellschaft besser ist als eine geschlossenere.

Dies sind alles Wertfragen, und wenn Menschen ein bestimmtes Ergebnis wie eine vielfältigere Gesellschaft schlicht nicht wollen, wird keine saubere Schätzung, dass eine Politik es liefern würde, ihre Meinung ändern. Ich habe diesen Fall ausführlich dargelegt: Das Nützlichste, was Evidenz hier leisten kann, ist, einen Wertstreit zu disziplinieren, indem sie uns sagt, was eine bestimmte Politik kosten und hervorbringen wird. Sie kann den Wertstreit nicht zum Verschwinden bringen, und einen Wertkonflikt zu einem wissenschaftlichen umzudeuten, verbirgt meist nur, worum die Menschen tatsächlich streiten.

Dan Williams macht einen eng verwandten Punkt in seinem neuen Essay darüber, wie politische Stämme rivalisierende Wirklichkeiten konstruieren. Politische Uneinigkeit läuft oft durch rivalisierende Deutungssysteme, die entscheiden, welche Fakten zählen, was als repräsentativ gilt und wer in der Geschichte als Opfer, Schurke oder Held vorkommt. Deshalb enttäuschen Appelle an „die Evidenz“ so oft. Der Streit dreht sich teils um Fakten, aber auch um den Rahmen, der den Menschen sagt, was die Fakten bedeuten.

Nachweisbarer Nutzen

Auch keine randomisierte Studie wird Ihnen je alles sagen, was Sie über die Aufnahme einer produktiven, qualifizierten Arbeitskraft wissen wollen, die Steuern zahlt, einen dokumentierten Mangel deckt, ein Unternehmen gründet oder Patientinnen und Patienten in einer Stadt behandelt, die keine Ärztin gewinnen kann. Die Rückmeldung läuft hier durch eine Vielzahl von Institutionen, und man kann den Rest der Welt nicht festhalten, während man am Regler dreht. Doch die grundsätzliche Richtung ist keineswegs mysteriös. Eine politisch verantwortliche Person, die abwägt, ob sie mehr berechtigte Wissenschaftlerinnen und Wissenschaftler über ein spezialisiertes Visum lenkt oder einen unnötigen Rückstau bei Fachkräften abbaut, wird nie saubere experimentelle Evidenz haben, die die ganze Frage klärt, und darauf zu warten heißt nur, eine schlechte Ausgangslage fortbestehen zu lassen.

Deshalb ist qualifizierte Zuwanderung so beliebt: Ihr Nutzen ist intuitiv und sichtbar, ohne dass irgendjemand eine ökonometrische Arbeit liest. Etwa 80 Prozent der amerikanischen Wählerinnen und Wähler unterstützen die Einwanderung hochqualifizierter Menschen über Parteigrenzen hinweg, und politisch Verantwortliche, die darauf reagieren wollten, könnten das ungedeckelte O-1A-Visum für Personen mit außergewöhnlichen Fähigkeiten schon morgen straffen, ohne ein einziges neues Gesetz. Das ist es, was ich mit nachweislich vorteilhaft meine: eine Politik, deren Beitrag zum Land gewöhnliche Menschen in praktischen Begriffen sehen können und die ausdrücklich und unmittelbar dem nationalen Interesse dient. Die überzeugende Rahmung ist bereits in die Politik selbst eingebaut, sodass man keine Kampagne braucht, um sie zu erklären.

Aber Einwanderungspolitik zu gestalten ist natürlich nicht dasselbe wie Fallschirme auszuwählen. „Eine qualifizierte Arbeitskraft, die Steuern zahlt und einen dokumentierten Mangel deckt, ist ein Gewinn für das Land“ ist eine Behauptung, die so nah an eine beobachtbare Sättigung herankommt, wie soziale Tatsachen es nur tun. „Diese bestimmte Visumreform wird diesen Nutzen in genau diesem Ausmaß hervorbringen“ ist eine echte empirische Frage, die Identifikation braucht, und es ist die Art von Sache, deren Schätzung meine Kolleginnen und Kollegen ganze Laufbahnen widmen. Die zweite Behauptung zu behandeln, als wäre sie so selbstverständlich wie die erste, ist derselbe Fehler, den die Fallschirm-Autorinnen und -Autoren verspotteten, nur in eine freundlichere Richtung gezielt. Wie ich zuvor argumentiert habe, hat „Einwanderung“ im Abstrakten keinen sauberen Effekt, der darauf wartet, entdeckt zu werden; bestimmte Maßnahmen, die bestimmte Menschen nach bestimmten Regeln zulassen, haben ihn.

Nicht jeder sichtbare Nutzen ist so heikel wie Einwanderung. Da wir gerade von Zahnseide sprachen, betrachten Sie… die Idee einer japanischen Toilette. Man muss ein beheiztes Washlet nur ein- oder zweimal benutzen, um zu wissen, dass es das übertrifft, was die meisten gewöhnlichen Badezimmer bieten, und niemand braucht eine randomisierte Studie, die Sauberkeit oder Zufriedenheit misst, um die Sache zu klären, wie Noah Smith gerade argumentierte. Auch ich habe vor Kurzem eines gekauft, nachdem ich einige Zeit in Japan verbracht hatte, und habe dazu Meinungen.³ Ich bin ziemlich zuversichtlich, dass die Installation von Washlets im großen Stil, in Hotels und an Flughäfen, eine gute Politik für viele amerikanische Einrichtungen wäre, und ebenso sicher, dass sie in keinem ernsthaften Sinn evidenzbasiert sein muss. Die Blockade ist hier kein Mangel an Evidenz. Es sind unsere kulturellen Gewohnheiten, Bauvorschriften und die elektrische Verkabelung, auf die die meisten amerikanischen Badezimmer nie ausgelegt waren.

Nachweisbare Schäden

Dieselbe Logik läuft umgekehrt, und sie bringt hervor, was vielleicht die eindeutigste selbstzerstörerische Einwanderungspolitik in der reichen Welt ist: das Verbot, Asylsuchende arbeiten zu lassen, während ihre Anträge bearbeitet werden. In vielen Ländern dauert dieser Ausschluss ein halbes Jahr oder länger, und in der Praxis kann er sich noch weit länger hinziehen.

Bevor wir die Politik überhaupt betrachten, denken wir darüber nach, was dies einem Menschen antut. Eine Regierung nimmt einen Asylantrag zur Prüfung an, zahlt für die Unterbringung der antragstellenden Person, verbietet ihr dann die eine Tätigkeit, die es ihr erlauben würde, für sich selbst zu sorgen, einen Werdegang aufzubauen und dazuzugehören, nämlich Arbeit. Monate erzwungenen Müßiggangs zehren an den Ersparnissen, erodieren Fähigkeiten und untergraben die Gewohnheiten und das Selbstvertrauen, die jemanden beschäftigungsfähig machen, und der Schaden überdauert das Verbot um Jahre. Sie brauchen kein cleveres Instrument und keine randomisierte Studie, um zu erkennen, dass dies ein schlechter Handel ist.

Dann ist da die heikle Politik der Frage. Das Verbot erzeugt genau das Bild, auf das einwanderungsfeindliche Politikerinnen und Politiker als Beweis verweisen, dass das System kaputt ist: arbeitsfähige Neuankömmlinge, die in steuerfinanzierten Hotels untätig sind oder an Ampeln Obst verkaufen, weil ihnen die formelle Wirtschaft verschlossen ist. Diese sichtbare Abhängigkeit kann die Wählenden allgemeiner gegen Einwanderung einnehmen, auch gegen die qualifizierten Wege, die die Wählenden sonst mögen.

Wann immer ich argumentiere, dass Einwanderungspolitik intuitiv vorteilhaft sein muss, um populär zu bleiben, fragt jemand, wie eine nicht-vorteilhafte einwanderungsfreundliche Politik überhaupt aussähe. So sieht sie aus, und keine Menge aggregierter Evidenz über den langfristigen fiskalischen Beitrag von Geflüchteten wird eine Wählerin die sichtbare Unordnung der Asylkrise auf den Straßen vergessen lassen. Die ehrliche Lösung ist eine Politik, die das sichtbare Versagen gar nicht erst erzeugt.

Gegen das Evidenztheater

Es hilft zu sehen, warum die maximalistische Variante evidenzbasierter Politik ihre Verfechter immer wieder enttäuscht. Alles auf „die Wissenschaft“ zu setzen und sich dem zu beugen, worauf sich die Fachleute gerade einigen, liefert dennoch keine Politik, denn die schwierigsten Fragen sind nicht jene, für deren Beantwortung die Wissenschaft gemacht wurde. Macedo und Lee legen den Fall für Covid dar: Wissenschaftlerinnen und Wissenschaftler „mit ihren engen Wissensgrundlagen sollten keine Politik machen“, schreiben sie, weil die Entscheidungen von Werten und Zielkonflikten abhängen, die keine Studie abwägen kann. Dieselbe Lücke zeigt sich beim Klima, wo der Ökonom Matt Burgess argumentiert, dass die lauten Rahmungen, „kein großes Problem“ und „existenzielle Bedrohung“, beide wahrscheinlich falsch sind und dass verantwortliche Politik Zielkonflikte abwägen und beurteilen muss, welche Szenarien plausibel sind, etwas, das kein Verweis auf den Konsens klären kann. Und sie zeigt sich bei der Einwanderung, wo „die Evidenz“ von beiden Seiten angerufen wird, um zu klären, was im Grunde ein Streit darüber ist, was wir einander schulden.

Wie sieht das also in der Praxis aus, für jemanden, der Evidenz ernst nehmen will, ohne sich hinter ihr zu verstecken? Die folgenden Fragen helfen:

Welche Art von Behauptung steht tatsächlich zur Debatte: eine empirische, die Daten klären können, oder eine normative, die keine Regression je auflösen wird?

Welche Art von Rückmeldung erzeugt die Politik, und wäre eine saubere Studie überhaupt valide und verfügbar, bevor die Entscheidung getroffen werden muss?

Und was kostet es, die Evidenz zu beschaffen, was kostet es zu warten, und wer zahlt für die Verzögerung?

Wenn der Mechanismus klar und stark ist, der Nachteil umkehrbar ist und die Menschen, die profitieren würden, sich das Warten nicht leisten können, ist der ehrliche Schritt, jetzt zu handeln und im Verlauf weiter zu untersuchen. Und wenn die Uneinigkeit im Grunde über Werte geht, sollten die Fachleute das sagen, statt sie durch „die Wissenschaft“ zu waschen.

Von evidenzbasierter Politik zu ehrlichem demokratischem Urteil

Jede Studie hat einen Preis, und das hat auch jede Verzögerung. Der Autor Jeremiah Johnson benannte kürzlich einen Fehlermodus, den er die Tyrannei des Grenzfalls nennt, in einem Beitrag in The Argument, bei dem jeder denkbare Schaden für irgendjemanden, wie selten auch immer, zu einem Grund wird, dass niemand handelt, und die Forderung nach einer weiteren Studie gehört zu seinen liebsten Instrumenten. Diese Forderung fällt fast nie gleichmäßig: Die Latte steigt für die Reform, die jemand ablehnt, und verschwindet für den Status quo, der gewöhnlich auf gar keiner Studie beruht.

Eine isolierte Forderung nach Strenge, die nur auf die Schlussfolgerung zielt, zu der Sie lieber nicht gelangen würden, ist eine der wirksamsten Methoden, Handeln zu blockieren und dabei bewundernswert sorgfältig im Umgang mit der Evidenz zu klingen. Eine Studie durchzuführen bedeutet, Geld auszugeben, Zeit zu verbrennen und manchmal den Menschen in der Kontrollgruppe eine vielversprechende Politik vorzuenthalten, während jeder Monat des Wartens ein Monat ist, in dem die geltende Regel in Kraft bleibt. Sie können das gewöhnlich informell abwägen: Niemand braucht eine randomisierte Studie, um zu erkennen, dass es ein schlechter Handel ist, Menschen dafür zu bezahlen, untätig zu sitzen, wie es die Asylverbote tun, und ihnen das dann zu verübeln.

Die Disziplin, die das alles ehrlich hält, ist die Bereitschaft, zu sagen, was Sie umstimmen würde. Wenn ich behaupte, das Asyl-Arbeitsverbot sei offensichtlich nicht zu rechtfertigen, schulde ich Ihnen die Bedingungen, unter denen ich die Behauptung fallen ließe: solide Evidenz, dass es betrügerische Anträge in einem Ausmaß abschreckt, das Jahre verlorener Einkünfte und verzögerter Integration für Menschen wert ist, die andernfalls arbeiten würden. Ich habe diese Evidenz nicht gesehen, aber ich würde sie mir aufrichtig ansehen. Den Befund zu benennen, der Sie umstimmen würde, ist es, was ein erwogenes Urteil von einem bequemen trennt, und es ist ein Test, den die lautesten Verfechter „evidenzbasierter Politik“ allzu selten auf sich selbst anwenden.

Verstehen Sie mich nicht falsch—nichts davon ist ein Freibrief für Bauchgefühl. Die Fallschirmstudie ist witzig, weil offensichtlich niemand eine randomisierte Studie in der Höhe braucht, aber die meisten Entscheidungen, die zählen, sehen weniger aus wie ein Fallschirm und eher wie unser Einwanderungssystem: Die Evidenz ist unvollständig und die Rückmeldung ist langsam oder unsichtbar. Für solche Entscheidungen ist Evidenz unverzichtbar. Aber sie kann das schwierige Urteil dennoch nicht für Sie fällen, und ein gutes Urteil wird in einer Demokratie nicht lange überleben, sofern die Politik dahinter ihren Wert nicht in der Welt zeigen kann, in der gewöhnliche Bürgerinnen und Bürger jeder politischen Couleur tatsächlich leben.

Angeblich. Wie Scott Alexander es gut zusammengefasst hat: „Entweder sprang ein zoonotisches Virus fünfzehn Meilen vom größten Coronavirus-Labor der östlichen Hemisphäre entfernt auf Menschen über. Oder ein Laborleck-Virus rückte zuerst direkt neben einem Marderhund-Stand auf einem Nassmarkt in die öffentliche Aufmerksamkeit. So oder so ist es einer der größten Zufälle des Jahrhunderts, entworfen von einem kosmischen Spaßvogel, der die Debatte auf Jahre hinaus bissig halten wollte.“ ↩
Selbst in diesem Fall könnte man natürlich, wenn man über ein besseres Fallschirmdesign mit verschiedenen Feinheiten zu entscheiden hat, die Dinge systematisch messen wollen, ob durch eine randomisierte Studie oder eine Beobachtungsstudie. ↩
Eine TOTO Nexus, falls Sie fragen. Ich bin damit noch unausstehlicher geworden als sogar mit Europas Situation bei der Klimaanlage. ↩