La vigilancia con Pangram es el nuevo nazismo gramatical

El último escándalo sobre escritura con IA llegó, oportunamente, con el Papa. El 25 de mayo de 2026, el Vaticano publicó la primera encíclica del Papa León XIV, Magnifica Humanitas, fechada el 15 de mayo, sobre cómo proteger a la persona humana en la era de la inteligencia artificial. En cuestión de días, había quien la estaba metiendo en Pangram, el detector que de pronto se ha convertido en el instrumento respetable de la sospecha literaria y académica. Al parecer, algunas partes fueron señaladas como asistidas por IA, y la acusación era fácil de entender: el Papa, o al menos el Vaticano, había usado IA para escribir sobre la IA.

Mi reacción fue básicamente: bien, ¿y luego qué? Las encíclicas ya pasan por redacción institucional, trabajo de equipo, consulta, revisión, traducción y un pulido casi de comité. Si algún funcionario del Vaticano usó Claude para convertir las ideas del Papa León en prosa, las preguntas relevantes seguirían siendo si el documento es preciso, reflexivo y vale la pena leerlo. Pero debo admitir que me equivoqué.

En la Parte II de mi serie sobre IA escribí que los detectores de escritura con IA eran malos y probablemente seguirían siéndolo. Pangram me hizo cambiar de opinión: tiene evidencia independiente que lo respalda, afirma una tasa de falsos positivos muy baja y se ha convertido en el detector al que la gente recurre cuando sospecha que hubo escritura con IA sin declarar. Kelsey Piper escribió hace poco sobre las afirmaciones de Pangram Labs de que varios relatos premiados habían sido generados o sustancialmente asistidos por IA, y Matteo Wong, de The Atlantic, ha escrito ahora sobre el creciente poder de Pangram en las escuelas, la edición, el periodismo y toda la economía de la acusación por escritura con IA.

Que el detector funcione vuelve la ética más urgente, porque tienta a la gente a tratar la procedencia como un veredicto. Por eso el chiste de usar Pangram para filtrar el contenido escrito por humanos resulta más afilado de lo que parece a primera vista: en muchos contextos, la escritura asistida por IA puede ser más legible y más útil que la prosa humana sin ayuda. Si los datos de fondo son sólidos, el forcejeo humano a nivel de cada frase aporta poco.

También debo ser franco en que aquí soy parte interesada. Soy ese tristemente célebre profesor de IA que escribe con orgullo con ayuda de la IA. Un ensayo que sostiene que la detección de IA puede convertirse en vigilancia de estatus es, convenientemente, una defensa de mi propia práctica, así que el lector debería preguntarse si estoy trazando la línea de un modo que me favorece.

El espectro de la procedencia

La ética de escribir con IA empieza con la promesa que hizo quien escribe. Quien escribe puede hacerle una promesa a un docente, un editor, un lector, una institución o un destinatario. La pregunta ética depende de esa promesa antes de depender de la puntuación de un detector.

Empecemos por donde los escépticos tienen razón. Un trabajo escolar que prohíbe expresamente la IA es el caso evidente. Un concurso de escritura creativa que promete reconocer a nuevos autores humanos es otro. Una nota de pésame pertenece a una categoría distinta de la de un examen, pero si alguien que está de duelo espera palabras suyas, delegar el acto emocional en una máquina se siente como una traición.

Algunas decisiones también exigen un juicio humano que rinda cuentas. Si estoy decidiendo si alguien recibe una beca o una subvención, la procedencia importa porque al solicitante se le debe mi juicio. La IA puede ayudar a organizar la evidencia o a verificar la coherencia, pero el acto de evaluar tiene que seguir siendo mío.

Las consecuencias también importan. Cuanto más influyente es la decisión, y cuanto más depende del juicio personal, más fuerte es el argumento para saber quién o qué la tomó. La discreción humana también puede ser peor que la discreción de la IA: un comité puede ser sesgado o arbitrario, y un sistema de IA bien diseñado podría con el tiempo tomar algunas decisiones de manera más coherente.

Hay además una regla especial para las afirmaciones en primera persona. Cuando escribo “creo” o “siento”, esa convicción debería ser realmente mía. La IA puede ayudarme a formularla, a ponerla a prueba o a hacerla menos torpe. Lo que no puede es aportar la convicción misma.

La investigación y el periodismo se sitúan más cerca del medio. Una firma es la promesa de que el autor respalda las afirmaciones, la evidencia y los juicios. Nunca ha significado que el autor haya tecleado personalmente cada frase sin ayuda de buscadores, correctores de estilo, coautores, traductores o, ahora, modelos de lenguaje. Si mi nombre está en un argumento, el argumento tiene que ser mío; la prosa puede estar asistida.

Buena parte de la escritura técnica se sitúa más cerca del lado en que lo que importa es el contenido. Si le pido a la IA que describa un gráfico, escriba un párrafo de metodología o traduzca el resultado de una regresión al español corriente, la pregunta importante es si lo que produce es correcto. Aun así tengo que verificar los números y hacerme responsable del texto final. El peso moral lo cargan la precisión y la rendición de cuentas.

En el otro extremo están los mensajes administrativos en los que a casi nadie le importa el acto humano de escribir. Si un departamento le pide que envíe una nota cortés confirmando la reunión de un comité, use la IA con total libertad. El criterio relevante es si la nota es veraz y clara.

Una sola puntuación de IA no puede responder a la pregunta ética. El mismo nivel de asistencia de IA puede ser inofensivo en un correo administrativo, útil en un informe técnico, cuestionable en un ensayo personal y descalificante en un trabajo de clase con prohibición de IA. El contexto es lo decisivo, incluso cuando la detección de fondo sea precisa.

La detección también tiene su espectro

La ética de la detección debería seguir a la ética del uso. Si un docente ha indicado a los estudiantes que escriban sin IA en un trabajo concreto, un detector puede formar parte de un proceso de integridad académica. Una puntuación de Pangram nunca debería ser la única prueba, sobre todo dado lo que está en juego para los estudiantes.

Los concursos creativos enfrentan un problema parecido. El argumento de Piper sobre el Commonwealth Short Story Prize merece tomarse en serio, porque los premios de ficción tienen que ver en parte con el oficio humano. Si un premio recompensa la voz de un autor humano, una propuesta enteramente generada por IA viola la premisa. El organizador puede permitir la IA, prohibirla o crear una categoría aparte. La confianza por sí sola no resolverá el problema.

La revisión por pares es más difícil. Seth Lazar ofreció la versión más fuerte del argumento a favor de la detección en respuesta a mi publicación anterior sobre Pangram: la producción de investigación generada por IA puede convertirse en un ataque de denegación de servicio contra la revisión por pares. El costo de producir trabajos de apariencia plausible se desploma, mientras que la obligación de leerlos sigue siendo cara. En ese contexto, un detector puede ayudar a preservar la escasa capacidad de revisión.

El argumento de la revisión por pares aún depende del objetivo. Si el objetivo es atrapar a estudiantes que violan una regla explícita, la procedencia es lo que se busca. Si el objetivo es proteger a los revisores de envíos sin valor, la procedencia es solo un sustituto aproximado: un detector estima la probabilidad de que un texto sea de IA, nunca la probabilidad de que sea malo. El verdadero objetivo es el trabajo malo: datos inventados, citas falsas, métodos inexistentes y artículos sin ninguna pregunta que valga la pena responder. Un detector quizá ayude a clasificar parte de eso, pero alguien sigue teniendo que comprobar las afirmaciones reales.

Lo que me preocupa es que vigilemos las rayas largas mientras ignoramos los datos inventados que hay debajo de ellas. Esa sería una forma muy académica de perder el hilo: atención exquisita al marcador de superficie, poca atención a si la cosa dice algo verdadero.

Por qué la declaración casi siempre fracasa

El acuerdo obvio es declararlo. Que la gente use IA, que se le exija decirlo y que los lectores decidan cuánto importa. Eso suena atractivo porque trata la asistencia de IA como información y baja la temperatura moral.

Sostuve en la Parte II de la serie sobre IA que las normas de declaración se desmoronan bajo los incentivos que crean. La parte de aquel argumento sobre los detectores ahora necesita revisión, porque Pangram parece funcionar mucho mejor de lo que esperaba. La parte sobre la declaración sigue pareciéndome correcta.

Cuanto más cuestionable es éticamente el uso de IA, más fuerte es el incentivo para ocultarlo. Un estudiante que usó IA después de prometer escribir sin ayuda, un concursante que presentó ficción escrita por una máquina a un premio de escritura humana, o un investigador que usó IA para encubrir citas falsas tienen todos los motivos para callar.

Quienes más probablemente declaran son los que usan la IA de formas de bajo riesgo: pulir un párrafo, traducir un gráfico o convertir notas en bruto en prosa legible que sigue siendo suya. Esos son también los casos en que la declaración menos importa. El equilibrio probable es un mundo lleno de reconocimientos rituales sobre asistencia de IA inofensiva, mientras los casos genuinamente engañosos permanecen ocultos hasta que alguien los investiga.

La declaración aún puede ayudar cuando la declaración misma explica el trabajo, como ocurre aquí. Los editores, docentes, jurados de premios y quienes ejercen autoridad institucional también deberían ser claros sobre las reglas que aplican. Pero si todo el sistema depende de la confesión honesta, castigará a los concienzudos y dejará en paz a los usuarios estratégicos.

La nueva vigilancia gramatical

Sé que la expresión “nazismo gramatical” es áspera, y con ella quiero decir algo concreto. Nací en la Unión Soviética, y la cultura de las élites rusas puede ser intensamente sensible a la gramática, la pronunciación, la acentuación y los pequeños marcadores de estatus incrustados en el habla. En la práctica, la corrección gramatical a menudo cumplía también la función de clasificación social: la escuela equivocada, la región equivocada, el origen familiar equivocado o el tipo equivocado de educación podían filtrarse a través de cómo uno hablaba.

Estados Unidos tiene su propia versión de esto. El inglés académico está lleno de señales de estatus disfrazadas de estándares. La clase correcta de fluidez te hace sonar inteligente antes de que nadie compruebe si tienes razón, y el acento o el giro equivocados pueden marcarte como poco serio antes de que tu argumento siquiera reciba audiencia.

La detección de IA está convirtiendo este viejo hábito en un nuevo ritual técnico. Las mismas personas que antes vigilaban la gramática ahora vigilan los “indicios de IA”: las rayas largas, las transiciones suaves, las metáforas genéricas, los párrafos de un equilibrio extraño, la prosa que parece un poco demasiado pulcra. A veces tienen razón. La escritura con IA sí tiene patrones reconocibles, razón por la cual tengo una guía de estilo llena de ellos.

Si alguien lee un texto, aprende algo nuevo y luego hace que la conversación gire en torno a una frase sospechosa, el instinto Pangramatical ha hecho perder el tiempo a todo el mundo. La atención del lector debería ir primero a la afirmación, la evidencia y lo que se obtiene, dejando la vigilancia del estilo para los casos en que la prosa realmente bloquee la comprensión o delate un engaño.

Esta dinámica de estatus es muy conocida. La puntuación del detector da una licencia de apariencia científica para descartar un trabajo sin leerlo con atención. Los que se benefician suelen ser los autores ya establecidos y los guardianes con credenciales, capaces de convertir un juicio en una puntuación. La acusación resulta especialmente cómoda contra autores de menor estatus y personas que no escriben bien en inglés pero que ahora pueden usar la IA para traducir, redactar y llegar a un público anglófono. Demasiado pulido parece falso. Demasiado torpe parece de baja calidad. En cualquier caso, gana el guardián.

La lógica de la contaminación moral empeora el problema. Una vez que la participación de la IA se trata como una impureza, cualquier rastro de asistencia basta para condenar todo el trabajo. Es un criterio extraño para un mundo en el que la escritura humana siempre se ha producido socialmente, mediante editores, revisores, coautores, traductores y la frase que usted leyó ayer.

El equilibrio más cómico posible ya está aquí. Las herramientas de IA escriben prosa demasiado clara, los detectores castigan la claridad y entonces nuevas herramientas “humanizadoras” reescriben la prosa para que parezca más torpe. TIME describió hace poco a personas que insertan errores y rarezas para no sonar generadas por IA. Esto es Grammarly al revés: empeorar la escritura para que parezca más auténtica.

Qué hacer en su lugar

Defiendo la modestia con los detectores. Pangram solo debería usarse donde la procedencia forma parte del acuerdo: exámenes con reglas explícitas de no usar IA, concursos que prometen oficio humano o contextos institucionales donde la fuente del texto es parte del trabajo. La regla institucional debería escribirse antes de consultar la puntuación: definir qué uso de IA violaría la promesa y qué proceso de apelación sigue a una puntuación alta.

En muchos ámbitos, el criterio debería ser bastante simple: si pone su nombre en el trabajo, es suyo. Suyos son los hechos, las afirmaciones, los errores, el gusto, la estructura y el juicio. Si la IA le ayudó a producir un resumen técnico preciso, bien. Si la IA le ayudó a producir tonterías más rápido, eso corre por su cuenta.

Como la atención es escasa, la gente seguirá recurriendo a atajos. Confiará en nombres que conoce, revistas que respeta, editores con trayectoria, amigos que han leído el trabajo e instituciones que tienen algo que perder si publican basura. Eso es imperfecto y a menudo injusto. Los de fuera y los recién llegados pagan un precio cuando la reputación se vuelve el filtro. Pero al menos la reputación rinde cuentas con el tiempo. Si una revista, un premio, un profesor o un autor sigue avalando trabajos malos, la gente puede darse cuenta.

Una puntuación de Pangram es distinta. Da una conjetura rápida sobre la procedencia de un texto y nos invita a dejar de leer antes de habernos preguntado qué está haciendo el texto. Pangram parece funcionar, así que la pregunta ya no es si podemos detectar la IA. La pregunta es qué deberíamos hacer con esa información. Úsela cuando la procedencia forme parte del trato y lo que está en juego justifique una investigación. Trátela como un detonante del juicio, nunca como un sustituto del juicio.

Si el trabajo es falso, erróneo, plagiado, emocionalmente fraudulento o viola una regla clara, dígalo y actúe en consecuencia. Si el trabajo es preciso, útil y propiedad de la persona cuyo nombre lo firma, el hecho de que Codex, Claude o ChatGPT ayudaran a armar las frases es una base débil para el escándalo. El escándalo sería construir una cultura en la que todos aprenden a empeorar la escritura para que pase por humana.

Una última declaración, ya que todo el texto trata sobre esta cuestión: el ensayo anterior se escribió enteramente en Codex a partir de varias horas de pensamientos dictados por mí, publicaciones anteriores, instrucciones de estilo que tengo guardadas e intercambios recientes en redes sociales. La imagen de portada y el gráfico del espectro también los produjo Codex. No fue un único prompt. Pasamos por más de una docena de iteraciones, sobre todo afinando el argumento y el gráfico. Sí, ahora estoy usando Codex más que Claude Code. Sí, leí el borrador antes de publicarlo, pero no edité la prosa línea por línea en absoluto. Según mi propio gráfico, este ensayo se sitúa en el lado del espectro donde lo que importa es el contenido, y lo respaldo.