학자들은 AI에 대해 깨어나야 한다, 3부

좋아요, 공유, 댓글, 구독을 눌러 주세요. 별도의 후원 없이도 뉴스레터 성장에 큰 도움이 됩니다. 읽어 주셔서 감사합니다.

1부에서 나는 AI가 이미 대부분의 교수보다 사회과학 연구를 더 잘 수행할 수 있다고 주장했다. 2부에서는 천 건이 넘는 반응을 검토하며, 비판자들이 옳았던 지점은 인정하되 핵심 주장은 고수했다. 학계의 현상 유지는 이미 망가져 있었으며, AI는 그 청산을 강제하고 있을 뿐이라는 것이다.¹ 이번 3부는 지난 한 달간 AI 및 동료 연구자들과의 협력을 통해 작성했다. 진단에서 벗어나, 학자들이 실제로 무엇을 할 수 있고 무엇을 할 수 없는지를 다룬다.

이번 AI 시리즈의 세 번째 편이 나오게 된 직접적 계기는 다소 예상 밖이었다. 바로 오하이오주 콜럼버스에서 열린 2026년 국제학술협회(ISA) 연례 학술대회 참가였다. 세계 최고 국제학 전문가들이 모이는 권위 있는 다학제 학술대회라고 들었다. 그런데 내가 실제로 목격한 것은 내 수업에서라면 C학점도 주기 어려운 발표들이었다. 논지도 일관성도 없는 주장, 어떤 맞춤법 검사기도 잡아냈을 문법 오류, 자신이 발표하는 내용을 처음 접하는 것처럼 슬라이드를 그대로 읽어 내려가는 발표자들. 오탈자와 비일관성이 곳곳에 있었으니, AI가 개입한 흔적도 딱히 없어 보였다. 발표자들은 박사 과정생이 아니라 박사 학위, 종신재직권, 연구 예산을 갖춘 사람들이었다.

AI 슬롭이 모두가 경고하는 위기라면, ISA나 다른 대형 사회과학 학술대회에서 내가 본 것은 뭐라고 불러야 할까.² 대조는 너무나 극명했다. AI가 대부분의 교수보다 연구를 더 잘 한다고 말했다는 이유로 온라인에서 해고 요구와 살해 위협을 받고 있던 바로 그 순간, 나는 그 발표들을 듣고 앉아 있었다. 그 병치가 이 글의 논지를 명확하게 해 주었다.

21. 대부분의 “슬롭”은 언제나 그랬듯 지금도 인간이 만든 슬롭이다.

나의 첫 번째 주장은 내가 한 말 중 가장 도발적인 것이었고, 이후 약간 수정했을 뿐이다. 에이전틱 AI는 이미 전 세계 대부분의 교수보다 대부분의 사회과학 연구 과제를 더 잘 수행할 수 있다. 나는 여전히 이 주장을 지지한다. 최근 Chronicle과의 인터뷰에서 그들은 이를 더 직설적으로 표현했다. “AI가 당신보다 더 나은 연구자다.” 그래도 믿지 못하겠다면, 몇 년 후에 다시 이야기하자.

그런데 동전의 반대 면도 마찬가지로 중요하다. AI가 교수보다 더 나은 연구 결과물을 생산할 수 있다면, 그것은 또한 그 교수들이 AI 없이 생산해 왔고 지금도 생산하고 있는 결과물에 대한 유죄 선고이기도 하다.

“슬롭”은 Merriam-Webster의 2025년 올해의 단어로, AI가 생산하는 저품질 디지털 콘텐츠로 정의된다. 그러나 ISA 학술대회는, 슬롭의 압도적 다수가 언제나 인간이 만든 슬롭이었음을 상기시켜 주었다. 인문학과 사회과학의 상당 부분에서, 학술지 시스템과 대형 학술대회는 누구도 ChatGPT를 구독하기 훨씬 전부터 슬롭 공장이었다. 그렇다, 나는 정말로 대부분의 연구가 슬롭이라는 말을 하고 있다.³

그 중 일부는 철학자 해리 프랭크퍼트가 “헛소리“라고 부를 만한 것이기도 하다. 주장의 진실성에는 무관심한 채, 특히 이민처럼 정치적으로 민감한 주제에서 좌파적 결론을 먼저 내놓고 거꾸로 논리를 끼워 맞추는 연구들 말이다. 그러나 슬롭은 헛소리보다 범위가 넓다. 어떤 주장도 하지 않는 연구, 장인적 가치를 지녀야 하는데 그러지 못하는 연구도 포함된다. 질문을 먼저 만들지 않고 데이터셋부터 찾아 유의미한 결과를 건져 올리는 연구자는 슬롭을 생산하는 것이다. 이런 연구자들은 AI보다 훨씬 전부터 존재했다. 다만 속도가 느렸을 뿐이다.

이것은 2025년 5월에 제출되어 2026년 3월 오하이오주 콜럼버스 ISA 학회 발표로 채택된, 어느 사회과학 교수의 연구 프로젝트의 실제 결론 슬라이드입니다(논문은 제공되지 않았습니다).

22. 학자들은 AI 이전부터 환각하고 부정행위를 저질렀다.

AI가 학계에서 일으킨다는 환각과 부정행위에 대한 우려는, 사실 수십 년, 아니 수백 년 전부터 존재해 온 문제들이다. 이달 Nature에 발표된 대규모 프로젝트(나도 소규모로 참여했다)는 수백 편의 사회과학 논문을 검증했다. 통계적으로 유의미한 주장 중 절반 정도만 재현되었으며, 효과 크기의 중앙값은 대폭 축소되었다. 이 연구는 심리학 분야만을 대상으로 한 2015년 열린과학협력 연구의 결과, 즉 연구 결과의 약 3분의 2가 재현에 실패한다는 발견을 다른 분야로 확장한 것이다.

AI가 등장하기 전에는 이런 것들을 “환각”이라고 부르지 않았다. 우리는 그것을 “과학”이라고 불렀다. 생각해 보면, 환각과 영감은 들리는 것만큼 그리 다르지 않다. 둘 다 입력값을 넘어서는 조합을 만들어 낸다. 결과가 틀리면 환각이라 부르고, 옳으면 획기적 발견이라고 부를 뿐이다.

한편, 학자들은 초록 이상은 읽지 않은 논문을 일상적으로 인용한다.⁴ 적어도 AI의 환각률은 추적되고 개선되고 있다. 학계에서 인간의 환각률은 전혀 추적되지 않는다. 우리는 그냥 그것을 “문헌에 대한 기여”라고 부를 뿐이다. 그리고 당신이 동료 심사자라면 직접 환각할 필요도 없다. “나를 인용해 달라”고 적고 넘어가면 그만이다.

물론 탁월한 연구도 분명히 있다. 그러나 AI를 이용한 부정행위를 걱정하기 전에, 잠시 인간의 부정행위를 직시해 보자. 디데리크 스타펠, 마크 하우저, 프란체스카 지노, 댄 에리얼리. 고위급 연구 사기 사건 목록은 계속 늘어나고 있으며, 이들은 들킨 사람들에 불과하다. 노골적인 조작 외에도, p-해킹, HARKing(결과를 알고 난 뒤에 가설을 세우기), 선택적 보고는 오랫동안 너무나 만연해 사실상 위반으로 인식조차 되지 않았다. 이런 관행들을 이해하는 데 있어 실질적인 진전이 있었지만, 이것들은 여전히 무엇이 출판되는지를 형성할 만큼 광범위하게 남아 있다. 이 모든 것 위에, 선임 교수들은 대학원생들이 주로 작성한 논문에 자신의 이름을 올려 왔고, 유명 학자의 이름 아래 연구 조수 팀이 조합한 책들이 출판되어 왔다. AI가 이 과정을 더 저렴하고 더 가시적으로 만들기 전까지는 누구도 이것을 부정행위라고 여기지 않았다.

23. “확률적 앵무새” 비유는 AI보다 인간에게 더 잘 들어맞는다.

AI 논쟁에서 가장 영향력 있는 슬로건 중 하나⁵는 언제나 사고를 중단시키는 진부한 표현으로 기능해 왔다. Cate Hall이 지적했듯, 이것은 강력한 조어다. 말하기 재미있고, 개념적으로 효율적이며, 오늘날의 모델에는 사실이 아님에도 불구하고 많은 사람들의 머릿속을 영구적으로 점령했다. 진정한 언어 예술 작품이다. 동시에 경험적으로 틀렸다. GPT-4 이후 모든 주요 프런티어 모델은 비텍스트 입력으로도 훈련되었으며, 원래 주장의 논리 자체가 텍스트 전용 훈련을 전제로 한다.

이제 전혀 다르지만 여전히 매우 친숙한 것을 생각해 보자. “이 집은 믿습니다” 앞마당 표지판. 과학은 실재합니다. 사랑은 사랑입니다. 불법 인간은 없습니다. 모든 문구를 믿을 수 있어도, 이 문제들 중 어느 것에 대해서도 일관된 정책적 입장을 가질 수 없다. “불법 인간은 없다”는 말이 단속 정책에 대해 무엇을 함의하는가? 국경 개방? 사면? 다른 무언가? 표지판은 말하지 않는다. 말하면 모순과 직면해야 하기 때문이다. 이것은 주장이 아니라 충성 맹세다.

사람들은 수년간 이 표지판을 비웃어 왔다.

그러나 더 깊은 요점은, 이것이 바로 AI가 비판받는 것과 정확히 같다는 것이다. 의미보다 소속감을 전달하는 피상적이고 기분 좋은 말들. 알고 보니 인간은 AI가 있든 없든, 앞마당에 표지판을 꽂을 잔디밭이 생긴 이래로 쭉 그렇게 해 왔다.

이 표지판은 예외가 아니다. 그것은 대부분의 사람들이 대부분의 문제를 대하는 방식이다. 자기 집단의 입장을 채택하고, 반복하고, 넘어간다. 주장의 실질적 내용은 프레이밍보다 훨씬 중요하지만, 프레이밍이 더 쉽다. 그래서 Twitter 스레드부터 학술대회 발표까지, 프레이밍이 공론장을 지배하는 것이다.

나는 ISA에서 이것을 직접 목격했다. 종신재직권을 가진 동료들이, 과학의 외관을 부여하기 위한 몇 가지 잘못 적용된 회귀분석이 덧붙여진, 앞마당 표지판의 학문적 등가물에 해당하는 연구를 발표했다. 확률적 앵무새 비판은 AI를 격하하려는 의도였다. 그런데 결국 그것은 의도했던 것보다 인간 지적 삶을 더 잘 묘사하는 표현이 되었다.

24. 그렇다, 동의하는 성인들은 글쓰기에 AI를 사용할 수 있다. 이를 단속하는 것은 효과가 없다.

2부에서 나는 AI 감지기가 대개 그다지 유용하지 않으며 해결보다 더 많은 문제를 일으킨다고 언급했다. 그러나 더 깊은 문제는 그 이면의 충동이다. 결과물과 무관하게 AI의 개입이 본질적으로 오염을 일으킨다는 믿음. Quinn Que는 AI 글쓰기 감지기에 대한 집착이 19세기 미국의 인종 분류 원칙인 “일방울 규칙”과 유사하다는 흥미로운 주장을 펼친다. AI의 흔적이 조금이라도 있으면 품질이나 저자의 의도에 상관없이 전체 작품이 오염된다는 것이다.

처음에는 이 비유에 회의적이었지만, 꽤 적절하다. 반-AI 운동가의 시각에서, 직접 쓰지 않은 단어는 모두 도덕적 오염이다. 글쓰기에 AI를 사용하는 것이 기술적으로 “불법”은 아니지만, 당신이 정당한 작가인지 사기꾼인지, 좋은 사람인지 나쁜 사람인지를 가르는 일방울 규칙이 사실상 존재한다. 그래서 나처럼 AI 사용을 공개하는 사람들에게 “기계에 사고를 외주화한다”는 비난과 살해 위협이 날아드는 것이다.

1부에서 주장했듯, AI에 대한 반대의 상당 부분은 원칙으로 포장된 지위 보호다. Andy Masley는 여기서 더 나아가, 챗봇 도덕적 공황의 근원이 지위 프로젝트를 넘어서는 무언가에 있을 수 있다고 주장한다. 그 근원은 미신(“챗봇은 악마적이다”)에 가깝다. AI가 생산한 텍스트는 영적으로 오염되어 있으며, 무엇을 쓰든 간에 글을 쓸 수 있는 기계에는 뭔가 잘못되거나 심지어 사악한 것이 있다는 감각이다.⁶

최근 AI 사용을 명예롭게 공개하며 학자들이 Bluesky에서 몇 달 전에 나눴던 것과 같은 대화를 언론인들 사이에서도 촉발시킨 Megan McArdle조차도, “AI가 원고에는 손대지 않았다”고 주장하며 자신을 방어해야 한다고 느꼈다. 나는 그녀가 입장을 밝힌 것을 높이 평가한다. 그러나 원고 문제가 왜 쟁점이 되어야 하는가? 결과물이 좋고 과정이 공개되었다면, 나머지는 윤리로 포장된 미적 선호일 뿐이다. 불순함은 어디서 시작하는가? Google 검색? 자동 수정? 맞춤법 검사? 자동 전사?

이 모든 것을 차치하더라도, AI 대재앙 이후 인류가 기술을 금지하기로 합의하는 듀나 스타일의 시나리오가 아닌 한, 현재의 유인 구조를 고려할 때 AI를 활용한 논픽션 글쓰기의 확산은 균형 상태에서 거의 불가피하다. 덧붙여 말할 가치가 있는 반대 측면도 있다. AI의 오염 없이 완전히 독자적으로 잘 쓸 수 있다 해도, 그 순수함에 대한 보상이 곧 주어지지는 않을 것이다.

이것은 어느 역사학자의 최근 실제 공개 게시물입니다. 적어도 단기적으로는 이 사람이 성공하기를 바라지만, 모든 것이 헛수고가 되고 그저 스스로 창피만 당하는 것은 아닌지 걱정됩니다 :(

25. 연구와 글쓰기에 최신 AI 도구를 사용하지 않는 것은 직무 유기다.

Matthew Yglesias는 최근 대규모 언어 모델이 저널리즘에서 충분히 활용되지 못하고 있다고 주장했다. 이 주장은 학자들에게도 똑같이 적용된다. 연구의 목적은 유용한 결과물이지, 인간이 매개하는 과정이 아니다. 엄밀함은 사고와 검증에 있어야 하며, 인간이 타이핑했는지 기계가 했는지, 혹은 R로 회귀분석 실행 버튼을 인간이 눌렀는지에 있어서는 안 된다. Hollis Robbins가 잘 표현했듯, 교수들은 아마도 아침 식사 전에 AI 모델을 테스트해야 할 것이다(기본적으로 Scott Cunningham처럼 되라는 것이다).

AI의 가장 기본적인 활용은 오류 잡기다. 2026년 4월 3일 New York Times 헤드라인을 생각해 보자. “America 없는 North American Treaty Organization?” 물론 올바른 명칭은 North Atlantic Treaty Organization이다. Times는 다음 날 정정문을 냈다. 일부는 이 오류가 AI로 인한 것이라고 추측했다. 우리는 알 수 없고, 솔직히 중요하지도 않다. 충분히 스마트한 LLM 워크플로우라면 이 실수를 초 단위로 잡아낼 수 있었을 것이다. 모든 헤드라인에 대한 간단한 자동 루틴, “이 내용에 오류가 있는가? 두 개의 독립적인 출처에서 확인하라”만 있었어도 Times는 망신 한 사이클을 피할 수 있었다.

그러나 사실 확인은 바닥이지 천장이 아니다. 더 흥미로운 활용은 이전에는 불가능했던 것들을 하는 것이다. 이제 공동 저자가 된 Kelsey Piper는 최근 Codex를 이용해 자신이 검토 중이던 정치학 논문을 진짜로 이해하는 데 도움이 되는 인터랙티브 웹사이트를 만들고, 그 연구의 참여자들이 했던 방식 그대로 과제를 직접 수행해 보았다. AI는 결과물을 생산하는 데 걸리는 시간을 단축할 뿐만이 아니다. 대부분의 연구자들이 건너뛰는 종류의 능동적 참여 비용을 낮춘다. 직접 만들어 보고, 주장을 압박 테스트하고, 참여자들이 했던 방식대로 분석을 다시 돌려보는 것. 그것이 진정한 이해가 필요로 하는 것이다.

같은 원칙이 학계에도 적용된다. 내가 콜럼버스에서 참석한 ISA 발표의 절반은 ChatGPT를 한 번 거치는 것만으로도 의미 있게 개선될 수 있었다. 문법 검사, 논지 다듬기, 논리적 허점 잡기. 이 도구들은 무료거나 거의 무료다. 이 도구들을 사용하지 않기로 선택하는 것은, 특히 자신의 소명이 대중을 계몽하는 것이라면, 할 수 있는 것보다 더 나쁜 결과물을 내놓기로 선택하는 것이다. 그러나 언론인과 학자 모두 헤드라인의 오탈자를 잡기 위해서만 AI를 사용해서는 안 된다. 인터랙티브 시각화를 만들고, 주장을 압박 테스트하고, 자신이 쓰는 복잡한 것들을 진정으로 이해하기 위해 사용해야 한다.

그렇다면 글쓰기 자체는? 글쓰기에 AI를 사용하는 사람들에 대한 흔한 반응을 들어 봤을 것이다. “기사를 읽느니 그 기사를 만든 프롬프트를 읽는 게 낫지 않나?” 그럴싸하게 들리지 않는가? 아니다, 조금만 생각해 보면.

재료 목록 대신 왜 음식을 먹는가? ggplot 스크립트 대신 왜 차트를 보는가? 저자의 메모 대신 왜 책을 읽는가? 프롬프트는 새로운 지식을 주지 않는다. 결과물이 준다. 그것이 핵심이다. 2부에서 주장했듯, 서로 다른 전문성, 데이터, 맥락을 가진 사람들(claude.md 파일에 반영된)은 같은 프롬프트에서 전혀 다른 결과물을 만들어 낸다. 실력 문제다.

이해한다. 저자가 생산하는 데 걸린 시간보다 읽는 데 더 많은 시간을 쓰는 것이 이상하게 느껴질 수 있다. 그러나 우리는 이런 일을 겪어 본 적이 있다. R에서 초 단위로 생성된 차트를 신중하게 읽는 데는 몇 분이 걸릴 수 있다. 아무도 차트 대신 코드만 보여 달라고 요구하거나 그것을 상상하지 않는다. 사람들은 차트와 그것이 말하는 것을, 즉 이전에는 없던 새로운 지식을 평가한다.

26. LLM은 실제로 새로운 지식을 생산할 수 있다.

John Burn-Murdoch가 최근 기록한 바와 같이, AI 챗봇은 일관되게 사용자들을 전문가 합의 쪽으로 이끌었다. 소셜 미디어가 하는 것과 정반대다. 이 도구들은 단지 더 잘 쓰도록 도울 뿐만이 아니다. 능동적으로 사용하면 더 신중하게 생각하도록 도와준다.⁷ 이런 방식으로 LLM은 포퓰리즘의 부상을 역전시킬 수도 있다. 그러나 사실 확인이 새로운 지식을 생산하는 것은 아니다.

LLM이 진정으로 새로운 아이디어를 생산할 수 있는지(좋은 사례들이 있다) 묻기 전에, 얼마나 많은 인간이 그렇게 하는지를 물어보아야 한다. 대부분의 학자들은 기존 아이디어를 사소한 변형으로 재조합하고, 같은 방법론을 약간 다른 데이터셋에 적용하며, 자신의 세부 분야 밖의 누구도 읽지 않을 점진적 연구를 생산하는 데 경력을 보낸다. 독창적 사고는 어느 세대에서나 극히 어렵고 드물다. 이것은 어떤 동료(혹은 나 자신)에 대한 모욕으로 하는 말이 아니다. 그러나 LLM이 넘어야 할 기준은 우리가 인정하려는 것보다 낮다.⁸

내 친구 Robert Kubinec은 사우스캐롤라이나 대학의 뛰어난 정치방법론학자이자 출판된 소설 작가⁹로, AI 과대광고의 상당 부분에 회의적인 것 같다. 그는 “LLM은 결코 지식을 창출하지 못하며, 지식은 오직 인간의 두뇌에만 존재한다. LLM은 단지 하나의 지식 집합을 다른 것과 비교할 수 있을 뿐이다”라고 주장한다. 나는 Bob을 존중하므로 우리가 의견을 달리해도 괜찮다. 나의 답변은 이렇다. 자기 인식에 관한 철학적 질문은 실재하지만, 실용적인 질문과는 별개다. 모델이 무언가를 “이해”하는지 여부와 관계없이, 결과물이 인간에게 유용한 새로운 정보를 담고 있는지 아닌지가 중요하다.¹⁰

가장 시사적인 최근 사례는 Anthropic의 새 프런티어 모델인 Claude Mythos다. 몇 주간의 테스트에서 주요 운영체제와 브라우저에서 이전에는 알려지지 않았던 수천 개의 보안 취약점을 발견했으며, 그 중 하나는 27년 동안 탐지되지 않은 것이었다. 그것을 뭐라고 부르든, “하나의 지식 집합을 다른 것과 비교한다”는 표현으로는 충분히 설명되지 않는다.

사회과학의 최고 개념 이론들은 이미 기존 아이디어의 재조합이다. Anthony Downs는 경제학의 합리적 선택 이론 중 효용 극대화를 투표에 이식해 자신의 책을 민주주의의 경제 이론이라고 아예 부르기도 했다. Baumgartner와 Jones는 진화생물학에서 단속평형 이론을 빌려 정책 결정에 적용했다. 사회 네트워크 분석은 수학에서 그래프 이론을 통째로 수입했다. Axelrod는 죄수의 딜레마와 진화적 적합도 선택을 결합했다. Alexander Wendt는 더 나아가 양자론을 국제관계에 적용했다. Quantum Mind and Social Science에서 그가 취한 이 행보를 많은 이들이 (당연히) 우스꽝스럽게 여겼지만, Cambridge University Press는 여전히 출판했다. 사회과학은 처음부터 발명하는 경우가 드물다. 분야를 가로질러 번역하며, 그 번역이 이론적 기여다.

이것은 LLM이 하는 것과 구조적으로 동일하다. 맥락을 가로질러 패턴과 개념을 재조합한다. 때로는 결과가 터무니없다. 때로는 생산적이다. 인간의 재조합도 마찬가지다. Wendt의 양자 국제관계는 물리학으로 가장한 단순한 은유라는 비판을 받았지만, 앞서 언급했듯 Cambridge University Press는 출판했다. 그것이 지식 생산으로 인정된다면, LLM이 생성한 재조합은 왜 안 되는지 이해하기 어렵다.

그의 공을 인정해야 할 것이, Bob은 철학적 입장을 유지하면서도 실용적인 요점은 인정했다. “이 능력을 지식 발전에 어떻게 사용할 것인가가 문제다.” 정확하다. 1부에서 말했듯, 가장 많은 것이 걸린 사람들이 이미 도구를 사용해 연구를 개선하고 있는 동안 LLM이 “진정으로 이해”하는지를 논쟁하는 것을 멈추어야 한다.

27. 비판자들이 AI 사용자에 대해 갖는 정신 모델은 2023년에 머물러 있다. 그건 아주 오래 전이다.

어떻게 이 상황에 이르게 되었는지 기억해 보자. 학생들은 ChatGPT 3.5 같은 최초의 공개 무료 모델을 사용하면서 교수들보다 먼저 AI에 열광했다. 그 결과 많은 교수와 지식인들은 전형적인 AI 사용자를 논문 부정행위를 하려는 학부생이나 AI 슬롭을 제출하는 조수로 여전히 상상한다. 이것이 세계 대부분의 지역에서 많은 일상적 AI 사용을 여전히 설명할지도 모른다. 그러나 대부분의 분야에서 최고 연구자들이 이 도구들로 작업하는 방식이나, AI를 책임감 있고 신중하게 사용하려는 사람들이 실제로 운용하는 방식은 그렇지 않다.

Stefan Schubert가 이것을 가장 잘 짚었다. 우리는 다른 사람들의 합리성을 과소평가하며, 그들이 실제로 그러는 것보다 새 도구를 훨씬 더 무분별하게 적용한다고 가정한다. ChatGPT에게 논문 전체를 써달라고 요청하는 것과 모든 단어를 직접 적는 것 사이에는 광대한 공간이 있다. “직접” 쓸 때도 당신은 이미 지름길을 사용하고 있다. 모든 참고 자료에 대해 심층 연구를 하지 않는다. 통계를 Google로 검색해 헤드라인 숫자를 신뢰한다. 초록을 훑어보고 논문을 인용한다. 자원이 있다면 연구 조수나 팩트 체커에게 검증을 위탁한다. AI는 이 모든 것을 더 체계적이고 자동화된, 더 저렴한 방식으로 할 수 있게 해 준다.

많은 사람들처럼 Derek Thompson은 글쓰기가 사고이며, 전체 글쓰기 과정을 AI에 위탁하면 정신이 공허해진다고 정당하게 믿는다. 그러나 많은 글쓰기가 사고이긴 해도, 사고는 글쓰기만이 아니다. 예술을 만드는 것도 사고다. 말하는 것도 사고다. Dina Pisareva가 주장하듯, 상대방이 좋은 소크라테스적 파트너라면 프롬프트 작성도 사고다.

Thompson은 모든 글쓰기가 언제나 아이디어, 사실, 편집, 팩트 체킹을 위해 저자의 마음 밖으로 뻗어 나가는 과정을 포함해 왔다는 것도 인정한다. 정당한 도움과 부당한 외주화 사이의 경계는 언제나 모호했으며, AI가 그 모호함을 만든 것이 아니다. AI는 그것을 무시하기 불가능하게 만들었을 뿐이다. Thompson 자신의 결론은 이렇다. “Claude 창을 열어 놓은 모든 사람을 슬롭계급의 일원으로 선언하기보다는 그 모호함에 대해 솔직하고 개방적이어야 한다.”

그렇다면 공개는 어디에 위치하는가? 많은 선한 사람들과 주요 학술지들이 완전한 AI 사용 공개를 해결책으로 제안한다. 그러나 공개는 게임이론적 의미에서 지속 가능하지 않다. 공개자는 평판 비용을 부담하는 반면 비밀 사용자는 무임승차하므로, 균형점은 비공개 쪽으로 밀린다. Megan McArdle과 나 같은 사람들이 모두 이 문제의 살아있는 증거다. Ryan Briggs가 표현하듯 더 나은 프레이밍은, AI가 전문성을 보완한다는 것이다. 당신의 연구를 확인하고, 논지를 형식화하며, 필요에 따라 데이터를 수집하는 자동화된 연구 조수. 역량 있는 사람들이 더 잘, 더 빠르게 생각할 수 있게 하는 배율기다.

나의 판단으로는 공개가 진정으로 요구되는 유일한 경우는, 청중이 완전히 인간이 생산한 결과물을 합리적으로 기대하며 그 기대가 그들이 지불하는 대가의 일부인 경우다. 가장 좋은 비유는 개인적 또는 창작적 글쓰기의 좁은 사례에서의 라이브 콘서트다. 라이브 공연을 기대하고 왔는데 아티스트가 립싱크를 하고 있다면, 그것은 정당한 불만이다. 더 정확히 말하면, 공개는 비공개가 청중에게 그들이 받고 있는 것에 대해 오해를 유발할 때 요구된다. 자신의 이름으로 발행하는 기자는 책임성과 독창성을 약속하는 것이지, 키스트로크의 출처를 약속하는 것이 아니다. 회고록 작가는 둘 다 약속한다. 검증 기준은 저자가 자신의 이름을 걸고 있는 것이지, 도구가 관여되었는지 여부가 아니다.

그러나 과학과 저널리즘은 라이브 쇼가 아니다. 새로운 지식을 발견하고 공유하는 것이다. 아무도 맞춤법 검사기, 연구 조수, Google 검색을 사용했다고 공개하지 않는다. 창작 글쓰기와 예술에 대한 규범은 다를 것이다. 청중이 그 안에서 만드는 인간적 경험에 대해 부분적으로 지불하기 때문이다. 인문학은 아마도 길고 논쟁적인 과정을 통해 중간 어딘가에 자리를 잡을 것이고, 그 과정에서 많은 우정이 깨질 것이다. 그러나 연구와 저널리즘에서 “모든 것을 공개하라”는 것은 우리가 가야 할 곳으로 이끌지 않는다. 독자들이 신경 써야 할 것은 정확성과 저자가 페이지에 있는 내용에 대해 완전한 책임을 지는지 여부다. 출처는 그 두 가지보다 훨씬 약한 신호다.

28. 나를 포함해 아무도 아무것도 모른다. 괜찮다 — 함께 해결해 나갈 것이다.

나는 AI에 대해 어떤 의미에서도 전문가가 아니기 때문에 처음에는 언론인들과 이야기하는 것을 꺼렸다. 그러나 그 모든 것이 무엇인지에 대해 진정한 전문가는 없으며, 정말로 없고, 전문가가 나타나기를 기다리는 것은 아무런 규범도 없는 상태로 끝나는 방법임을 점점 깨닫고 있다. 나는 여전히 Claude Code(또는 당신이 선택하는 에이전틱 도구)를 설치하고 당면한 문제를 해결하기 위해 대화하라는 것 이상의 조언은 삼가고 있다.

항상 그래 왔듯 Arthur Spirling은 이 점에서 직설적이었다. 모델을 개발하는 연구소에 있는 것처럼 동료와 박사 과정생들에게 끊임없이 “조언”을 제공하는 AI-학계 계정들은 지루하다. 그들은 우리 나머지와 마찬가지로 관중이다.¹¹ 연구소에 있는 사람들조차 모델이 몇 달 이상 얼마나 좋아질지 알지 못한다.

그래서 우리는 어색한 위치에 있다. 누군가는 새로운 워크플로우 환경의 규범을 정립하기 시작해야 하고, 그 일을 하는 사람들은 불가피하게 자신들이 규범을 만들고 있는 것을 완전히 이해하지 못하는 사람들이 될 것이다. 이상하고 불편하다. 다른 대부분의 제도적 전환도 아마 그렇게 작동했겠지만, 훨씬 느린 속도로.

이와 비슷한 과정을 이미 겪었다. 교수들이 학생들의 AI 사용을 완전히 꼼꼼하게 단속하는 것이 생산적이지도 가능하지도 않다는 것을 인정해야 했을 때. 이제 연구자들에게도 마찬가지다. 실제로 중요한 부분들, 예컨대 재현 코드는 감사할 수 있으며 LLM은 그것을 이미 더 쉽게 만들어 준다. 출처는 감사할 수 없는 유일한 것이며, 어차피 우리가 에너지를 써서는 안 되는 것이다. 유인을 따르고 도구가 잘 사용되도록 보장하는 시스템을 구축해야 한다. 도구가 전혀 사용되지 않는 척 해서는 안 된다.

가르침에 관한 관련 언급으로, 나는 안식년 중이었기에 여기서도 조언을 삼가 왔다. 많은 질문들을 받은 것을 감안하면, 나는 연구에 대해서보다 가르침에 대한 AI의 영향에 더 비관적이다. 예를 들어, 나는 연구와 글쓰기에서 AI를 공개적으로 광범위하게 사용하지만, 내 실질적인 수업에서는 모든 전자 기기를 금지하고 대면 필기 및 구두 시험을 부활시킬 계획이다.

이것은 모순된 입장이 아니다. 교실은 정확히 학생들이 나중에 AI 협업을 생산적으로 만들어 주는 인지 능력을 쌓아야 하는 곳이다. AI 도구를 없이 생각하는 법을 배운 적 없다면 AI 도구를 의미 있게 지휘할 수 없다. 2부에서 언급한 기술 퇴화 우려는 여기서 가장 타당하다. 학생들은 그것들을 외주화하기 전에 기초를 내면화해야 한다. 연구는 가치 있는 결과물을 생산하기 위해 최선의 도구를 활용하는 곳이다. 가르침은 다음 세대가 그 도구들을 실제로 잘 사용할 수 있도록 만드는 곳이다.¹²

29. 최고의 결과물은 인간과 AI가 협력할 때 나온다.

여전히 많은 사람들이 글쓰기에 AI를 사용하지 않겠다고 다짐하는 것을 본다. 이것은 연구 조수나 공동 저자의 도움을 거부하겠다는 다짐만큼이나 합리적이다. 그래서 나는 반대를 다짐한다. 나는 최신 LLM과, 그뿐만 아니라 내 연구나 소통 방식을 최선으로 향상시키기 위한 다른 모든 가용 도구나 인간 공동 저자를 사용할 것이다. 그렇게 하면, 내 이름이 붙어 있는 것이라면 그것이 나의 최선의 판단을 반영한다고 확신할 수 있다.

특히 인문학의 많은 학자들은, 연구에 얼마나 많은 시간을 쏟느냐가 중요하다고 여전히 믿는 것 같다. 그러나 통속적인 노동 가치론은 경제학에서 틀렸고, 여기서도 틀렸다. R 명령어 몇 개를 실행하는 대신 행렬을 손으로 역행렬 연산하면서 모든 강건성 검증을 수동으로 실행하거나, 원본 원고를 직접 번역하거나 필사하는 데 수년을 보내고 싶은 별난 사람이라면, 그것은 당신의 선택이다. 나는 ISA의 그 국제학 교수들이 자신의 인간 슬롭 발표에 10시간을 쏟았는지 100시간을 쏟았는지 별로 신경 쓰지 않았다. 결과물이 좋거나 좋지 않거나 둘 중 하나다.

그렇다고 확립할 가치 있는 규범들이 없는 것은 아니다. “나는 믿는다” 또는 “나는 느낀다”라고 쓸 때, 그 1인칭은 진정으로 당신이어야 한다. “나”라는 대명사는 뒤에 인간의 목소리가 있다는 암묵적 약속을 담고 있다. NATO의 올바른 이름 같은 사실적 주장은 누가 입력했는지 신경 쓰지 않는다. 그러나 개인적 확신은 그렇지 않다. 라이브 콘서트를 생각해 보자. 청중은 실제 공연에 대해 비용을 지불하는 것이지 립싱크에 대해서가 아니다. “나”를 사용할 때, 독자는 당신이 그것을 의미한다고 기대할 권리가 있다. 이것이 모든 단어를 직접 타이핑하거나 받아쓰기 해야 한다는 것을 의미하지 않는다. 모델을 지휘하고, 메모를 바탕으로 작업하고, 주의 깊게 검토할 수 있다. 그러나 그것은 확신이 당신의 것임을 요구한다.

예를 들어, 이 글은 내 원래 아이디어, 동료들과의 대화, 인간 학계 및 비학계 동료들의 유용한 제안을 바탕으로, Claude Code와의 반복적인 대화를 통해 공개적으로 그리고 자랑스럽게 작성되었다.¹³ 1부는 인간 편집 없이 AI 능력만으로 실험했다. 2부는 100% 인간의 목소리로 반추했다. 지금 읽고 있는 3부는 나의 목소리와 AI 능력을 결합하여 원을 완성한다. 어느 것이 최고였는지는 당신이 판단하라.

그렇다면 인간은 어디서 우위를 유지하는가? Yiqing Xu가 주장하듯, 아마도 훈련 데이터가 아직 존재하지 않는 개방형 환경과 직접적인 인간 상호작용이 필요한 과제에서일 것이다. 이것은 곧 바뀔 수도 있다. 그러나 우리가 이 직업을 선택한 것은 우리가 아직 더 잘하기 때문만이 아니라, 세상에 대한 중요한 질문들을 알아내는 것에서 의미를 찾기 때문이다. 그래서 나는 대부분의 노동 집약적 작업을 AI에(또는 전통적 가치관을 지닌다면 연구 조수에) 위탁하고, 가장 큰 의미를 주는 것에 집중하는 것에서 어떤 모순도 보지 않는다. 세상에 대한 중요한 질문들을 떠올리고 가용한 최선의 도구로 그것들에 답하는 것.

30. 과학의 진정한 위험은 AI 속도로 만들어지는 인간 슬롭이다. 우리는 아직 그것을 막을 수 있다.

AI는 당신이 가져오는 것을 증폭한다. 진정한 호기심과 어려운 질문을 가져오면, AI는 읽을 가치 있는 것을 생산하도록 도와줄 것이다. 아무것도 가져오지 않으면, 더 빨리 아무것도 생산하지 못할 것이다.

그러나 낙관할 이유가 있다. 재현 가능성이 얼마나 망가져 있는지를 드러낸 동일한 Nature 연구 결과는, 필수적 데이터 및 코드 공유 정책을 가진 학술지들이 의미 있게 높은 재현율을 보인다는 것도 보여 주었다. AI는 이미 이것을 가속화할 수 있다. 학술지 편집자들이 투고 조건으로 자동화된 재현 가능성 검사와 필수 코드 검증을 도입하는 것을 막는 것은 관성뿐이다. 이 시스템들은 오류 여지가 극히 적은 준결정론적으로 설정될 수 있으며, 저자들은 사내 에이전틱 워크플로우가 코드 재현 방법을 결정하지 못했다고 판단할 경우 자동 데스크 거절에 항상 이의를 제기할 수 있다.

더 야심차게는, AI는 Raj Chetty가 30명의 연구 조수 팀과 국내 모든 행정 데이터셋에 대한 접근권을 가지거나, Daron Acemoglu가… 연필과 종이로 해야 했던 종류의 대규모, 데이터 집약적 연구를 수행하는 비용을 낮춘다. Codex를 갖춘 초급 학자는 이제 5년 전에는 물류적으로 불가능했을 프로젝트를 시도할 수 있다. 출판 기준이 높아져야 한다. 생산될 수 있는 것의 기준은 이미 높아졌기 때문이다.

기준은 변하지 않았다. 자신의 이름을 걸었다면 그것을 지지하는 것이다. 과정이 아닌 결과물의 질을 판단하라. AI 슬롭에 관한 대화는 챗봇이 도착하기 훨씬 전에 물었어야 했던 더 어려운 질문으로부터의 주의 분산이다. 왜 우리는 처음부터 이렇게 많은 인간 슬롭을 용납해 왔는가?

***

1부를 올렸을 때 나의 목표는 단순했다. 밀실과 DM에서 이미 이루어지고 있던 대화를 공개적인 자리로 끌어내는 것이었다. 그럼에도 여전히 동료들로부터 같은 말을 계속 듣는다. “Alex, 당신이 AI를 사용하는 것 알고 있어요, 우리도 그렇게 하고 있어요, 그냥 조용히 있으면 안 되나요?”

AI가 무책임하게 사용되어 방지되는 슬롭보다 더 많은 슬롭을 생산하게 될 것이라는 두려움은 이해한다. 그러나 생각해 보면, “조용히 있으라”는 것은 그냥 보편적 위선을 직업적 규범으로 옹호하는 것이다. 내가 원했던 것 중 하나는, 모두가 자신의 워크플로우와 미래에 대해 경험하고 있는 불확실성이 더 안정적인 균형에 도달하는 것이었다. 그것은 침묵이 아닌 솔직한 대화를 필요로 한다.

그리고 그것은 이미 일어나고 있다. Emily Oster가 최근 MIT 경제학 박사 과정생들을 위한 AI에 관한 Isaiah Andrews의 조언을 공유하며, 이것이 모든 박사 과정 집단에 배포되어야 할 내용이라고 말했다. Andy Hall이 지적했듯, 그것에서 가장 중요한 것은 특정 조언 자체가 아니라 고위 교수진이 명확한 신호를 보낸다는 것이었다. 이것은 진지하게 받아들여야 할 사안이다. 저널리즘에서 가장 사려 깊은 사람 중 하나인 Dylan Matthews조차 최근 AI를 주장하는 사람들이 많은 부분에서 옳았다는 것을 인정했다.

변화는 실재한다. 학자들은 이미 반쯤 깨어났으며, 뒤로 돌아가지 않을 것이다. 대학원 진학을 꿈꾸는 학생들과 초급 학자들은 신중하게 나아가되, AI 도구를 배우고 사용하는 것을 온전히 받아들여야 한다. 참여를 거부하는 학자, 지식인, 작가들은 그 순수함에 대한 보상을 받지 못할 것이다. 같은 지적 엄밀함과 호기심을 갖추고, 더 나은 도구를 사용하는 동료들에게 단지 능가당할 뿐이다.

함께, 그 두 게시물이 내가 지금까지 쓴 것 중 가장 널리 읽힌 글이 되었다는 것을 인정해야 한다(Claude와 함께 썼든 아니든). 이민이나 다른 학술대회의 사람들, 전국의 대학 행정가들이 이제 이민이나 정치학 견해 대신 AI 조언을 나에게 묻는다. 이것은 이 분야에서 우리가 얼마나 진지하게 임하는지에 대해 무언가를 말해 주며, 또한 내가 강연과 컨설팅에 더 많은 요금을 청구하기 시작해야 한다는 것을 말해 주기도 한다. ↩
ISA를 부당하게 지목하려는 것이 아니다. 주최자들은 실제 제약 아래서 일했고, 학술대회에는 훌륭한 패널과 진지한 학자들도 많았으며, 나는 학술대회를 더 나아지게 만드는 구체적인 방법들에 대해 다른 곳에 글을 썼다. ↩
아마도 이 글의 초기 독자들로부터 가장 많은 반발을 받은 주장일 것이다. 일부는 내 “슬롭” 사용이 개념을 너무 확장한다고, AI 슬롭(과잉 생산된, 세련되었지만 공허한)과 나쁜 학술 연구(부주의하고, 미완성된)는 서로 다른 실패 양상이라고 주장한다. 나는 보통 과학적 글쓰기에서 개념적 확장을 혐오하지만, 여기서는 그런 일이 일어나고 있다고 진정으로 생각하지 않는다. ISA에서 내가 본 것은 과학처럼 보이지만 인간 지식에 아무것도 추가하지 않는 과잉 생산된, 무의미한 연구였다. 그것은 어떤 정의로도 “슬롭”이다. ↩
내 연구를 인용한 많은 사례들이 내가 실제로 발견한 것의 창의적인 재해석이었음을 증언할 수 있다. 결과가 단순화되고, 결론이 뒤집힌 것은 나를 인용한 사람들이 내 연구를 읽지 않았음을 거의 확실히 보여 준다. ↩
“확률적 앵무새”는 대규모 언어 모델이 이해 없이 가장 그럴듯한 단어 순서를 예측함으로써 텍스트를 생산한다고 주장한 언어학자 Emily Bender가 공저한 2021년 논문에서 유래한다. ↩
Dean W. Ball은 더 나아가, 좌파의 AI 부정 상당 부분이 기술 업계가 “얄팍한 바보들”로 구성되어 있으며 그들의 성취는 언제나 피상적이고 항상 어떤 대규모 절취에 기반한다는 세계관에서 비롯된다고 주장한다. 이 경험 법칙은 암호화폐에는 통했을지도 모른다. 수백만 명의 연구자와 작가가 더 나은 연구를 위해 조용히 사용하는 도구에는 통하지 않는다. ↩
“능동적으로 사용”이라고 말하는 것은, AI에 대한 수동적이고 무비판적인 의존이, 특히 일상적인 과제에서, 비판적 사고 능력을 저하시킬 수 있다는 실제 증거가 있기 때문이다. 이것은 실제 우려이며, 그것이 내가 아래에서 교실이 학생들이 외주화하기 전에 기초를 쌓아야 하는 곳이라고 주장하는 이유다. ↩
Hollis Robbins가 일 년 전에 주장했듯, AI 시대에 가치를 유지할 학자는 지식의 최전선에서 일하는 이들뿐이다. 시간이 지날수록 그 주장이 덜 황당하게 느껴진다. ↩
여러분, Bayesian Hitman을 확인해 보라. 분명 사전 분포를 흔들어 놓을 것이다. ↩
Alison Gopnik과 동료들이 Science에서 최근 주장했듯, LLM은 글쓰기, 인쇄, 도서관과 같은 문화적 기술로, 즉 스스로 “생각”하지 않더라도 새로운 형태의 지식 생산을 가능하게 하는 도구로 이해하는 것이 가장 적절하다. ↩
이 규칙을 입증하는 예외는 Aniket Panjwani와 Scott Cunningham으로, 그들은 Claude Code로 연구하는 것이 실제로 어떤 모습인지에 대한 자세한 일인칭 보고서를 수개월간 출판해 왔다. 적어도 나에게 그런 종류의 글은 진정으로 유용했으며, 내 AI 시리즈를 완성하는 데 도움이 되었다. ↩
여기에 잠재된 타당한 우려가 있다. 기초를 배우려는 대학원생들이 이제 AI 에이전트 군단을 거느린 교수들과 학술지 지면을 놓고 경쟁한다. 이것은 실재하며, 그것이 가르침에 대한 답이 “AI를 영원히 금지하라”가 아닌 이유다. 답은 발판 쌓기다. 먼저 도구 없이 생각하는 법을 배운 다음, 판단력 있게 도구를 사용하라. ↩
Steven Adler, Ryan Briggs, Tina Marsh Dalton, Josh Gellers, Jimmy Alfonso Licon, Igor Logvinenko, Ilia Murtazashvili, Kyle Saunders, Dina Pisareva, Quinn Que ❁, Ben Radford, Mike Riggs, Hollis Robbins, Jim Walsh, Sean Westwood, Yiqing Xu, Emma Zhang에게 그들의 유용한 제안과 반론에 특히 감사를 표한다. ↩