학자들은 AI에 대해 정신을 차려야 한다, 2부

블루스카이의 친구들을 위한 공개: 이 글은 100% 인간이 작성했습니다(이전 글에 대한 비판의 인간 검증 AI 요약을 참고하여). 인간의 실수가 있을 수 있습니다.

이번 주 초에 저는 학자들이 AI에 대해 정신을 차려야 한다고 주장하며 에이전트형 AI가 사회과학 연구를 어떻게 변화시키고 있는지에 대한 열 가지 테제를 제시했습니다. 이 글은 특히 AI가 전적으로 작성하고 게시했다는 것을 밝힌 후 폭발적으로 퍼져, 뉴스 기사, 100만 뷰 이상, 그리고 다양한 소셜 미디어 플랫폼에서 천 건 이상의 (종종 격앙되었지만 열정적이기도 한) 반응으로 이어졌습니다.

돌이켜보면, 몇 가지를 다르게 했어야 합니다. 첫째, 클로드가 원문을 작성했다는 사실을(제 이전 소셜 미디어 글에 기반했더라도) 기발한 후속 공개로 밝힌 것은 실수였습니다. 이것이 본질에서 관심을 돌리고 비평가들에게 논거를 쉽게 무시할 구실을 주었습니다. 오히려 제 기본적인 설정에 대해 처음부터 솔직했어야 합니다.¹ 둘째, 현재 에이전트형 AI 도구가 전 세계적으로 교수들보다 대부분의 사회과학 연구 작업을 더 잘한다는 점을 명확히 했어야 합니다.² 이것이 반드시 대체당한다는 뜻은 아니지만, 업무의 성격이 변할 것이라는 뜻입니다. 셋째, AI가 생성한 글에는 더 나은 인간 보조 편집으로 잡아낼 수 있었을 사소하고 다소 이상한 문체적 오류가 있었습니다.

이런 맥락에서, 솔로몬 메싱과 조슈아 터커의 브루킹스 연구소 글을 강조하고 싶습니다. 이 글은 제 글 직후에 발표되었으며, 제 주장 중 많은 부분을 훨씬 더 설득력 있게—구체적인 사용 사례와 함께, 불필요한 도발이나 AI 생성 텍스트 없이, 더 건설적인 미래 비전으로—전개합니다. 제 글이 너무 거칠었다면, 그 글을 대신 읽으십시오.

저는 의도적으로 도발적이었으며, 그 선택을 고수합니다. 어떤 면에서는 역효과를 냈지만 다른 면에서는 효과가 있었습니다: 수십 명, 아니 수백 명의 학자들이 그렇지 않았다면 아직 시도하지 않았을 에이전트형 AI 도구를 이제 사용하고 있습니다. 대부분의 반응을 읽은 후 몇 가지 생각을 확실히 바꿨지만, 이미 존재하는 AI 도구 때문에 좋든 싫든 우리의 연구 작업 흐름을 변경해야 한다는 핵심 주장에 대해서는 여전히 확신합니다. 성찰에서 나온 열 가지 추가 테제를 소개합니다.

11. 질적 연구와 새로운 데이터 수집의 상대적 가치가 높아질 것이다.

1부에 대한 가장 강력한 실질적 비판은 “연구”를 AI가 잘 처리하는 특정 작업들—문헌 리뷰, 데이터 분석, 개념적 종합—과 혼동했다는 것이었습니다. 여러 응답자들이 AI가 민족지학적 현지 조사를 수행하거나, 불법 감옥의 수감자를 인터뷰하거나, 수년에 걸쳐 공동체와 신뢰를 구축할 수 없다고 당연히 지적했습니다. 전적으로 옳습니다. 제 테제는 주로 사회과학에서 (현재 지배적인) 양적 연구와 개념적 작업에 관한 것이었으며, 그 범위에 대해 더 명확했어야 합니다.

하지만 그 함의는 질적 연구자들이 안심해도 된다는 것이 아닙니다. 원본 데이터 수집—현지 조사, 인터뷰, 문서 작업, 참여 관찰—의 상대적 가치가 높아지려 한다는 것입니다. AI가 기존 문헌을 종합하고 표준 회귀 분석을 실행할 수 있다면, 프리미엄은 AI가 할 수 없는 것으로 이동합니다: 이전에 존재하지 않았던 새로운 데이터를 생성하는 것, 특히 접근하기 어려운 맥락에서. 질적 연구자들과 현장 실험가들은 이것을 인터뷰를 전사하거나 문헌 리뷰를 편집하는 대신, 비교 우위가 있는 더 훌륭한 작업을 할 수 있는 기회로 보아야 합니다.

12. “들쭉날쭉함” 때문에, AI에 대한 의견은 효용에 대한 믿음에 따라 양극화된다.

에단 몰릭은 AI의 역량을 “들쭉날쭉한 프론티어”라고 묘사합니다—어떤 작업에서는 인간을 초월하지만 다른 작업에서는 당혹스러울 정도로 무능하며, 인간의 직관에 부합하지 않는 방식으로 그렇습니다. AI는 괜찮은 문헌 리뷰를 쓸 수 있지만 기본적인 시각 퍼즐에 어려움을 겪습니다. 500편의 논문에서 결과를 종합할 수 있지만 공동 저자의 이름을 환각할 수 있습니다.

이 들쭉날쭉함이 학계에서 AI 논쟁이 그토록 양극화된 이유를 설명합니다. 비판자들은 골짜기를 가리키고, 열광자들은 봉우리를 가리킵니다. 양측 모두 프론티어의 자기 영역에 대해서는 옳습니다. 사회과학의 질적-양적 연구 분리와의 중첩은 무시하기 어렵습니다: AI가 잘 처리하는 작업(데이터 분석, 문헌 종합, 패턴 인식)을 수행하는 연구자들은 더 긍정적인 경향이 있고, AI가 잘 처리하지 못하는 작업(현지 조사, 인터뷰, 문서 해석)을 수행하는 연구자들은 더 회의적인 경향이 있습니다.

하지만 단순한 의견 차이 이상의 것을 발견했습니다. AI를 본능적으로 혐오하는 블루스카이 사용자들은 기본적이고 쉽게 검증 가능한 사실—예를 들어 AI가 프레젠테이션 슬라이드를 잘 만들 수 있다는 것—을 부인하는 데 가장 앞장서는 경우가 많았습니다. 연구를 위한 AI 역량이 현실이지만 그 결과를 걱정한다고 인정한 응답자는 극히 드물었습니다. 사람들은 AI를 싫어하고 어떤 생산적 용도도 부인하거나, AI를 좋아하고 그 효용을 과장하거나 둘 중 하나였습니다. 이 중 일부는 동기가 부여된 추론—컴퓨터가 자신보다 더 잘하는 것에 대한 명시적 존재적 위협—입니다. 하지만 더 많은 부분은 단순히 “타자”에 대한 무지일 것으로 짐작합니다.

접촉 이론은 현실입니다. 클로드 코드가 사악하거나 무능하다고 믿는다면, 설치해서 연구 폴더를 정리하거나 다가오는 학회를 위한 프레젠테이션을 만드는 데 사용해 볼 것을 감히 권합니다. 앞서 “클로드 코드와 일주일을 보내라”고 했는데, “하루만 보내라”로 바꿔야 했습니다(그 정도면 충분할 것입니다).

13. 사용자의 전문성이 여전히 결과물의 품질을 크게 좌우한다.

아마 놀라운 일은 아니겠지만, 블루스카이의 비판 중 상당수는 여전히 AI 사용이 챗봇에서 복사-붙여넣기하는 것이라고 가정합니다. 에이전트형 AI는 그렇게 작동하지 않습니다. 에이전트형 AI는 파일 시스템 내에서 자율적으로 운영되며, 코드를 읽고 쓰고, 문서를 참조하며, 시간이 지남에 따라 구축한 상세한 지침에 따라 다단계 연구 작업 흐름을 실행합니다.

관련된 흔한 AI 부정의 형태 중 하나는 도구에 접근할 수 있으므로 누구나 같은 결과물을 만들 수 있다고 가정하는 것입니다. 이는 모두가 스토브에 접근할 수 있으므로 모두가 맛있는 요리를 할 수 있다고 주장하는 것과 같습니다. 요리 기술, 레시피, 재료의 품질에는 분명한 차이가 있습니다.

하지만 문제는 AI가 대부분의 중요한 연구 작업에서 대부분의 교수보다 뛰어난지(여전히 그렇다는 주장을 고수합니다)가 아니라, AI를 사용하는 훌륭한 연구자가 AI를 사용하지 않는 훌륭한 연구자보다 더 뛰어난지(절대적으로 그렇습니다)입니다. 솔직히 말해, 잘 프롬프트된 AI 쓰레기보다 블루스카이 쓰레기(실질적 내용에 관계없이 AI 키워드만 보면 ai/dr이라고 응답하는 수백 명의 익명 사용자)가 더 싫습니다.

14. 출판 시차로 인해 AI 역량 비판은 나올 때쯤이면 이미 구식이 된다.

이 논쟁에서 거의 아무도 인정하지 않는 문제가 있습니다: 학술 및 서적 출판 일정은 AI의 개선 속도와 구조적으로 양립할 수 없습니다. 누군가 2025년 논문(2024년에 착수된)에서 GPT-4의 환각 비율을 인용하며 2026년 3월에 AI 사용에 반대할 때, 그것은 더 이상 존재하지 않는 시스템에 대한 증거를 인용하는 것입니다. 2005년 폴더폰 한계에 대한 연구를 인용하며 스마트폰에 반대하는 것과 같습니다. 아마 그래서 새로운 “AI 사기(AI Con)” 책이 그토록 나쁜 것일 겁니다—출간되기 전에 이미 분명히 구식이었습니다.

연구 자체를 무시하는 것은 아닙니다. 그 연구들은 종종 방법론적으로 건전합니다. 하지만 증거 기반이 출판되고, 심사되고, 인용될 수 있는 것보다 더 빠르게 만료됩니다. 2026년 3월에 출판된 메싱과 터커의 브루킹스 연구소 글(불과 2주 만에 “신속하게” 심사된)은 6개월 전만 해도 추측적으로 보였을 역량을 이미 문서화합니다. 현재 AI 한계에 대한 동료심사 논문이 학술지에 실릴 때쯤이면, 그것이 문서화한 한계는 이미 수정되어 있을 것입니다. 이것은 출판된 증거에 의존하도록 훈련받은 학자들에게 편안한 상황이 아닙니다. 하지만 이것이 우리가 처한 상황입니다.

15. 대부분의 논문은 이미 인간이 아닌 AI에 의해 읽히고 있다.

학계의 공공연한 비밀은 출판된 논문 대부분이 저자, 심사자, 그리고 가끔 편집자 외에는 아무도 인용하거나 읽지 않는다는 것입니다. AI가 작성한 논문—완전한 쓰레기든 아니든—의 양이 증가하면서, 연구자들이 자신의 좁은 전문 분야에서 생산되는 것조차 따라잡는 것이 불가능해질 것입니다. 저는 이민 태도에 관한 모든 새로운 문헌을 파악하고 있다고 생각하지만, 아마 미국과 유럽, 그리고 최상위 학술지 밖에서 생산되는 80%는 놓치고 있을 것입니다.

이것은 학자들이 자신의 주요 독자가 점점 LLM이라는 사실을 받아들여야 한다는 의미입니다. 타일러 코웬은 LLM을 위한 글쓰기에 대해 한동안 이야기해왔지만, 에이전트형 도구의 부상으로 이것은 대부분의 학자들에게도—그 연구 자체를 자동화할 수 없는 질적 연구자들을 포함하여—적용됩니다. 저자가 이에 대해 무엇을 해야 하는지 확고한 감이 없지만, 논문의 기계 판독 가능한 버전(이상적으로는 .md 형식)이 존재하도록 하는 것이 좋은 첫걸음으로 보입니다.

16. AI는 학계와 그 너머에서 이미 깨져 있던 것을 드러낸다.

관련하여, 1부에 대한 많은 반응은 다음과 같은 내용이었습니다: “AI가 당신의 연구를 할 수 있다면, 당신의 연구는 애초에 좋지 않았던 것이다.” 동의합니다(웃음)—하지만 이것은 대부분의 사회과학에 대한 고발이지, AI에 대한 방어도 아니고 저 개인에 대한 현명한 공격도 아닙니다. 재현 위기, 인용 부풀리기, p값 조작, 아무도 읽지 않는 논문 생산은 모두 이미 존재하던 문제들이었습니다.

인간이 생성한 학술 쓰레기는 항상 만연했습니다; AI가 그것을 단지 가시화할 뿐입니다. 네이선 스미스는 자신의 리스택에서 이를 더 직설적으로 표현했습니다: 학술 기관은 인적 자본을 독점하고, 테뉴어 시스템은 공적 영향보다 집단적 배꼽 응시를 보상하며, 대부분의 교수는 다른 일을 하는 것이 더 유용할 수 있다고. 가혹한 프레이밍입니다. 하지만 출판된 논문 중 극히 적은 비율만이 진정한 가치를 지닌다면, AI가 혼란에 빠뜨리고 있는 시스템이 정확히 번성하고 있던 것은 아니었습니다.

17. 기술 퇴화는 실질적인 위험이며, 특히 미래 세대 학자들에게 그렇다.

이것은 제 초기 글에 대한 또 다른 강력한 반응이었다고 생각합니다: “출처 평가”와 “데이터 코딩” 같은 인지적 과정을 외주화하면 연구자 자신의 이해가 손상된다는 것입니다. 많은 분들이 “복잡하고 사고 주도적인 과정을 외주할 일련의 개별 작업으로 환원하는 것에 대해, 그 단계들 사이와 이후에 인지적으로 많은 일이 벌어지는데도” 당연히 걱정합니다. 메싱과 터커도 “기술 퇴화”라는 이름 아래 같은 위험을 지적합니다.

저는 이것을 진지하게 받아들이며, 그 위험이 현실이라고 인정합니다—특히 AI가 단축할 수 있는 인지 기술을 아직 내면화하지 못한 학생과 훈련생에게는. 기술 퇴화를 걱정하는 연구자들은 무언가가 상실된다는 점에서 옳습니다. 하지만 얻어지는 것을 과소평가합니다: 더 높은 수준의 추상화에서 작업하고, 더 많은 가설을 검증하며, 더 빠르게 반복할 수 있는 능력. 확립된 연구자에게 퇴화의 위험은 낮습니다. 기술이 이미 존재하기 때문입니다. 학생과 미래 연구자에게는, 대학원 교육과정을 업데이트하는 것이 시급합니다.

18. AI 글쓰기 탐지기와 공개 규범은 작동하지 않는다.

AI 글쓰기 탐지 도구는 나빴고, 여전히 나쁘며, 아마 계속 나쁠 것입니다. 원래 클로드가 작성한 글은 제 쪽에서 이를 피하기 위한 정교한 프롬프팅 없이도 모든 주요 AI 탐지기에서 “100% 인간 작성”으로 통과했습니다. 제 초기 글에 대한 많은 비평가들은 즉시 AI가 작성한 것을 “감지했다”고 말했습니다. 하지만 그들은 제가 작업 흐름을 공개한 후에 이렇게 말했습니다—전형적인 확증 편향입니다. 공개 전에 아무도 지적하지 않았습니다. 실제로, 누군가는 AI를 홍보하는 글을 쓰면서 AI를 사용하지 않았다고 불평하기까지 했습니다.³

더 중요한 점은 공개 인센티브에 관한 것입니다. 메싱과 터커는 분야 전반에 걸쳐 AI 사용 선언을 표준화할 것을 권고합니다. 저는 그들의 논리와 (현재의 혼란 대신) 표준화에 대한 요청을 존중하지만, 현재의 인센티브 구조를 감안할 때 어떤 광범위한 AI 선언 표준도 장점이 있을 수 없다는 점에서 동의하지 않습니다.

오해하지 마십시오—학술지 편집자 같은 권위 있는 위치에 있는 사람들은 자신의 작업 흐름에 대해 투명해야 합니다. 하지만 일반 저자에게는 자발적 공개가 정직한 사용자는 처벌받고 부정직한 사용자는 아무런 결과도 받지 않는 시스템을 만듭니다. 저는 AI 작업 흐름을 공개했고 위협, 전문적 공격, 해고 요구를 받았습니다. 합리적 인센티브는 거짓말하는 것입니다. “AI 사용 인정”은 합리적으로 들리지만, 2026년 학계 생활의 실제 사회적 역학과 접촉하면 붕괴합니다. 공개의 전문적 비용이 줄어들 때까지, 의무적 인정 규범은 부정직함을 선별할 것입니다.

더 깊은 문제도 있습니다: 공개 규범은 책임 문제를 거꾸로 접근합니다. 일부에게는 AI 공개가 오히려 책임 회피로 기능할 수도 있습니다—“AI를 사용했으니, 이게 쓰레기인지 알아내는 건 이제 당신 몫입니다.” 하지만 저자는 어떻게 생산되었든 최종 결과물에 대해 책임을 져야 합니다. AI가 오류를 도입했다면, 그것은 저자의 책임입니다. 중요한 것은 그 작업이 정확하고 가치 있는지이지, 인간이 문장을 입력했는지 기계가 입력했는지가 아닙니다.

19. 학술 블루스카이는 이 논쟁을 위한 진지한 장소가 아니다.

이 문제를 다뤄야 하는데, 이후에 벌어진 모든 일에 영향을 미쳤기 때문입니다. 블루스카이는 트위터만큼이나 많은 반응을 생성했지만, 가장 비생산적인 방식으로 압도적으로 적대적이었습니다. 가장 흔한 반응은 “네가 안 썼으면 왜 읽어야 하나?” 또는 “ai/dr”의 변형이었습니다. 많은 것이 욕설, AI 회사에서 돈을 받았다는 비난(?), 이전 출판 연구를 인용하지 말라는 요구(??) 또는 심지어 저를 해고하라는 요구(???)를 포함했고, 사람들은 AI가 그렇게 좋다면서 저를 AI로 대체하라고 제 고용주를 태그했습니다.

제 원래 글은 도발적이었습니다. 하지만 저는 아무도 개인적으로 공격하지 않았습니다. 저는 현장에서의 제 경험에 기반하여 AI와 학계에 대한 논거를 제시했으며, 동의하거나 동의하지 않을 수 있는 것이었습니다. 그것에 대해 블루스카이의 학자들은 전문적 위협, 인신공격, 조직적인 집단 공격으로 대응했습니다. 저는 두꺼운 피부와 고용 안정성을 가지고 있습니다. 이것을 감수할 수 있습니다.

하지만 학계에서 AI에 대한 이단적 견해를 공유할 수 있는 대부분의 사람들에게는 그런 여유가 없습니다. 그들은 대학원생, 비정규직 교수, 신진 연구자들(사실, 불과 몇 달 전까지 저도 그 중 한 명이었습니다!)이며, 저에게 일어난 일을 보고 명백한 결론을 내립니다: 입을 다물어라. 이것이 집단 공격 문화의 실질적 비용입니다—저 같은 사람에 대한 것이 아니라, 학계가 보호해야 할 자유로운 사상의 교환에 대한 것입니다. 그리고 DM으로 연락해 주신 모든 공감해주신 분들께 감사하지만, 공개적으로 발언해 주셨으면 합니다. 이 불행한 역학관계를 바꿀 수 있는 유일한 방법이기 때문입니다.

20. 연구에 “영혼”이 없어도 공익에 기여할 수 있다.

맥스 카건은 저도 공감하는 블루스카이 사람들의 흔한 우려를 명확하게 표현하고 다루었습니다: AI에 의해 또는 AI와 함께 생산된 연구에는 본질적인 무언가—영혼, 장인정신, 또는 진정한 지적 참여라 부를 수 있는 것—가 결여되어 있다는 생각입니다. 질문과 씨름하고, 모호함과 함께 앉아 있으며, 천천히 논증을 구축하는 과정은 많은 학자들에게 개인적으로 변혁적입니다. 열악한 노동 시장 전망에도 불구하고 사람들이 박사 학위를 추구하는 이유가 있습니다: 그 일 자체가 의미 있기 때문입니다. AI가 그 과정을 몇 시간으로 압축할 때, 진정으로 가치 있는 무언가가 상실됩니다.

저도 이 끌림을 느낍니다. 하지만 그것이 비용을 누가 대는지의 질문과 접촉했을 때 살아남을 수 있을지 확신하지 못합니다. 대부분의 학술 연구는 공적 자금으로 이루어집니다. 납세자들은 교수들이 자기실현을 하라고 대학에 자금을 지원하는 것이 아닙니다. 사회에 이로운 지식을 생산하라고 자금을 지원합니다. AI 보조 연구가 더 많은 더 나은 지식을 더 빠르게 생산한다면, 그것을 수용해야 한다는 공익적 논거를 거부하기 어렵습니다—연구의 사적 경험이 덜 낭만적이 되더라도.

저는 Windows에서 클로드 데스크톱 앱을 사용하며, GitHub 폴더에 클로드 코드(Opus 4.6, 월 200달러 Max 구독)를 연결하고, 브라우저 작업에는 클로드 크롬 확장 프로그램을 사용합니다. 이전 글의 경우, 프로젝트별 지침 파일에 점진적으로 구축해온 절차와 문체 가이드를 따르면서 AI와 학계에 대한 제 소셜 미디어 게시물을 10개 테제 형태로 요약해달라고 요청했습니다. 금지된 지식 같은 것은 없습니다, 정말로. ↩
제가 미국 R1 대학 교수들에 대해 말한다고 가정했다면, 그것은 여러분 탓입니다. 개발도상국과 구소련 지역의 주류 사회과학 연구에 익숙한 사람으로서, MDPI 스타일 학술지에서 생산되는 대부분의 연구는 노골적인 표절이 아닐 때조차 가치가 거의 없다고 말할 수 있습니다. 대부분이 기본적이고 반복적인 양적 작업—용어를 재정의하고 변수를 상관시키는—으로, 사회과학 전반에 걸쳐 흔하며 AI가 이미 더 유능하게 수행할 수 있는 종류의 것입니다. ↩
라이언 브릭스가 합리적인 지적을 합니다: AI 탐지기는 오탐을 줄이도록 보정되어 있으므로, 너무 많이 부정행위를 하는 학생을 감지하는 데는 여전히 유용할 수 있습니다. 하지만 연구 목적으로는 이것이 중요한지 잘 모르겠습니다. ↩