"AI가 해커보다 더 잘 취약점 찾는다"... 앤스로픽 보안 연구자, 정부 설득 나서

앤스로픽(Anthropic)의 차세대 인공지능 모델이 사이버보안 취약점을 대규모로 찾아내고 공격 코드까지 작성할 수 있다는 우려가 커지는 가운데, 회사의 대표 보안 연구자가 미국 정부를 설득하기 위해 워싱턴에 투입됐다.

월스트리트저널에 따르면 앤스로픽 연구원 니컬러스 칼리니(Nicholas Carlini)는 최근까지 차세대 AI 모델의 공개를 늦춰야 한다고 경고했던 인물이다. 그러나 트럼프 행정부가 앤스로픽의 최신 모델 사용을 제한하자, 그는 이번에는 제한된 형태의 모델 공개가 오히려 더 안전하다는 점을 설명하는 역할을 맡게 됐다.

칼리니는 AI 기업들의 과장된 사이버보안 주장을 비판해온 업계의 대표적 회의론자로 알려져 있다. 그러나 앤스로픽의 차세대 모델 미토스(Mythos)를 직접 시험한 뒤 판단을 바꿨다.

리눅스와 고스트에서 취약점 다수 발견

칼리니는 지난 3월 샌프란시스코에서 열린 사이버보안 행사에서 미토스가 실제 소프트웨어 취약점을 찾아내는 과정을 공개했다.

(Nicholas Carlini, 위키)

그는 앤스로픽 AI를 이용해 웹 출판 소프트웨어 고스트(Ghost)의 치명적 취약점을 찾아내고 이를 악용하는 데 성공했다고 밝혔다. 이어 수십억 개 기기에서 사용되는 리눅스(Linux) 운영체제에서도 취약점을 찾아냈다.

칼리니는 과거 직접 리눅스나 고스트에서 취약점을 발견한 경험이 없었다. 그러나 AI 모델을 사용한 뒤 여러 취약점을 찾아낼 수 있었다.

그는 행사에서 "현재 모델들이 나보다 더 나은 취약점 연구자라는 점이 매우 분명해졌다"고 말했다. 공격자와 방어자 사이에서 지난 20년 동안 유지돼온 균형도 끝나가고 있을 수 있다고 경고했다.

발표 이틀 뒤 칼리니는 앤스로픽 내부 동료들에게 "아직 미토스를 공개해서는 안 된다고 생각한다"는 메모를 보냈다.

보안업계가 말하는 '버그마게돈'

이후 보안 연구자들 사이에서는 AI가 소프트웨어 취약점을 찾고 공격 코드를 작성하는 일을 지나치게 쉽게 만들 수 있다는 우려가 커졌다.

일부 연구자들은 이를 '버그마게돈(Bugmageddon)'이라고 부른다. 버그와 아마겟돈을 결합한 표현으로, AI가 방대한 소프트웨어에서 취약점을 대량으로 찾아내면서 사이버보안 환경을 근본적으로 바꿀 수 있다는 뜻이다.

미토스는 이미 1만 개가 넘는 소프트웨어 버그를 찾아낸 것으로 전해졌다. 문제는 단순히 버그를 발견하는 데 그치지 않고, 해당 취약점을 실제 공격에 이용하는 익스플로잇 코드를 작성할 수 있다는 점이다.

칼리니는 3월 내부 메모에서 미토스를 "대규모로 취약점을 찾아내고 악용할 수 있는 최초의 모델"이라고 평가했다.

정부, 외국인·외국 기업 사용 금지

앤스로픽은 최근 미토스의 업데이트 버전인 미토스 5(Mythos 5)와, 안전장치를 추가한 파블 5(Fable 5)를 공개했다.

그러나 트럼프 행정부는 지난 금요일 외국 정부와 기업, 개인이 두 모델을 사용하는 것을 금지했다. 규정에는 미국에서 일하는 외국 출생자도 포함됐다.

앤스로픽은 해당 규제를 준수하기 위해 결국 모든 이용자의 모델 접근을 차단했다.

미국 정부는 파블의 안전장치가 우회될 수 있다는 아마존(Amazon)의 내부 보고를 접한 뒤 우려를 키운 것으로 전해졌다. 아마존 연구진은 특정 프롬프트를 이용해 파블이 공개하지 말아야 할 사이버보안 취약점을 제시하도록 유도할 수 있다고 보고했다.

다만 이후 독립 보안 연구자들의 분석에서는 아마존이 가장 우려되는 수준의 완전한 탈옥에는 성공하지 못한 것으로 나타났다. 즉 모델을 이용해 실제 사이버공격에 필요한 전체 공격 코드를 작성하게 하지는 못했다는 것이다.

칼리니, 이번엔 모델 공개 필요성 설명

정부가 모델 사용을 제한하자 앤스로픽은 칼리니를 포함한 보안 전문가들을 워싱턴으로 보냈다.

칼리니는 불과 몇 달 전까지 미토스 공개를 늦춰야 한다고 주장했다. 그러나 이번에는 정부 관계자들에게 완벽한 AI 안전은 존재하지 않으며, 안전장치를 적용한 파블을 제한적으로 공개하는 것이 완전히 숨기는 것보다 세계적으로 더 안전할 수 있다는 입장을 설명하고 있다.

이는 강력한 AI 모델을 공개할 것인지, 제한할 것인지에 대한 보안업계의 딜레마를 보여준다.

모델을 공개하면 공격자들도 사용할 수 있다. 그러나 방어자와 기업들도 같은 도구를 이용해 취약점을 먼저 찾아내고 수정할 수 있다. 반대로 공개를 막으면 일부 정부와 대기업만 강력한 모델을 독점하게 될 수 있다.

앤스로픽·트럼프 행정부 갈등 지속

이번 사태는 앤스로픽과 트럼프 행정부 사이에 이어져온 갈등을 더욱 키웠다.

앤스로픽 최고경영자 다리오 아모데이(Dario Amodei)는 올해 초 피트 헤그세스(Pete Hegseth) 국방장관과 군의 AI 사용 제한 문제를 놓고 충돌했다. 앤스로픽이 군사적 활용에 안전장치를 두려 하자 국방부는 회사 모델 사용을 중단했고, 관련 소송도 이어졌다.

양측은 AI 규제 방식과 대중국 AI 반도체 수출, 앤스로픽과 진보 성향 비영리단체의 관계 등을 놓고도 대립해왔다.

백악관 AI 고문 데이비드 색스(David Sacks)는 앤스로픽이 미토스의 위험성을 경고했을 때 "공포를 조장해온 전력이 있다"고 비판했다.

트럼프 행정부는 당초 중국과의 경쟁을 이유로 미국 AI 기업에 대한 규제를 최소화하려는 입장이었다. 그러나 미토스와 같은 모델의 능력이 구체적으로 드러나고 AI에 대한 대중적 불안이 커지면서 정책 방향을 강화하고 있다.

트럼프, AI 모델 사전 제출 행정명령

트럼프 대통령은 6월 초 AI 기업이 모델을 공개하기 30일 전에 정부에 접근 권한을 제공하도록 요구하는 행정명령에 서명했다.

이 명령은 국가안보와 사이버보안 담당자들이 모델 평가와 위협 정보 공유에 더 큰 역할을 하도록 했다.

아마존의 보고 이후 미 국가사이버국장 숀 케인크로스(Sean Cairncross)를 비롯한 당국자들은 앤스로픽 측에 모델을 즉시 내리지 않으면 외국 사용자 금지 조치를 내리겠다고 통보한 것으로 전해졌다.

회사 측 소식통에 따르면 당국은 앤스로픽에 90분 안에 모델을 철회하라고 요구했으며, 구체적인 보안 위험 내용은 충분히 설명하지 않았다.

아모데이 CEO는 정확한 위험 내용을 모르는 상황에서 모델을 즉시 중단하는 데 난색을 보였다.

이후 트럼프 대통령은 하워드 러트닉(Howard Lutnick) 상무장관에게 사태 처리를 맡겼고, 외국 사용자 접근 차단을 승인했다.

러트닉 장관이 규제 시행을 통보하자 아모데이는 "그렇다면 모델을 공개해둘 수 없다는 뜻"이라고 말했다. 러트닉 장관은 "그게 바로 목적"이라고 답한 것으로 전해졌다.

앤스로픽은 이후 모든 접근을 차단했다.

리눅스에서 479개 버그 찾아

칼리니는 최근 앤스로픽 샌프란시스코 본사에서 미토스의 성능을 직접 시연했다.

그는 미토스에게 리눅스 코드에서 버그를 찾도록 요청했다. AI는 리눅스 코드를 수천 차례 반복 분석했고 며칠 만에 479개의 버그를 찾아냈다.

칼리니는 AI가 매번 다른 취약점을 찾도록 일련의 프롬프트를 사용했다. 이 방식은 이후 보안 연구자들 사이에서 '칼리니 루프(Carlini Loop)'로 불리기 시작했다.

칼리니는 이 표현을 좋아하지 않는다고 밝혔지만, 해당 방식은 3월 그의 발표를 본 연구자들을 중심으로 널리 사용되고 있다. 당시 발표 영상은 36만 회 넘게 시청됐다.

칼리니는 AI가 찾은 결과 중 실제 취약점이 있는지 확인하기 위해 미토스에 추가 시험을 요청했다. 다음 날 AI는 취약점 판정과 함께 공격 코드까지 제시했다.

해당 취약점은 단독으로 가장 위험한 수준은 아니었지만, 다른 공격과 결합하면 컴퓨터 통제권을 빼앗는 데 사용될 수 있었다.

칼리니는 이를 리눅스 개발팀에 신고했고, 해당 문제는 이후 수정됐다.

리눅스 개발자 "작은 실수지만 찾기 쉽지는 않아"

리눅스를 만든 리누스 토르발스(Linus Torvalds)는 AI가 발견한 취약점에 대해 "분명 쉽게 찾을 수 있는 것은 아니지만, 동시에 사소하게 놓친 작은 세부사항인 경우가 많다"고 말했다.

토르발스는 매일 수많은 버그 신고를 받는다며, 대부분은 중요하지 않고 보안 문제로 분류되지 않는다고 설명했다.

버그가 있다고 해서 모두 보안 위협이 되는 것은 아니다. 일부 버그는 화면 오류나 프로그램 충돌 정도만 일으킨다.

그러나 미토스처럼 방대한 코드에서 취약점을 자동으로 찾고, 이를 악용하는 방법까지 제시하는 모델은 기존 보안 연구 방식에 큰 변화를 가져올 수 있다.

칼리니, AI 보안의 대표적 회의론자

칼리니는 어린 시절부터 컴퓨터와 암호학에 몰두했다. 그의 아버지는 프로그래머였고 어머니도 기술업계에서 일했다.

그는 고등학생 시절부터 암호분석 논문을 썼으며, 캘리포니아대 버클리(UC Berkeley)에서는 컴퓨터과학자 데이비드 와그너(David Wagner)와 함께 AI 시스템의 보안 취약성을 연구했다.

이들은 이미지 인식 시스템이 고양이 사진을 과카몰리로 잘못 인식하도록 만들고, 클래식 음악에 사람이 들을 수 없는 알렉사(Alexa) 명령을 숨기는 방법을 찾아냈다.

와그너는 칼리니가 머신러닝 시스템을 안전하게 만드는 것이 얼마나 어려운지를 보여주는 초기 연구를 많이 했다고 평가했다.

칼리니는 과거 AI 기업들이 모델의 위험성을 과장한다고 보는 경우가 많았다. 2019년 구글에서 일할 당시 그는 오픈AI가 GPT-2를 너무 위험해 공개하기 어렵다고 주장한 것을 "비합리적"이라고 생각했다.

그러나 미토스를 시험한 뒤 그의 판단은 달라졌다. 과거에는 악의적인 사용자가 AI를 속여 실수하게 만드는 위험에 집중했다면, 이제는 AI가 해커에게 초인적인 능력을 제공할 가능성을 우려하고 있다.

금융·기업 소프트웨어 전반에 긴장

미토스의 능력은 금융기관과 기업들에도 큰 부담을 주고 있다.

미국 경제의 상당 부분은 오래되고 잘 알려지지 않은 소프트웨어에 의존한다. 이런 프로그램 상당수는 지금까지 미토스와 같은 수준의 대규모 검사를 받아본 적이 없다.

은행들은 금융 시스템을 운영하는 소프트웨어의 취약점이 한꺼번에 드러날 수 있다고 우려한다. 기업들은 AI가 찾아내는 수많은 취약점을 어떻게 검증하고 수정할지 고민하고 있다.

문제는 패치가 공개되기 전에 공격자가 같은 취약점을 악용할 수 있다는 점이다. AI가 방어자의 능력을 높이는 동시에 공격자의 능력도 함께 높일 수 있는 것이다.

"모델을 막는 것이 더 안전한가" 논쟁

이번 사태의 핵심은 강력한 AI 모델을 공개하지 않는 것이 실제로 더 안전한지에 대한 논쟁이다.

앤스로픽은 파블에 안전장치를 적용했으며, 정부가 우려한 취약점들은 심각하지 않고 다른 공개 모델로도 찾을 수 있다고 주장한다.

정부는 안전장치가 우회될 가능성이 있는 만큼 외국 정부와 기업, 개인의 접근을 막아야 한다는 입장이다.

사이버보안 전문가들은 더 많은 기술적 대화가 필요하다고 지적한다. 마이클 호로위츠(Michael Horowitz) 미국외교협회 선임연구원은 "정부와 앤스로픽은 효과적으로 의사소통하지 못하는 것이 분명하다"며 "더 많은 기술 교류가 더 나은 결정으로 이어질 수 있다"고 말했다.

칼리니의 역할도 이 딜레마를 상징한다. 그는 처음에는 모델 공개를 늦춰야 한다고 경고했지만, 이제는 안전장치를 갖춘 모델을 공개하는 편이 더 나을 수 있다고 정부를 설득하고 있다.

AI가 취약점을 찾는 능력이 사람을 넘어설 수 있다는 점에는 양측 모두 동의하기 시작했다. 남은 문제는 누가 이 기술을 사용할 수 있도록 할 것인지, 어떤 통제 아래 공개할 것인지다.