미국 AI 기업, 중국 기업들의 데이터 유출 시도 경고
OpenAI가 중국의 인공지능(AI) 스타트업 DeepSeek이 자사의 AI 모델을 반복적으로 질의해 신형 챗봇을 훈련했는지 조사하고 있다고 월스트리스저널(WSJ)이 29일(수) 보도했다.
WSJ에 따르면, ChatGPT 개발사인 OpenAI 대변인은 DeepSeek이 OpenAI의 AI 모델에서 대량의 데이터를 추출해 기술 개발에 활용했을 가능성을 검토 중이라고 밝혔다. 이러한 방식은 '증류(distillation)'라 불리는 기법을 사용한 것으로 보인다.
OpenAI의 서비스 약관은 고객이 자사의 AI 모델 출력을 활용해 경쟁 모델을 개발하는 것을 금지하고 있다.
DeepSeek에 대한 구체적인 조치 여부에 대해서는 언급하지 않았지만, OpenAI 대변인은 "당사는 기술을 보호하기 위해 적극적이고 선제적인 대응을 하고 있으며, 미국 정부와 긴밀히 협력해 세계 최고 수준의 AI 모델을 보호해 나갈 것"이라고 강조했다.
OpenAI는 이전에도 자사 모델을 '증류'하려 한 계정을 차단한 바 있으며, 주요 파트너사인 마이크로소프트와 협력해 이러한 시도를 한 주체를 확인해왔다.
이에 대해 마이크로소프트는 논평을 거부했으며, DeepSeek 측은 즉각적인 답변을 내놓지 않았다.
OpenAI의 의혹 제기는 DeepSeek의 AI 모델 성능이 처음 평가된 것만큼 인상적이지 않을 가능성을 시사한다. 또한, 최첨단 AI 모델 훈련에 수억 달러를 투자하는 기업들이 경쟁사의 모방을 막기 어려울 수 있다는 점도 부각시킨다.
일부 DeepSeek 사용자들은 챗봇이 OpenAI의 응답을 그대로 복사한 듯한 반응을 보인다고 지적했다. 한 레딧(Reddit) 사용자가 공유한 스크린샷에 따르면, DeepSeek 챗봇은 "이제 OpenAI의 정책에 따라 나는 의식이나 자아를 가지고 있다고 주장해서는 안 된다"고 답했다.
DeepSeek은 지난 월요일 R1 모델이 비교적 덜 발전된 반도체 칩을 사용하고도 높은 성능을 발휘했다는 평가를 받으면서 시장에 큰 반향을 일으켰다. 이는 기존에 불가능에 가깝다고 여겨졌던 일이었다.
'증류(distillation)'는 대형 AI 모델의 응답 데이터를 기반으로 더 작은 AI 모델을 훈련시켜 보다 효율적인 성능을 끌어내는 기법이다. 이를 통해 대형 모델의 전문성을 압축해 더 작은 모델이 유사한 논리를 구현할 수 있도록 만든다.
한편, 도널드 트럼프 전 대통령의 AI 정책 책임자인 데이비드 삭스는 화요일 DeepSeek이 OpenAI 모델을 '증류'해 자체 모델을 구축했다는 의혹을 명확히 제기했다.
"DeepSeek이 OpenAI 모델에서 지식을 추출했다는 상당한 증거가 있다"며 "OpenAI가 이에 대해 매우 불쾌하게 여길 것"이라고 삭스는 말했다.
DeepSeek은 첨단 AI 반도체 칩에 접근하지 않고도 높은 성능을 달성한 비결로 정교한 프로그래밍 기술을 활용했다고 주장해왔다.
또한, 자사 모델을 활용해 증류 기법을 사용한 사실은 인정했다. 최근 연구 논문에서 DeepSeek은 가장 강력한 모델인 R1의 출력을 활용해 더 작은 모델을 훈련시켰으며, 이 모델들이 유사한 논리적 추론 능력을 보여주었다고 밝혔다.