딥페이크(deepfake·합성 조작) 음성 알고리즘으로 만든 영어와 중국어 문장을 들려주는 실험에서 사람들이 딥페이크 음성 4개 중 1개는 진짜 사람 음성과 구분해내지 못한 것으로 나타났다.

이는 딥페이크는 사람의 음성과 입술이미지등을 합성 조작하여 만든 기술로 조작이나 사기에 이용될 수 있음을 의미한다.

영국 유니버시티 칼리지 런던(UCL) 루이스 그리핀 교수팀은 3일 과학저널 '플로스 원'(PLOS ONE)에서 영어와 중국어 딥페이크 음성을 들려주고 진짜와 가짜를 찾아내는 실험을 진행했다. 

여기서 참가자들이 딥페이크 음성의 73%는 가려냈으나 27%를 구분해내지 못했다고 밝혔다.

연구팀은 이 연구 결과는 '사람들이 딥페이크 음성을 제대로 구분해내지 못한다는 것'을 확인시켜주는 것으로 딥페이크 음성·이미지의 위협에 대응하기 위한 대응 전략의 필요성이 있다는 것을 보여준다고 말했다.

딥페이크는 실제 인물의 동영상이나 오디오 같은 데이터세트의 패턴과 특성을 학습해 원본 음성이나 이미지를 재현할 수 있게 알고리즘을 훈련하는 기계학습(ML)의 일종인 생성형 인공지능(AI) 범주에 속한다.

오바바 전 대통령의 영상에 음성을 합성하여 만드는 딥페이크 기술관련 영상

(오바바 전 대통령의 영상에 음성을 합성하여 만드는 딥페이크 기술관련 영상, 기사 내용과 무관  )

초기 딥페이크 음성 알고리즘은 원본 오디오 생성을 위해 수천 개의 음성 샘플이 필요했지만 최신 사전학습 알고리즘은 단 3초 분량 음성 클립만으로도 사람 음성을 재현할 수 있다.

연구팀은 이 연구에서 공개된 영어와 중국어 데이터세트로 훈련된 텍스트 음성 변환(TTS) 알고리즘을 사용해 각 언어로 된 딥페이크 음성 샘플 50개씩을 만들고 이를 529명에게 들려주면서 가짜와 진짜 음성을 구분하도록 했다.

그 결과 실험 참가자들은 딥페이크 음성의 73%만 구분해 냈으며, 이런 탐지율은 영어와 중국어 사이에 차이가 없었다.

이어 실험 참가자들에게 딥페이크 음성의 예를 제시하고 구분법을 훈련한 뒤 실시한 실험에서도 페이크 탐지 능력은 약간 개선되는 데 그친 것으로 나타났다.

연구팀은 딥페이크 음성 구분이 어렵다는 것은 딥페이크가 악용될 가능성이 높다는 것을 의미한다며 이런 위협에 대한 방어 대책이 필요하다고 지적했다.

실제로 2019년 영국의 한 에너지 회사에서는 한 직원이 AI 기술로 제작된 상사의 딥페이크 음성 메시지를 받고 헝가리 회사에 20만 유로(약 2억5천만원)를 송금하는 사건이 발생하기도 했다.

논문 제1 저자인 킴벌리 마이 연구원(박사과정)은 "실험에 사용된 샘플이 비교적 오래된 알고리즘으로 만들어진 점을 고려하면, 사람들이 현재와 미래의 정교한 기술로 만든 딥페이크 음성을 얼마나 감지해낼 수 있을지 의문이 든다"고 말했다.

연구팀은 AI 오디오 기술이 언어에 제한이 있거나 질병으로 목소리를 잃은 사람 등에게 도움을 줄 수 있지만, 범죄자나 권력기관 등이 악용해 개인과 사회에 심각한 해를 끼칠 수 있다는 우려도 커지고 있다고 지적했다.