AI 데이터 무임승차의 종말…‘나프스터 모먼트’로 향하는 2026년

2026년은 인공지능(AI)에 '공짜 점심'이 끝나는 해가 될 전망이다. 지난 10여 년간 Google부터 Alibaba까지의 개발자들은 인터넷에 쌓인 저작물을 허락이나 대가 없이 대규모로 학습 데이터로 사용해 왔다. 그러나 그 대가를 치를 시점이 다가오고 있다고 로이터 통신이 26일 보도했다.

로이터에 따르면, 이는 AI의 '나프스터 모먼트'로 볼 수 있다. 현재 50건이 넘는 저작권 소송이 진행 중이며, 대형 재판들도 일정에 올라 있다. Getty Images, The New York Times, NBCUniversal 등은 자사 디지털 콘텐츠가 대형 언어모델(LLM) 학습에 사용된 데 대한 대가를 요구하고 있다.

(AI 학습. 자료화면)

합법적 데이터로의 전환은 비용 상승을 불러오고, 접근권·자본·규모를 갖춘 기업들이 유리한 라이선스 계약과 파트너십으로 쏠리면서 업계 격차를 키울 가능성이 크다.

전 세계로 확산되는 반발과 규제

반발은 전 세계적이다. 컨설팅사 PwC에 따르면 엔터테인먼트·미디어 산업 규모는 약 3조 달러에 이른다. 영국은 출판업계 반발로 텍스트·데이터 마이닝 면제 계획을 철회하고 허가 기반 체제로 전환 중이다. 유럽연합(EU)의 AI법은 머신러닝 학습에 대한 공개 의무를 이미 부과했다. 중국은 한발 더 나아가, 학습 데이터의 울타리·라이선스·이념 심사까지 요구한다.

미국의 법적 경계는 상대적으로 모호하다. 불법 복제 도서 컬렉션 학습이 공정이용에 해당하는지를 두고 법원 판단이 엇갈리며 공방은 장기화될 전망이다. 미 저작권청은 수십 건의 계류 소송을 언급하며, 이 같은 불확실성이 이미 기업들의 사업 계획에 영향을 미치고 있다고 밝혔다.

'합의'가 선택지가 되는 기업들

일부 기업은 예측 가능성을 확보하기 위해 타협을 택하고 있다. 예컨대 Anthropic은 약 50만 권의 도서를 둘러싼 분쟁을 해결하기 위해 9월에 15억 달러를 지급하고, 불법 데이터셋을 폐기하기로 합의했다. 주요 AI 모델 학습 데이터의 70% 이상이 명시적 라이선스가 없었다는 '데이터 프로비넌스 이니셔티브'의 분석은, 법정 다툼보다 합의가 더 저렴할 수 있음을 시사한다.

음악 산업의 선례

불법 복제로 큰 상처를 입었던 음악 산업은 질서 재편을 선도하고 있다. 유니버설, 워너, 소니는 AI 음악 생성 스타트업을 상대로 소송을 제기했고, 세 곳 중 두 곳은 파트너십에 합의해 모델을 '처음부터 재학습'하도록 했다. 합법 카탈로그 기반의 공동 개발이 정당성의 비용이 되고 있는 셈이다.

협력은 선택적으로 확산 중이다. 유니버설은 디지털 지문 기술과 음악 생성 협업을 병행하고 있고, 게티이미지는 이미지 생성 소송을 진행하는 한편 챗봇 엔진에 자사 아카이브를 라이선스했다. 뉴욕타임스는 오픈AI의 제안을 거절하고 소송을 택한 반면, AP와 독일 악셀 슈프링어는 다년 계약을 선택했다.

규모의 논리가 강화된다

역사는 반복된다. 나프스터는 합의 끝에 파산했지만 CD 판매를 무너뜨린 뒤였다. AI는 파괴의 패턴을 반복하지 않겠지만, '무료 콘텐츠' 관념은 실시간으로 재고되고 있다. 타이밍은 기존 강자에게 유리하다. 인터넷 스크래핑이 공짜였던 시절에 기초 모델을 구축한 기술 공룡들은 막대한 이용자 기반과 자본으로 '사후 허가 비용'을 감당할 수 있다. 반면 후발주자는 데이터와 유통이 이미 독점 계약으로 묶인 시장에 진입해야 한다.

투자 관점의 변화와 비용 구조

이 변화는 투자 판단에도 영향을 준다. 대규모·구조화된 컬렉션을 보유한 출판사, 음원사, 스톡이미지 회사들은 희소한 '원료'를 쥐게 됐다. 출처 인증과 권리 감사는 AI 예산의 상시 항목이 될 가능성이 크다. 비용은 음악 스트리밍처럼 매출의 70%에 달하진 않겠지만, 총마진을 몇 포인트 잠식할 공산이 크다. 사용량 연동 로열티와 데이터 비용의 금융화(증권화)도 뒤따를 전망이다.