대메뉴 바로가기 본문 바로가기
화면크기 ENG

한국저작권위원회

인기검색어
폰트, 음악, PPT, 일러스트
전체 메뉴

사이트맵

닫기

저작권동향

저작권동향 상세보기
제목 [이슈리포트] 2026-4-[미국] 미국에서의 AI 저작권 소송(3)(이대희)
담당부서 통상산업연구팀 손휘용(055-792-0097) 등록일 2026-03-10
첨부문서

[이슈리포트] 2026-4-[미국] 미국에서의 AI 저작권 소송(3)(이대희).pdf 미리보기

 

 

미국

 

 

 

미국에서의 AI 저작권 소송(3)

 

고려대학교 법학전문대학원/교수

이대희

 

현재 미국에서는 AI 저작권 침해 관련 소송이 66건이 제기되어 있는 상태이다.(20251214일 기준) 이들 소송은 AI 학습을 위한 데이터 수집, AI 산출물 생성, 검색증강생성(RAG, retrieval-augmented generation) 등을 중심으로 복제권, 배포권, 전시권, 2차적저작물작성권 침해를 대상으로 하고 있다. 소송의 원고들은 언론사나 문학 작가 등 어문저작물, 사진저작물, 음악저작물 등에 대한 저작권자들이고, 피고들은 대규모 AI 개발사를 망라하고 있다. 이 글은 제기된 소송들에 대하여 계류 중인 법원, 원고가 주장하는 사실관계 및 위반 사항을 중심으로 간단하게 정리한 글이다. 이 글은 66건의 소송 중 앞서 다룬 35개의 소송 외에 추가로 9개를 다루고 있고, 나머지 소송들은 동일한 제목으로 연속해서 소개할 예정이다. 이번 이슈보고서는 미국에서의 AI 저작권 소송에 대해 3번째로 정리한 것이다.

1. Anders v. Stability AI, Inc. (노스캐롤라이나 서부 연방지방법원, 1:25-cv-00451, 2025.12.29.)

(1) 사건 개요

원고 Jerry Anders는 음악 및 녹음저작물(Sound Recordings)의 저작권자이다. 피고 Stability AI(이하 Stability)AI 오디오 생성 플랫폼(Stable Audio)을 운영하면서 이용자가 음악 및 음향저작물을 생성할 수 있도록 하고 있고, 피고 AudioSparxStabilityAI 오디오 모델을 학습시키는데 사용하도록 이용허락하여 음악 녹음물을 제공하였다.

(2) 사실관계 (원고 주장)

1. 피고들은 Stable Audio를 학습시키는 동안 원고의 저작물을 복제하였다.

2. 원고는 Stable Audio 출시 몇 개월 전에 AudioSparx에게 자신의 음악을 목록에서 삭제할 것을 요청하였으나, AudioSparxs는 이를 거부하고 Stability에게 원고의 저작물을 제공·이용허락하였다. 원고가 2015AudioSparx와 계약을 체결하였을 당시, AudioSparxAI 이용허락이나 학습을 사업의 일부로서 판매대상으로 제시하거나 설명하지 않았으나, 지금은 AI 이용허락을 별도의 이용허락 범주에 포함시키고 사업의 일부라고 설명하고 있다.

3. Stable Audio 출시 이후, 피고들은 저작권자들이 AI 학습에서 옵트아웃(opt-out)할 권리가 있다고 발표하였고, 원고는 이 권리를 행사하였으나 AudioSparx가 이를 거부하였고, 이후 옵트아웃 요구와 거부가 한 번 더 이루어졌다.

(3) 위반 주장

1. 피고들은 원고 저작물을 복제함으로써 원고의 배타적 권리(§106)를 침해하였다.

2. 피고들은 AudioSparx에 대한 원고의 이용허락이 예정·규정·승인하지 않은 AI 학습 및 상업적 목적을 위하여 원고의 저작물을 복제하였다.

 

2. Ted Entertainment, Inc. v. Meta Platforms, Inc. (캘리포니아 북부 연방지방법원, 4:25-cv-10931, 2025.12.23.)

(1) 사건 개요(당사자)

원고: Ted Entertainment(Ted)를 비롯한 원고들은 유튜브(YouTube)에 시청각 콘텐츠를 업로드하는 콘텐츠 창작자들인데, Ted는 유튜브에 5,800개 이상의 비디오가 있고, Matt Fisher 등은 유튜브에 골프 관련 콘텐츠 등을 업로드하고 있다.

피고: Meta Platforms, Inc.

(2) 사실관계 (원고 주장)

1. Meta‘Make-A-Video’는 텍스트를 입력하여 영상을 결과물로 생성하는 대규모 생성형 AI 시스템이다. 이 시스템은 현재에는 존재하지 않지만, Meta AI 어시스턴트(대화형 AI 비서) 경험의 핵심 기능이 되어, Facebook, Instagram, meta.ai 웹사이트에서 정적인 이미지를 영상으로 바꾸는 “Animate” 기능을 클릭함으로써 이 기능을 활용할 수 있다.

2. MetaMake-A-Video를 구축하기 위하여 유튜브 영상 파일들을 스크래핑하고 다운로드하였는데, 이 과정에서 유튜브의 접근통제 기술적 보호조치를 무력화하였다.

3. 유튜브는 (영상을 스트리밍(streaming) 형태만으로 제공하거나, API에 의하여 이용을 제한하거나, 접근을 통제하는 등 허용된 경로를 제외하고는) 이용자에게 콘텐츠의 디지털 파일 자체에 대한 접근이나 파일의 직접적인 다운로드를 허용하지 않기 위하여 기술적 보호조치를 적용한다.

4. 유튜브 이용약관은, 명시적으로 허용된 기능이나 이용허락받은 API를 통한 경우를 제외하고, 시청각 콘텐츠에 대한 스크래핑, 무단 다운로드, 대량 추출, 기타 데이터 마이닝 행위를 명시적으로 금지하고 있다.

5. 유튜브는 일반 이용자에게는 다운로드옵션을 제공하지 않으며, ‘Premium’ 이용자에게도 용이하게 다운로드할 수 있도록 하지 않도록 한다. 유튜브는 파일에 대한 접근을 제한하며, 일정한 제한기간 동안 오프라인 스트리밍이 가능하게 하지만 기간이 경과하면 온라인 스트리밍만 가능하도록 하고 있다.

6. MetaMake-A-Video 학습을 위한 원재료로서 유튜브 콘텐츠를 사용하였는데, Premium 요금제가 예정한 방식으로 다운로드하지 않았다. 먼저 Meta는 유튜브 콘텐츠를 스크래핑하기 위하여 온라인 코드 공유 플랫폼GitHub를 통하여 ‘HD-VILA-100M 데이터셋을 확보하였다. 이 데이터셋은 실제의 비디오나 클립(clip)을 포함하는 것이 아니라, 310여만 개의 유튜브 비디오의 약 1억 개 클립에 대한 포인터(pointer)만을 제공하고 있다. 따라서 이 데이터셋을 사용하려면 유튜브에서 실제 영상 파일을 직접 다운로드해야 하는데, 여기서 저작물의 복제가 이루어지고, 저작물을 복제하기 위해서는 유튜브가 적용한 기술적 보호조치의 무력화와 유튜브의 이용약관의 위반이 이루어지게 된다.

7. MetaHD-VILA-100M 데이터셋으로부터 ‘HD-VILA-10M’이라는 자체 정제 데이터셋을 구축하였는데, 이 데이터셋은 HD-VILA-100M310여만 개 URL에서 각각 3개의 클립만 선택한 것이었다. 3개의 클립으로 줄였다고 하더라도 각 URL에 있는 원본 비디오 전체에 접근하고 다운로드하는 것이 필요하다.

8. Meta, 오픈소스 YouTube 영상 다운로드 도구인 ‘yt-dlp’IP 주소를 갱신하는 가상 머신(virtual machine)을 결합하여, 유튜브의 콘텐츠 보호조치를 무력화시켰다.

(3) 위반 주장

유튜브의 이용약관과 접근통제는 미국 저작권법 기술적 보호조치 규정(§1201)에서의 효과적인 기술적 보호조치에 해당하는데, Meta는 자동화 도구를 사용하여 유튜브의 접근장벽을 무력화하고 유튜브로부터 영상을 취득하여 학습 코퍼스를 구성하였다. 유튜브 플랫폼을 통하여 영상을 시청하는 행위는 파일에 대한 접근을 제공하지 않는데, Meta는 이러한 접근장벽을 무력화시킴으로써 기술적 보호조치 규정을 위반하였다.

 

3. Ted Entertainment, Inc. v. ByteDance Inc (캘리포니아 북부 연방지방법원, 5:25-cv-10933, 2025.12.23.)

(1) 사건 개요

이 케이스는 피고가 ByteDaqnce, Inc.이고 피고의 생성형 AI 모델이 MagicVideo라는 것과 MagicVideo를 학습시키기 위하여, HD-VILA-100M Webvid-10M 이외에, 자체 수집한 700만 개의 비디오-텍스트 샘플을 이용하였다는 것을 제외하면, Ted Entertainment, Inc. v. Meta Platforms, Inc. 케이스와 동일하다.

 

4. Carreyrou v. Anthropic PBC (캘리포니아 북부 연방지방법원, 3:25-cv-10897-TSH, 2025.12.22.)

(1) 사건 개요(당사자)

원고 John Carreyrou 6명은 서적의 저작자들이고, 피고는 Anthropic, Google, OpenAI, Meta Platforms, xAI Corporation, Perplexity AI이다.

(2) 사실관계 및 위반(원고 주장)

1. 피고 OpenAI(ChatGPT), Google(Gemini), Anthropic(Claude), Meta(Llama), xAI(Grok), Perplexity(Perplexity) 등은 다수의 불법 복제 데이터셋을 결합하여 학습 코퍼스(corpus)를 구성하였다. 피고들이 사용한 데이터셋 중에는 Books3(Bibliotik에 업로드되어 있었던 서적을 일정한 기준에 따라 선별·가공하여 구성한 약 20만 권 서적의 데이터셋), Library Generis(LibGen)(EPUB·PDF와 같은 원본 전자책 형식 그대로의 완전한 전자책 파일 수백만 건을 중앙집중적으로 저장·제공하는 불법 그림자 도서관), Z-Library(LibGen을 확대하고 정교화시킨 파생 그림자도서관으로서, 기존 LibGen와 동일한 콘텐츠를 포함하면서, 서적의 제목, 메타데이터, 조직화 기능을 추가한 그림자도서관)이 포함되었다.

2. Z-Library 등에 대한 저작권 집행 조치(도메인 압수 등)로 인하여 이용할 수 없게 되자, 원본과 완전히 동일한 복사본을 탈중앙 방식으로 배포하는 저장소들이 만들어졌고, 그 중의 하나가 PiLiMi(Pirate Library Mirror)이다. PiLiMiZ-Library 코퍼스를 그대로 복제한 것으로서, P2P에 의하여 다운로드받을 수 있는 데이터셋이다. 일부 피고들은 이미 수집한 데이터셋과 별도로 이를 보충하기 위하여 PiLiMi을 이용하였다.

3. Anthropic의 대부분 학습데이터는 The Pile(LLM 학습을 위한 여러 종류의 데이터셋의 집합체, 800 기가바이트 규모)에 기초하고, The Pile은 하위 데이터셋인 Books3 포함하고, Book3는 불법 전자책으로 알려진 Bibliotik에서 스크래핑한 서적으로 구성된다. 또한 OpenAI의 학습데이터에는 Books3 등 불법으로 획득한 서적이 포함되어 있고, Google의 학습 데이터셋 C4 등이 포함되어 있고 C4에는 Z-Library에서 스크래핑된 자료가 포함되어 있고, xAILibGen과 같은 그림자도서관에서 스크리핑되었고, Perplexity는 원고들 저작물의 불법 복제물로 학습·최적화되었다. 그리고 Anthropic 등의 침해는 고의적인(willful) 것이다.

(3) 위반 주장

1. 각 피고는 상업적 LLM의 개발, 학습, 미세조정, 배포함에 있어 원고들의 저작물의 불법 복제물을 복사·다운로드·복제·인제스트(ingest)·파싱(parse)·임베딩(embedded)·이용하여 원고들의 저작권을 침해하였다.

2. 피고들의 침해는 LibGen, Bibliotik, Z-Library, Books3 및 기타 해적 출처와 같은 그림자도서관으로부터 원고들의 서적을 취득하고, 인제스트, 전처리, 저장, 중복 제거(deduplication), 포맷팅, 토큰화(tokenization) 과정에서 추가 복제물을 만들고, 모델 학습 과정 및 검색 증강 생성(RAG)을 통하여 복제물을 더 많이 만듦으로써, AI 개발 생애주기에 걸쳐 반복적으로 저작권을 침해하였다.

 

5. Attack the Sound LLC v. Kunlun Tech Co., Ltd. (일리노이 북부 연방지방법원, 1:25-cv-15354, 2025.12.17.)

(1) 사건 개요(당사자)

원고 Attack the Sound LLCR&B 밴드인 Attack the Sound의 아티스트를 관리·대표하는 회사이고, Woulard는 싱어송라이터로서 Attack the Sound의 리드 보컬이고 주된 작곡자이고, 그 이외의 원고들은 아티스트(실연자, 연주자), 음악·녹음저작물저작자, 음반제작자이다(집단소송). 피고 Kunlun TechAI 음악·오디오 플랫폼 Mureka를 소유·운영하는 중국 기업이고, Skywork AI Pte.Kunlun Tech가 소유하고 있는 싱가포르 기업으로서 AI 생성 콘텐츠 소프트웨어 및 앱을 개발하고 직접 또는 모기업이나 계열사를 통하여 Mureka를 소유·운영하고 있다.

(2) 사실관계(원고 주장)

1. 피고들은 싱크로나이제이션(synchronization) 이용허락, 라이브러리 음악, 스트리밍, 위탁 제작, 가사 이용허락 등으로 생계를 유지하는 아티스트와 직접 경쟁하는 AI 제품을 생성·판매하고 있다. 피고들은 사전 학습, 학습, 미세 조정 과정에서 원고 저작물을 복사 및 수집하여 중앙 라이브러리에 저장하였고, 온라인상 출처와 코퍼스로부터 가사 및 관련 텍스트를 복사·토큰화하여 Mureka에서 가사 생성기(generator), ·디스트랙 생성기, 사용자가 업로드한 가사를 처리하는 툴을 상업화하였다.

2. 피고들은 업로드 및 기존 녹음물 링크 제공 기능을 통해 트렌드 곡이나 레퍼런스 트랙과 유사한스타일·보컬·악기의 음악을 생성하도록 설계하여, 독립 예술가와 소규모 레이블이 전통적으로 라이선싱해 온 동일한 사용 사례를 명시적으로 겨냥한다. 구독 및 API 기반 사업 모델은 이러한 침해와 AI 결과물에 의한 라이선스 음악의 대체에서 직접적인 수익을 창출한다.

(3) 위반 주장

1. 저작권 직접 침해: 피고들은 사전 학습, 학습, 미세조정 과정에서 저작물을 복사, 저장, 사용하고, 녹음저작물(및 가사)을 취득, 표준화, 인덱싱, 보유하고, 이를 참조(reference), 평가, 모델 비교, 학습 후 기능(리마스터링이나 스타일 보정 등)에 사용하기 위하여 내부의 중앙 라이브러리로 조직화하고, 중앙화된 코퍼스(centralized corpora)에 있는 저작물을 보유, 내부적으로 재배포하고, 반복적으로 재사용하고, 원고의 녹음저작물에서 파생한 AI 생성 음악을 제작·배포하였다.

2. 저작권 직접 침해(음향저작물의 배포): 피고들은 원고 녹음저작물의 복제물 및 음반을 제3자와 공중에게 전자적 전송이나 원격제공 등에 의하여 배포하거나 배포하도록 하였다.

3. 미등록 녹음저작물에 대한 저작권 직접 침해: 피고들은 이전에 등록되지 않았던 녹음저작물(previously unregistered copyrighted recordings)’에 대하여 저작권 직접 침해(1)에서와 동일하게 침해하였다.

4. 가사 및 미등록 가사에 대한 저작권 직접 침해: 피고들은 가사를 복제·인제스트·저장하여 음악생성 모델의 학습 및 미세조정을 위한 학습데이터로 사용하고, 원고 가사를 있는 그대로, 외형상 최소한도로 변경시키거나, 독특한 어구, 라임 스킴(rhyme scheme), 후크(hook), 서사 구조(narrative structure)를 차용한 형태로 AI 결과물을 생성한다.

5. 악곡에 대한 저작권 직접 침해: 피고들은 원고들의 악곡을 전부 인제스트하고, 선율(멜로디)의 음높이 및 시간 배열, 코드 진행(chord progression), 화성 리듬·보이스 리딩, 박자·템포 맵, 그루브 패턴(groove pattern), 편곡·스템 구조, 음색·오케스트레이션 특징 등을 추출·추론하기 위하여 오디오에서 기호로, 오디오에서 특징으로 변환시켰고, 악곡의 표현을 중간 파일, 토큰 시퀀스(token sequence), 스펙트로그램(spectogram), 임베딩, 모델의 파라미터에 고정하여 복제권을 침해하였다.

6. 저작권 관리정보 규정 위반: 피고들은 첫째, AI 학습을 위한 저작물의 복제, 변환, 세그먼트 분할(segmentation) 과정에서, 녹음저작물파일과 가사 파일에 임베딩된 저작권 관리정보(CMI)를 고의로 제거·변경하였다. 제거·변경된 저작권 관리정보(CMI)에는 곡명, 작사가·실연자 성명, 음악출판사, ISRC(International Standard Recording Code, 국제 표준 녹음 코드) ISWC(International Standard Musical Work Code, 국제표준음악저작물코드), 워터마크, 저작권 표시 등이 포함된다. 원고의 음향저작물에는 ID3 태그(tag), 워터마크, 기타 오디오 파일 헤더와 같은 메타데이터 형식으로, 아티스트 성명, 트랙 타이틀, 앨범 정보, 프로듀서·엔지니어 크레딧(credit), 저작권 표시, 이용 제한, 고유 식별 정보 등의 저작권 관리정보(CMI)가 내장되어 있다. 둘째, 피고들은 AI 결과물을 배포하면서 저작권 관리정보(CMI)에 내장되어 있었던 원래의 맥락이나 누구의 것인지 제거하고 제공하여 진정한 출처나 AI 결과물의 소유권을 혼동하게 하고 있다. 피고에 의한 저작권 관리정보(CMI) 제거, 변경, 저작권 관리정보(CMI)가 제거된 원고의 음향저작물을 배포하는 것은 저작권 관리정보의 제거·변경을 금지하는 규정(§1202(b))의 위반에 해당한다.

7. 기술적 보호조치 무력화 및 거래 금지 규정 위반: 피고들은 첫째, 권리자 및 권리자로부터 이용허락받은 플랫폼에서 사용되는 스트림 및 다운로드 방지 기술을 우회하거나 무력화하여 음향저작물을 대량으로 취득하였는데, 이러한 기술에는 암호 서명 방식 및 롤링 사이퍼(rolling cypher), HTTPS 토큰화·HLS AES-128 세션 키잉(keying), Widevine, PlayReady, FairPlay와 같은 디지털 권리관리(DRM) 시스템이 포함된다. 이러한 기술들은 저작권자가 승인한 정보, 절차, 처리를 적용하여야 오디오 파일에 접근할 수 있도록 하는데, 피고들은 예컨대 서명 디코딩 루틴을 실행하는 등의 방법으로 롤링 사이퍼를 회피·우회·제거·비활성화·손상시켰다. 피고의 이러한 행위는 접근통제의 무력화를 금지하는 규정(§1201(a)(1)(A))의 위반에 해당한다.

둘째, 피고들은 플랫폼 접근통제, 복제통제를 회피하도록 주로 설계되고, 회피 외에는 상업적으로 유의미한 목적이 없거나 제한적인 기술·제품·서비스·장치 또는 구성요소를 제조, 개조, 통합, 조달하였다. 피고의 이러한 행위는 접근통제나 권리통제를 무력화시키는데 사용되는 도구의 거래금지 규정(§§1201(a)(2), 1021(b)(1))의 위반에 해당한다.

8. 허위의 저작권 관리정보의 제거 등의 금지 규정 위반: 피고들은 원고들의 녹음저작물및 가사로부터 진정한 원고가 부착한 저작권 관리정보(CMI)(ID3 태그, 내장된 크레딧, 들을 수 있는 워터마크 등)를 제거하고 분리하고, 이러한 저작권 관리정보(CMI)가 없이 Mureka 자체 또는 이용자의 식별자와 소유권 라벨로 대체된 AI 결과물을 배포하고, AI 생성 트랙에 플랫폼 사용자의 명칭(닉네임, 계정 ID)을 눈에 띄게 표시하고, AI 결과물이 원고들의 녹음저작물및 가사에서 유래한 보호 표현인 상황에서, AI 결과물의 소유권을 Mureka 또는 사용자에게 귀속시키고, AI 결과물에 다른 곡에 나와 있는 프로듀서 태그나 음성 식별자를 포함되도록 하여 허위의 저작자 정보를 표시한다. 피고의 이러한 행위는 허위의 저작권 관리정보(CMI) 제공을 금지하는 규정(§1202(A))을 위반하는 것에 해당한다.

9. 녹음저작물 및 가사에 대한 저작권 기여 침해: 플랫폼 이용자, 데이터 공급자 및 컴파일러, 기술·유통 파트너 등 제3자들은 원고의 저작권을 직접 침해하였다. 곧 플랫폼 이용자들은 원고 저작물과 유사한 AI 생성 파일과 가사를 생성·고정하고, 이를 유튜브 등의 플랫폼에 업로드·스트리밍·싱크(sybc)·배포하였다. 데이터 공급자들은 피고들이 학습 및 미세조정을 하도록 원고의 음향저작물과 가사를 복제하고 배포하였고, 기술·유통파트너들은 AI 결과물을 공중에 제공하기 위하여 저작권을 침해하는 결과물을 복제·배포하였다. 피고들은 이러한 제3자들의 침해에 대한 추정적으로 인지하고 있었고(constructive notice), 이들의 침해에 실질적으로 기여함으로써, 이들 제3자들의 침해에 대한 기여침해를 부담한다.

10. 녹음저작물 및 가사에 대한 저작권 기여 침해: 피고들은 제3자에 의한 침해 활동을 감독·통제할 권리와 능력을 보유·행사하였고, 3자의 침해로부터 직접적인 금전적 이익을 얻었으므로, 3자의 침해에 대하여 대위책임을 부담한다.

11. 일리노이주법의 퍼블리시티권 침해: 피고들은 원고들의 음성, 보컬 음색, 태그 등을 상업적으로 사용하였고, 이는 상업적 목적으로 자신의 정체성(identity)을 사용할 것인지, 어떻게 사용할 것인지를 통제·선택할 권리를 인정하고, 서면에 의한 동의에 의하지 않는 상업적 이용을 금지하는 퍼블리시티권을 보호하는 일리노이주 법(IRPA, 765 ILCS 1075/10, 765 ILCS 1075/20)을 위반한 것에 해당한다.

 

6. Lyon v. Adobe (캘리포니아 북부 연방지방법원, 5:25-cv-10732-NC, 2025.12.16.)

(1) 사건 개요(당사자)

원고 Elizabeth Lyon 등 피고 Adobe학습·개발·배포한 소형 언어 모델(SLM, small language model)SlimLM의 학습 데이터셋 SlimPajama에 포함된 서적의 저작자들이다(집단소송).

(2) 사실관계 및 위반(원고 주장)

1. SLM은 태블릿, 노트북과 같이 하드웨어 자원이 제한된 기기에서도 효율적으로 작동하도록 설계된 AI인데, Adobe는 모바일 기기에서 문서 보조 작업을 수행하도록 최적화된 일련의 SLM 모델인 SlimLM을 학습·개발·배포하였다. Adobe가 사용한 사전학습 데이터셋인 SlimPajama는 공유영역의 자로, 저작권자로부터 이용락받은 자료, 저작권으로 보호되는 자료를 포함하는 RedPajama 데이터셋을 정제(중복제거)한 버전이다.

2. SlimPajama 데이터셋은 RedPajama 데이터셋으로부터 파생된 것이고, RedPajama 데이터셋을 복제·정제·중복제거한 버전이다. RedPajama 데이터셋은 Books 또는 Redpajama-Books라는 하위 데이터셋을 포함하고 있는데, 이들 하위 데이터셋은 사실상 Books3 복제물이다. Books3Bibiliotik 콘텐츠의 복제물에서 파생한 서적 데이터셋이고, Bibliotik은 소설 및 비소설 서적으로 구성된 거대한 서적 데이터셋이다. SlimPajama 데이터셋은 RedPajama 데이터셋을 복제·조작하여 생성한 것이고, 따라서 Books3에는 원고들의 저작물이 포함되어 있으으므로 AdobeSlimPajama에는 원고들의 저작물이 포함되어 있다.

 

원고들의 저작물 Bibliotik Books3 AdobeSlimPajama

 

3. AdobeSlimLM 모델을 학습시키기 위하여 SlimPajama 데이터셋을 다운로드, 복제, 저장, 사용하였고, 모델을 사전 처리 및 사전학습하는 동안 저작물을 반복적으로 다운로드, 복제, 처리하였고, ③㉮이러한 사전학습 데이터셋을 서버에 계속 보관했고, 그 데이터셋을 SlimLM의 신규 버전 학습 등에 계속 저장·사용하고 있고, 적어도 최소한 최초 학습된 모델의 파라미터를 유지하는 방식으로라도 그 사용은 계속되고 있다.

(3) 위반(원고 주장): 저작권 직접 침해

AdobeSlimLM 모델 및 기타 관련 모델의 사전학습을 위하여 원고의 저작물을 포함한 SlimPajama 데이터셋의 복제물을 다운로드, 복제, 저장, 최적화, 사용하였고, 모델의 사전학습을 위하여 이 데이터셋을 여러 차례 복제하여, 저작권을 직접 침해하였다.

 

7. Brave Software, Inc. v. News Corporation (캘리포니아 북부 연방지방법원, 3:25-cv-02503, 2025.3.12.)

(1) 사건 개요

원고 Brave Software, Inc.(Brave)News Corporation, Dow Jones & Co., NYP Holdings, Inc., News Corp UK & Ireland Limited, News Corp Australia를 상대로, 저작권 침해의 부존재, 저작권 남용, 계약 위반의 부존재에 대한 확인판결(declaratory judgment)을 구하는 소송임.

(2) 사실관계 및 위반(원고 주장)

1. Brave Search라는 검색엔진을 제공하는 원고는 인터넷을 체계적으로 탐색(‘크롤링’)하여 웹 콘텐츠를 발견하여 중앙 데이터베이스에 목록화하는데, 이 데이터베이스는 검색결과를 제공하는데 활용되었다. 목록화하는 과정을 색인화(indexing)라고 하는데, 이에 의하여 웹은 검색 가능해지고 이용자들이 접근성을 높이게 된다. Brave, 콘텐츠제공자가 (a) 유료로 제공하거나, (b) 접근을 위하여 로그인 및 비밀번호 정보를 요구하거나, (c) 색인화하지 않도록 표시하는 등 접근을 방지하기 위한 조치를 취한 콘텐츠에는 접근하거나 이를 색인화하지 않는 등, 인터넷 이용자들에게 이용제공하는 콘텐츠에만 접근하고 색인화하고 있다.

2. 피고들은 Brave의 웹사이트 콘텐츠 색인화가 저작권 침해이고 웹사이트 이용약관 위반이라고 주장하였다. 그러나 법적 선례와 관행에 의하면, 검색엔진을 위한 웹사이트 콘텐츠 색인화는 저작권 침해가 아니라 공정이용에 해당한다. Brave는 상당 부분이 저작권에 의하여 보호되지 않는 피고 콘텐츠를 변형적인 방식(transformative way)으로 처리하고, 피고의 뉴스 기사들은 사실 중심적이고, Brave는 검색 엔진을 운영하고 특정 검색 질의에 응답하기 위하여 필요한 분량만큼만 저작물을 이용하고, Brave의 검색결과는 정보가 제공되는 출처를 인용하고 해당 하이퍼링크된 출처로 사용자를 안내하고 있다.

3. Brave의 검색결과는 이용자에게 제3자 웹페이지의 전체 콘텐츠나 전체 텍스트를 제공하지 않으며, ‘스니펫(snippet)’을 제공하는데, 각 스니펫은 최대 300자이며, 평균적으로 제3자 콘텐츠의 1% 미만에 해당한다.

4. 피고들은 Brave의 모든 과거 무단 사용 및 판매에 대해 보상을 요구하면서, 수십억 달러에 이를 수 있는 법정손해배상을 청구하려는 시도를 하고 있다. 피고들은, 공정이용을 별론으로 하더라도, 저작권으로 보호되지 않는 웹사이트 콘텐츠에 대해서도 권리를 주장하고, 회사 존립을 위협할 수 있는 법정손해배상을 위협하고 있는데, 이는 저작권 남용에 해당한다.

5. 피고들의 행위가 승인되거나 방치된다면, 검색 엔진 시장 진입은 사실상 불가능해지고, 그 과정에서 생성형 AI 발전을 저해할 것이다.

(3) 소송 종결

이 소송은 2025.6.9. 당사자들이 종결하기로 합의하여 취하함으로써 종결되었는데, 다만 후에 동일한 소송을 제기할 수 있는 식(without prejudice)으로 종결되었다. 미국 연방 민사소송규칙은 모든 당사자들이 취하하기로 서명한 문서를 법원에 제출하면 원고가 소송을 취하할 수 있도록 하고 있는데(Federal Rule of Civil Procedure, §41(a)(1)(A)(ii)), 당사자들이 합의(settlement)하여 취하하였거나, 원고가 전략적으로 취하하였을 가능성이 있다.

 

8. UAB “Planner5D” v. Facebook Inc. (캘리포니아 북부 연방지방법원, 3:20-cv-08261-JCS, 2020.11.23.)

(1) 사건 개요(당사자)

원고 UAB “Planner5D”는 가정·사무 공간의 3차원적 객체 및 장면을 제공하는 기업이고, 피고는 이를 연구·활용한 FacebookPrinceton 대학교(이사회), 그리고 저작권 침해에 관여하거나 용이하게 한 여러 주체들이다.

(2) 사실관계 및 위반(원고 주장)

1. 원고는 가정과 사무 공간을 묘사한 백만 개가 넘는, 인간이 설계하고 손수 제작한, 디지털화한, 현실적인 삼차원 객체(object) 및 장면(scene)의 컬렉션을 보유한, 웹 기반 인테리어 디자인 도구 분야의 선두 기업이다. 객체는 소파, 의자, 테이블, 침대 등 사람이 개별적으로 제작한 3차원적 디지털 자산을 의미하고, 장면은 응접실이나 침실과 같이 원고가 제공하는 객체들을 사용자가 선택하여 구성되는 하나의 공간이다. 장면은 이용자 제작콘텐츠와 유사하지만, 원고가 사용자가 제작한 장면 중에서 예술성, 다양성, 적합성 등을 기준으로 일부를 선별하여 public gallery에 포함시키고 있고, 원고의 객체와 장면 파일은 창의적인 저작물이고 영업비밀에 해당한다.

2. Princeton의 과학자들은 원고로부터 객체 및 이미지 파일을 다운로드하였고, 다운로드한 것들을 SUNCG 데이터셋이라고 부르면서 웹 링크를 제공하여 제3자가 이를 다운로드할 수 있도록 하였고, Facebook 등의 연구자들에게도 연구의 중요한 구성요소로 사용되었다. 또한 PrincetonSUNCG 데이터셋을 새로 복제하여 스탠퍼드 대학의 URL에 저장하여 SUMO Challenge(3D 장면 이해 및 모델링 알고리즘 개발을 목표) 참가자들이 데이터셋에 접근, 다운로드, 사용하도록 독려하였다.

3. PrincetonFacebook이 원고의 5D 데이터셋을 사용한 것은 3D 인테리어 장면을 인식하기 위한 AI 애플리케이션을 개발하기 위한 것이었다.

(3) 위반(원고 주장):

1. 직접침해: 원고는 객체 및 장면으로 구성된 컴퓨터프로그램(객체 및 장면 저작물)의 저작권자이고, 피고들은 저작물을 복제, 배포, 전시, 2차적저작물을 작성함으로써 원고의 저작권을 직접 침해하였다.

2. 기여침해: 피고들은 연구자, 제품 개발자, SUMO 챌린지 참가자들에게 저작물을 복제, 배포, 전시, 2차적저작물 작성하도록 유도·야기하였으며, 이러한 행위에 실질적으로 기여함으로써 기여침해를 하였다.

3. 대위침해: 피고들은 연구자 등의 저작물 접근 및 사용을 감독·통제할 권리와 능력을 가지고 있었고, FacebookPrinceton은 이러한 행위로부터 금전적 이익을 얻었으므로, 대위침해를 하였다.

(4) 소송 종결

이 소송은 2025.5.13. 당사자들의 화해(settlement)하기로 합의함으로써 종결되었다. 미국 민사소송에서 당사자들의 화해는 당사자들 간에 사적 계약에 해당하는 사적 화해를 하거나, 법원이 화해 조건을 심리하고 승인하여야 하는 사법적 화해로 나뉘는데, 전자는 법원이 절차적 적법성만 확인하고 화해 내용의 공정성이나 적정성 등은 심리의 대상이 되지 않고 비공개가 가능한다, 후자는 주로 집단소송, 미성년자나 무능력자의 권리 침해, 공익적 규제 사건 등에 대하여 이루어진다. 이 소송에서는 전자에 해당하는 화해이다.

 

9. Brian Keene et al. v. NVIDIA Corporation (캘리포니아 북부 연방지방법원, 4:24-cv-01454-JST)

(1) 사건 개요(당사자)

사건 경과: 이 소송은 Dubus v. NVIDIA Corporation 케이스(4:24-cv-02655, 2024.5.2.)Nazemian v. NVIDIA Corporation 케이스(4:24-cv-01454, 2024.3.8.)를 병합한 케이스이고, 수정 소장(amended complaint)가 제출되었다(2025.12.8.).

원고 Brian Keene 등은 Ghost Walk(호러 소설) 등의 저작권자이다. 피고 NVIDIA20229월 공개된 LLM 모델인 NeMo MegatronThe Pile 데이터셋으로 학습시킨 주체이다.

(2) 사실관계(원고 주장)

1. NVIDIANeMo Megatron 등 여러 AI 모델들은 ‘The Pile’ 데이터셋으로 학습되었는데, The Pile의 구성요소 중 하나는 Books3(108 GB, The Pile의 약 12%)이다. Books3Bibliotik에서 파생된 도서 데이터셋인데, 원고의 저작권 서적들이 포함되어 있다.

2. NIVIDASlimPajama 데이터셋도 다운로드하였고, SlimPajamaRedPajama 데이터셋을 정제·중복 제거하여 생성된 것이며, RedPajama 역시 Books3를 포함하고 있다. NVIDIAsentencepieceBPE(토크나이저)를 테스트하기 위하여 SlimPajama를 사용함으로써, 원고들의 저작권을 침해하였다.

3. NIVIDA는 내부 연구과정에서도 The Pile의 불법 복제본을 제작하였다.

4. 그림자도서관인 Anna’s Archive2022년 출범 직후 역시 그림자도서관인 LibGen, Z-Library, Sci-Hub 등에서 유래한 자료와 추가 불법 도서들을 대규모로 호스팅하도록 빠르게 확장되었고, 수백만 권의 불법 복제 도서를 호스팅하고 있다. Anna’s ArchiveNVIDIA에게 수백만 권의 해적 서적을 제공하고 Internet Archive의 수백만 권의 서적에도 접근하도록 하였는데, NVIDIAAnna’s Archive를 다운로드받음으로써 원고의 저작권을 침해하였다.

5. NVIDIAAnna’s ArchiveThe Pile 외에도, LibGen, Sci-Hub, Z-Library 등 다른 섀도 라이브러리에서 도서를 다운로드하였다.

6. 원고들의 서적은 Books3 데이터셋에 포함되어 있으며, Anna’s Archive, LibGen, Z-Library, Internet Archive를 통해 온라인에서 이용 가능하다.

7. NVIDIANeMo Megatron 프레임워크와 BigNLP 플랫폼을 통하여 고객이 대규모 언어모델 학습에 사용되는 The Pile 데이터셋을 자동으로 다운로드하고 전처리할 수 있도록 하는 스크립트를 제공하였다. 이에 의하여 고객(AI 개발자)들은 The Pile을 별도의 수작업 없이 자동으로 내려받고 전처리할 수 있게 됨으로써, NVIDIA는 이들이 데이터셋을 대량으로 용이하게 획득하고 활용할 수 있도록 하였다.

(3) 위반(주장)

1. 저작권 직접침해: NVIDIA는 그림자도서관에서 침해 저작물을 다운로드하고, 자사의 언어 모델을 학습·개발하는 과정에서, 침해 저작물의 복제물을 여러 차례 만들었고, 다른 모델을 학습하기 위해 계속 저장하고 만들고 있고, 이에 의하여 저작권(복제권, 2차적저작물작성권, 전시권, 배포권)을 침해하였다.

2. 저작권 기여침해: NVIDIAAmazon, Persimmon AI, Writer 등 다수의 고객들이 저지른 직접 저작권 침해에 실질적으로 기여하고 이를 직접 도와주었다. NVIDIANeMo Megatron 프레임워크를 사용하는 제3자들에 의해 발생한 직접침해를 알고 있었거나 적어도 알만한 이유가 있었다.

3. 저작권 대위침해: NVIDIAAmazon, Persimmon AI, Writer 등 고객들의 직접 침해 행위를 통제할 수 있는 권한과 능력을 보유하고, 고객들이 NeMo Megatron 프레임워크를 사용하여 The Pile(Books3) 데이터셋을 다운로드하도록 함으로써 직접침해로부터 금전적 이익을 얻었으므로, 고객들의 직접침해에 대한 대위침해를 하였다.

 

 

참고자료

 

https://www.courtlistener.com/docket/72083948/anders-v-stability-ai-inc/

https://www.pacermonitor.com/public/case/62669921/Ted_Entertainment,_Inc_et_al_v_Meta_Platforms,_Inc

https://www.courtlistener.com/docket/72075006/ted-entertainment-inc-v-bytedance-inc/

https://www.pacermonitor.com/public/filings/DDCHQ66I/Carreyrou_et_al_v_Anthropic_PBC_et_al__candce-25-10897__0057.0.pdf

https://www.pacermonitor.com/public/case/61895793/Attack_the_Sound_LLC_et_al_v_Kunlun_Tech_Co,_LTD_et_al

https://www.law360.com/cases/694265f65dc0aa8996ed8bf7

https://www.courtlistener.com/docket/69732536/brave-software-inc-v-news-corporation/

https://www.courtlistener.com/docket/18689287/uab-planner5d-v-facebook-inc/

https://www.courtlistener.com/docket/68325563/nazemian-v-nvidia-corporation/

 

  • 담당자 : 손휘용
  • 담당부서 : 통상산업연구팀
  • 전화번호 : 055-792-0097

본 페이지의 내용이나 사용 편의성에 대해 만족하십니까?

  • 만족도 총 5점 중 5점
  • 만족도 총 5점 중 4점
  • 만족도 총 5점 중 3점
  • 만족도 총 5점 중 2점
  • 만족도 총 5점 중 1점
평가하기