| 제목 | [이슈리포트] 2025-제17-[미국] 미국에서의 AI 저작권 소송(1)(이대희) | ||||
|---|---|---|---|---|---|
| 담당부서 | 통상산업연구팀 김영희(0557920092) | 등록일 | 2025-12-23 | ||
| 첨부문서 | |||||
|
미국에서의 AI 저작권 소송(1) - 2025년 12월 기준 - 고려대학교 법학전문대학원/교수 이대희 2025년 12월 14일 현재 미국에서는 AI 저작권 침해 관련 소송이 66건이 제기되어 있는 상태이다. 이들 소송은 AI 학습을 위한 데이터 수집, AI 산출물 생성, 검색증강생성(RAG, retrieval-augmented generation) 등을 중심으로 복제권, 배포권, 전시권, 2차적저작물작성권 침해를 대상으로 하고 있다. 소송의 원고들은 언론사나 문학 작가 등 어문저작물, 사진저작물, 음악저작물 등에 대한 저작권자들이고, 피고들은 대규모 AI 개발사를 망라하고 있다. 이 글은 제기된 소송들에 대하여 계류 중인 법원, 원고가 주장하는 사실관계 및 위반 사항을 중심으로 간단하게 정리한 글이다. 이 글은 66건의 소송 중 20개를 다루고 있고 나머지 소송들은 동일한 제목으로 연속해서 소개할 예정이다. 미국 AI 저작권 소송에 대한 이해 편의를 위하여 소송에서 자주 언급되는 저작권법상의 사항을 먼저 간단히 살펴보기로 한다. • 저작물 유형: 미국 저작권법은 저작물로서 ①어문저작물, ②음악저작물(수반되는 가사 포함), ③드라마저작물(수반되는 음악 포함), ④판토마임(pantomime) 및 무용저작물, ⑤회화∙그래픽∙조각저작물, ⑥영화 및 기타 시청각저작물, ⑦녹음물, sound recording), ⑧건축저작물을 예시하고 있음(§102(a)). AI 저작권 소송에서 주로 관계되는 저작물은 어문저작물, 음악저작물, 녹음물. • 녹음물은 일련의 음악∙음성∙그 밖의 소리가 고정됨으로써 성립하는 저작물로 정의하는데(§101), 이는 음악 등을 음반에 고정하는 행위를 창작 행위로 파악하고, 이러한 창작 행위에 의하여 생기는 것이 녹음물임. 녹음물의 저작자는 음반제작자와 실연자인데, 주로 음반제작자가 저작자임. 한국에서 저작인접권자로 보호하는 것을 미국에서는 저작자로 보호하는 것이라 할 수 있음. • 공정이용(fair use) 여부를 결정함에 있어서 고려하여야 할 요소는 ①이용의 목적과 성격, ②저작물의 성격, ③이용된 부분이 저작물 전체에서 차지하는 양과 상당성, ④이용이 저작물의 잠재적 시장이나 가치에 미치는 영향임(§107). • 기술적 보호조치: ①접근통제 기술적 보호조치의 무력화 금지(§1201(a)(1)(A)), ②접근통제 기술적 보호조치 무력화를 목적으로 주로 설계되거나 제작된 기술 등의 제작 등의 금지(접근통제 무력화 도구의 거래금지, §1201(a)(2)), ③저작권 보호 기술적 보호조치 무력화 목적으로 주로 설계되거나 제작된 기술 등의 제작 등의 금지(권리통제 무력화 도구의 거래금지, §1201(b)). • 권리관리정보(copyright management information, 이하 ‘CMI’): ①저작권 침해를 인지하고, 저작권 침해를 유인하고, 가능하게 하고, 용이하게 하고, 은닉하려는 의도로, ㉮허위의 CMI를 제공하거나, ㉯배포하거나 배포를 위하여 수입하거나(§1202(a)), ②㉮CMI를 고의로 제거∙변경하거나, ㉯제거∙변경된 것을 인지하고서, CMI 배포하거나 배포를 위하여 수입하거나, ㉰저작권 침해를 유인하고, 가능하게 하고, 용이하게 하고, 은닉할 것이라는 것을 인지하거나 인지할 만한 이유가 있고, CMI가 제거∙변경된 것을 인지하고서, 저작물, 저작물의 복제물, 음반을 배포하거나, 배포를 위하여 수입하거나, 공연하는 것(§1202(b))은 금지됨. • 간접 침해: 타인의 직접 침해가 있는 경우에 인정될 수 있는 침해로서 기여 침해와 대위 침해로 나뉨. 기여 침해(contributory infringement)는 ①타인의 직접 침해를 실제 인지하거나 합리적으로 인지할 수 있었고, ②침해에 실질적으로 기여하거나 유도한 경우에 성립함. 대위 침해(vicarious infringement)는 ①타인의 직접 침해를 통제할 권리나 능력을 가지고 있고, ②직접 침해로부터 직접적으로 금전적 이익(financial benefit)을 얻는 경우에 성립. 1. The New York Times Company v. Perplexity AI, Inc. (1) 뉴욕 남부 연방지방법원(1:25-cv-10106, 2025.12.5.) (2) 사실관계(원고 주장) ① Perplexity는 생성형 AI 서비스를 제공하는 기업으로 Perplexity에 질문하면 AI로 인터넷을 실시간 검색하고 최상급 출처로부터 통찰(insight)을 수집한 후, 이 정보를 명확하고 간결하게 요약•정제하여, 이해하기 쉬운 대화형의 답변을 이용자에게 제공한다. ‘수집(gathering)’이라는 행위는 출판사의 콘텐츠를 복제하고 이를 LLM과 결합하여 타인이 소유한 저작권 보호 콘텐츠로부터 파생된 장문의 표현적 산출물을 생성하는 것을 포함한다. Perplexity는 콘텐츠를 복제하여 검색 인덱스에 저장하고, “RAG” 제품군(챗봇(답변 엔진), 기업용 챗봇, API, 개인 비서(Comet 브라우저) 등이 포함)에 제공한다. 이후 Perplexity는 원본 콘텐츠를 서면 응답 형태로 재포장하여 이용자에게 제공하는데, 이러한 응답(산출물)은 종종 Times 저작물 등 원문을 그대로 또는 거의 그대로의 복제, 요약, 또는 발췌본에 해당한다. ② Perplexity는 두 개 단계에서 Times의 저작권을 침해하는데, 첫째, 입력 단계에서 Times 및 제3자의 플랫폼에서 Times의 콘텐츠를 무단 스크롤링, 스크래핑, 복제 및 배포하는 것과 둘째, 출력 단계에서 생성형 AI 제품이 Times와 동일 또는 실질적으로 유사한 산출물을 생성하는 경우이다. ③ Times는 174년간 이어진 고품질의 독창적인 독립 언론사인데, 생성형 AI 제품은 고품질 저널리즘을 위협하여 Times는 Perplexity의 불법 행위로 인해 손해를 입고 있다. (3) 침해(위반) 주장 및 청구 사항 ① 생성형 AI 제품군에 입력하기 위한 저작물의 복제로 인한 복제권을 직접 침해하였다. ② 이용자의 질문에 산출물을 제공함으로써 2차적저작물작성권을 침해하였다. ③ 이용자가 저작권을 침해하는 경우, Perplexity는 기여 및 대위 침해: Perplexity는 (a)이용자의 직접 침해를 인지하고 있고, 이용자들의 침해 행위를 고의로 유도하였고, (b)이용자의 침해 행위를 감독, 통제할 법적 권리 및 실제의 능력을 가지고 있었으나 이용자들의 침해 행위를 방지할 합리적인 조치를 취하지 않았다. 2. Chicago Tribune Company, LLC v. Perplexity AI, Inc. (1) 뉴욕 남부 연방지방법원(1:25-cv-10094, 2025.12.4.) ※ 해당 사건은 원고가 Chicago Tribune Company라는 것만 제외하고, 사실관계나 위반(주장)이 The New York Times Company v. Perplexity AI, Inc. 사건과 사실상 동일하다. 3. U.S. News & World Report, L.P. v. OpenAI, Inc. (1) 뉴욕 남부 연방지방법원(1:25-cv-09912, 2025.11.26.) (2) 사실관계(원고 주장) ① OpenAI는 원고의 웹사이트 등에서 콘텐츠를 탈취하여 LLMs을 학습시키고, OpenAI 제품 사용자들에게 원고의 콘텐츠를, 출처를 표시하지 않고(uncredited), 아무런 보상도 하지 않고 역류시킴으로써(regurgitation) 원고의 저작권 및 상표권을 침해하였다. ② 원고가 제공하는 콘텐츠는 비상업적 용도로만 허용되고, 원고가 제공하는 서비스에 게시된 자료 및 도구를 이용하여 소프트웨어 프로그램, 모델, 알고리즘, 생성형 AI 도구의 개발(학습, 미세조정, 그라운딩(grounding) 또는 RAG의 일부로 사용하는 행위 포함)은 금지된다. OpenAI는 ①LLM을 사전학습, 학습, 미세조정하는 과정과 ②LLM을 탑재한 제품을 운영하는 과정에서 원고의 자료의 복제물을 생성하고 배포하였다. ③ OpenAI는 (a)GPT 모델에 구현되어 있는 원고의 콘텐츠와 (b)GPT 기반 제품에 의하여 생성된 콘텐츠(원고 콘텐츠와 단어 그대로 동일한 복제물 및 2차적저작물)를 무단 전시하였다. ④ OpenAI는 이용자의 침해에 대하여 중대한 기여를 하였다. ⑤ OpenAI는 원고의 콘텐츠에서 저작권 관리정보(CMI)를 제거하였다. (3) 침해(위반) 주장 및 청구 사항 ① 저작권 직접 침해: (a)원고의 저작물을 포함하는 학습데이터 구축(원고의 사이트 및 제3자 데이터셋에서 저작물을 복제), (b)학습과정에서 원고 저작물을 저장, 처리, 복제, (c)원고의 저작물로 학습된 GPT 모델들을 저장, 처리, 복제함으로써, 저작물을 암기, (d)원고 콘텐츠의 복제물 및 2차적저작물을 포함하는 출력물을 배포하였다. ② 저작권 기여 침해: (a)사용자의 직접 침해에 실질적으로 기여하고, (b)이를 실제 인지하고 있었거나 인지한 것으로 추정되고, 사용자의 직접 침해를 의도적으로 무시하였다. ③ 저작권 관리정보 제거: 학습데이터 구축 과정과 합성 검색 결과(synthetic search results)를 생성하는 과정에서 원고의 저작권 관리정보(CMI, 저작권 고지(copyright notice), 저자 이름, 출판사 이름, 제목 및 기타 식별 정보, 이용 조건, 저작권 관리정보를 가리키는 식별 번호나 기호 등)를 제거하였다. 4. James v. Snowflake Inc. (1) 몬태나 연방지방법원(CV-25-108-BU-BMM, 2025.11.21) (2) 사실관계 ① 원고 집단소송(서적의 저작자), 피고 Snowflake의 LLM 제품군(Arctic 모델) ② 학습 데이터셋: 인터넷에서 다운로드받은 RedPajama 데이터셋(Books3 데이터셋 포함), Books3에는 원고들의 서적이 포함되어 있다. ③ 원고 행위 및 저작권 침해: Arctic 및 관련 LLM 개발을 위해 RedPajama 데이터셋을 다운로드·복제·저장. 데이터셋을 서버에 저장하고 있으며, 모델 파라미터 등을 포함해 새로운 Arctic LLM 버전 개발에도 계속 사용, 원고의 배타적 권리를 직접 침해하였다. 5. Entrepreneur Media, LLC v. Meta Platforms, Inc. (1) 캘리포니아 북부 연방지방법원(5:25-cv-09579-BLF, 2025.11.26.) (2) 사실관계(원고 주장) ① 그림자 도서관 웹사이트에서 의도적인 불법 복제 행위를 통해 원고(서적과 잡지 출판사)의 저작물을 획득하였다. ② Meta는 Reuters, Shutterstock, Universal Music Group과 LLM 학습을 위하여 AI 라이선스 계약을 체결하였으나, 원고의 저작물 절취하였다. ③ Meta의 학습 데이터셋에는 The Pile(LLM 학습을 위한 여러 종류의 데이터셋의 집합체)에 있는 Books3 부분이 포함되어 있다. Books3는 그림자도서관인 Bibliotik에서 가져온 196,640권의 책을 포함하고 있다. The Pile의 설명서는 Books3가 거의 전적으로 저작권이 있는 저작물로 구성된다고 설명하고 있다. 또한 메타는 Llama 학습을 위하여 역시 그림자도서관인 LibGen 코퍼스(corpus)를 다운로드 받았다. LibGen 메타데이터는 수많은 원고의 저작물들이 LibGen에 나타난다는 것을 표시하고 있다. ④ 그림자도서관 및 토렌트: Bibliotik, Library Genesis(LibGen), Z-Library 등의 그림자도서관들은 토렌트(torrenting)라고 불리는 탈중앙화된 P2P 파일 공유 시스템을 포함한 다양한 방법을 사용하여 저작물을 다운로드 및 배포할 수 있게 하였다. 토렌트는 파일을 다운로드받은 사람들이 ‘기생적인(parasitic) 행위’를 방지하기 위해 팃포탯(tit-for-tat) 방식으로 파일의 조각들(chunks)을 업로드하고 다운로드함으로써 교환하는 방식이다. 사용자들은 다운로드하는 동안(‘리칭’이라 함)과 다운로드한 후(‘시딩’이라 함) 모두 데이터를 공유한다. ⑤ Llama 모델들은 이전 버전의 Llama 체크포인트(checkpoint)와 중복되는 학습 데이터셋을 사용하여 훈련되었으며, 따라서 일단 원고의 저작물이 사용되면, 그 보호받는 표현은, 적극적으로 식별되어 제거되지 않는 한, 이후 및 미래의 Llama 모델들로 지속되고 이월된다. ⑥ 시장 희석: Meta는 학습데이터 이용허락 시장을 우회하여 원고의 이용허락 수익을 박탈하고, 시장에 LLM이 도입된 이후 디지털 도서 판매 약 50% 감소, Llama 생성물은 원고의 저작물과 직접 경쟁하고, 원고와 경쟁하는 주문형 콘텐츠를 생성할 수 있다. Meta는 원고의 저작물을 사용하여 동일하거나 매우 유사한 목적을 수행하고 원본을 대체할 가능성이 있는 상업적 제품을 만들고 있다. (3) 침해(위반) 주장 및 청구 사항 ① 직접 침해: 그림자 도서관에서 저작물을 다운로드하고 복제하고, 복제 데이터셋의 무단 복제물을 다수 생성하여 로컬 및 외부 서버에 저장, 모든 버전의 Llama를 학습시키는 동안 저작물을 복제, 그림자도서관에서 다운로드하는 과정에서 저작물의 배포자 역할 수행(토렌트)한다. ② 기여 침해: 토렌트 프로토콜의 아키텍처는 사용자가 다운로드하는 동안 동시에 다른 사용자에게 콘텐츠를 업로드("시딩(seeding)")하도록 요구하며, 이에 따라 자동적으로 Meta는 복제물의 배포자가 된다. 메타는 P2P 파일 공유 네트워크를 통하여 저작물을 사용할 수 있게 함으로써 저작권에 대한 추가적인 침해를 유발하고 이에 실질적으로 기여, 제3자의 침해를 고의적으로 유도하고 이에 실질적으로 기여함으로써, Meta는 기여 침해를 하였다. ③ 저작권 관리정보 규정 위반: 원고 저작물은 저작권 고지, 저자명, 출판 연도, 출판사, 전자책∙PDF 메타데이터(내장) 등 저작권 관리 정보("CMI")를 포함한다. Meta의 전처리 과정은 전자책이나 PDF 형태의 텍스트를 담고 있는 ‘컨테이너’에서 원시 텍스트(raw text)를 추출하고 서적의 앞부분(표제지, 저작권 고지, 목차 등)과 내장된 메타데이터를 프로그램적으로 폐기하였으며, 이로써 텍스트를 학습 데이터셋 및 샤드(shards)에 기록하기 전에 침해된 저작물에서 CMI를 의도적으로 제거하거나 변경. 침해를 용이하게 할 것임을 알면서 고의적으로 CMI를 제거하거나 변경하는 것을 금지하는 권리관리정보 규정(§1202(b), 저작권관리정보를 고의로 제거∙변경하는 것 등을 금지)의 위반에 해당한다. 6. Alexander v. Salesforce (1) 캘리포니아 북부 연방지방법원(5:25-cv-09560-VKD, 2025.11.5.) ※ 집단소송(예술가 및 작가) (2) 사실관계 주장 ① Salesforce는 세계에서 가장 수익성이 높은 기업 중 하나임에도 불구하고, 수백만 건의 저작권 등록된 저작물을 고의로 침해하여 CodeGen 및 xGen 대규모 언어 모델(LLM)과 Agentforce를 포함한 상용 인공지능(AI) 제품을 구축하였다. ② Salesforce는 Agentforce에 사용되는 생성형 AI 모델을 학습시킬 때 방대한 데이터 라이브러리를 사용했으며, 여기에는 원고와 클래스 구성원이 만든 무단 복제된 저작권 콘텐츠(책·텍스트·이미지 등)가 포함한다. ③ Salesforce는 Bibliotik, LibGen, Z-Library 같은 해적판 전자책 사이트에서 나온 (a)Books3(=Bibliotik 전체사본)를 포함한 The Pile, (b)RedPajama(Books3 사본을 포함한 데이터셋), (c)C4 등의 데이터셋을 Hugging Face와 The-Eye 같은 사이트에서 다운로드 받았다. ④ Salesforce는 (a)원고 저작물을 복제하여 AI 모델을 학습시키고 그 모델이 원고의 작품을 대체하는 결과물을 생성함으로써, 원고의 저작물 자체의 시장 가치가 감소, (b)학습데이터 이용허락 수익을 빼앗고, (c)AI 모델 결과물이 저작물을 직접 대체하여 판매량을 감소시켰다. ⑤ Salesforce는 원고의 저작물을 ‘중간 단계’에서 단순히 사용되고 폐기된 것이 아니라, 중앙 라이브러리로 장기 보존하면서 지속적 상업적 활용을 위하여 사용한 것으로서, 공정이용이 인정될 수 있는 중간 복제(intermediate copying)에 해당하지 않는다. ⑥ Salesforce의 저작물 이용행위는 공정이용에 해당하지 않는다. Salesforce의 데이터베이스 생성 자체가 하나의 사용이며, 변형적이지도 않고 저작권 침해에 해당, 원고의 시장에 직접적이고 심각한 피해를 초래했다. 해적판 데이터베이스가 바로 구매 수요를 대체했고, 이는 저작물 시장을 손상 시켰다. 또한 원고의 학습데이터 이용허락 시장을 직접 파괴하고, 인간창작물 시장을 대체, 시장 대체 효과만 봐도 Salesforce의 행위는 공정이용이 될 수 없다. (3) 침해(위반) 주장 및 청구 사항 : 저작권을 직접 침해하였다. 7. Disney Enterprises Inc. v. Midjourney Inc. (1) 캘리포니아 중부 연방지방법원 (2:25-cv-05275-JAK-AJR, 2025.6.11.) ※ (원고) 디즈니, 마블 캐릭터스, 21세기 폭스 필름, 유니버설 시티 스튜디오, 드림웍스, 루카스 필름, MVL 파이낸스 등 (2) 사실관계(원고 주장) ① 원고 저작물: 스타워즈 캐릭터, 마블 캐릭터, 심슨 캐릭터, 필사 저작물 및 캐릭터, 디즈니 고전 애니매이션 캐릭터, 미니언즈 캐릭터, 드림웍스 캐릭트(슈렉, 드래곤 길들이기, 쿵푸 팬더, 보스 베이비 등이다. ② 미드저니는 자사의 생성형 AI 서비스들, 그중에서도 이미지 서비스(Image Service)를 개발·운영·판매하면서, 원고들의 저작물의 복제물 및 2차적 저작물을 복제·생성·전시·배포하였다. ③ 미드저니는 저작권을 침해하는 콘텐츠를 생성하도록 학습되었다. ④ 미드저니의 원고 저작물 침해는 미드저니의 이미지 서비스의 ‘기능’이며, 소비자를 끌어들이는 요소이다. ⑤ 미드저니는 추가적인 저작권 침해를 방지하기 위한 합리적인 조치도 취하지 않았다. (3) 침해(위반) 주장 및 청구 사항 ① 저작권 직접 침해: 미드저니는, 이미지 서비스를 개발∙학습시키는 과정과 이용자에게 제공하는 생성물을 통하여, 원고들의 저작물을 무단으로 복제, 전시, 배포, 2차적저작물 작성함으로써, 저작권 보호 저작물을 직접 침해하였다. ② 저작권 간접 침해: 미드저니가 자신이 직접 침해자임을 부정하면서 이용자들이 직접 침해자라고 주장하는 경우, 이용자들에 의한 복제는 저작권 침해에 해당하고, 미드저니는 간접 침해에 해당한다. - 대위 침해: 미드저니는 이용자들의 직접 침해에 대한 대위 책임(vicarious liability)을 부담한다. (a)미드저니는 이용자들의 직접 저작권 침해 행위를 감독∙통제할 수 있는 권리와 능력을 가지고 있고, (b)미드저니는 이용자들의 직접 침해 행위로부터 직접적인 금전적 이익(direct financial benefit)을 얻어 왔으므로, 대위 책임의 요건을 충족한다. - 기여 침해: 미드저니는 기여 침해(contributory infringement)자로서 2차적 저작권 침해에 대한 책임이 있다. 미드저니가 (a)이용자들의 침해 행위를 알고 있으면서도, (b)이용자들의 침해에 실질적으로 기여하고 이를 조장·유도하였으므로, 기여 책임의 요건을 충족한다. 8. Warner Bros. Entertainment Inc. v. Midjourney, Inc. (1) 캘리포니아 중부 연방지방법원 (2:25-cv-08376, 2025.9.4.) ※ (원고) 워너 브러더스 엔터테인먼트 등 (2) 사실관계(원고 주장) ① 원고들은 DC 코믹스 캐릭터(슈퍼맨, 배트맨, 원더우먼 등), 루니툰 캐릭터(벅스 버니 등), 톰과 제리, 스쿠비-두, 카툰 네트워크 캐릭터에 대하여 저작권을 가지고 있다. ② 미드저니는 워너 브라더스 디스커버리 저작물의 복제물 및 2차적 저작물을 복제·생성·전시·공연·배포하였다. ③ 미드저니는 저작권을 침해하는 콘텐츠를 생성하도록 훈련되었다. ④ 미드저니의 전시 및 배포는 광범위하게 이루어지고 있고 이용자들을 끌어들이는 명백한 요소가 되고 있다. ⑤ 추가적인 저작권 침해를 방지하기 위한 합리적인 조치를 취하지 않았다. (3) 침해(위반) 주장 및 청구 사항 ① 직접 침해: 미드저니는 서비스 개발 및 학습 과정과 이용자들이 결과물을 생성함에 있어서, 원고 저작물을 무단으로 복제·전시·공연·배포하고, 2차적저작물을 작성함으로써, 원고의 저작권을 직접 침해하였다. ② 간접 침해 - 대위 침해: 미드저니는 이용자들의 직접 침해에 대한 대위 책임을 부담한다. (a)미드저니는 이용자들의 직접 저작권 침해 행위를 감독∙통제할 수 있는 권리와 능력을 가지고 있고, (b)미드저니는 이용자들의 직접 침해 행위로부터 직접적인 금전적 이익(direct financial benefit)을 얻어 왔으므로, 대위 책임의 요건을 충족한다. - 기여 침해: 미드저니는 기여 침해자로서 2차적 저작권 침해에 대한 책임이 있다. 미드저니가 (a)이용자들의 침해 행위를 알고 있으면서도, (b)이용자들의 침해에 실질적으로 기여하고 이를 조장·유도하였으므로, 기여 책임의 요건 충족한다. 9. Reddit v. SerpApi LLC (1) 뉴욕 남부 연방지방법원 (25-cv-8736, 2025.10.22.) ※ (원고) 레딧(Redit), (피고) Oxylabs UAB, AWMProxy, SerpApi, 퍼플렉시티(Perplexity) (2) 사실관계(원고 주장) ① 레딧은 20년에 가까운 사람들의 대화 데이터를 보유하고 있으며, 시사 문제부터 제품 리뷰, 스포츠, 엔터테인먼트에 이르기까지 사실상 모든 주제를 망라하는 관심사 기반의 사용자 생성 커뮤니티를 중심으로 조직되어 있다. 레딧은 자사의 웹사이트에서 스크래핑에 의한 데이터 탈취를 방지하기 위하여 기술적 통제 장벽으로 보호하고 있다. ② Oxylabs UAB, AWMProxy, SerpApi는 타인의 콘텐츠를 긁어오기 위해 디지털 방어장치를 우회하도록 설계된 도구를 제작·판매하는 데이터 스크래핑 서비스제공자이다. SerpApi 등은 Reddit의 보안을 회피∙우회하기 위하여 신원을 은폐하고, 위치를 숨기며, 일반 이용자로 위장하는 등 구글(Google) 검색결과로부터 데이터를 스크래핑하는 방식을 택하였다. 이에 따라 이들은 Reddit의 텍스트, URL, 이미지, 동영상이 포함된 약 30억 개에 달하는 검색엔진 결과 페이지(“SERPs”)에 자동화된 방식으로 무단 접근하였다. 퍼블렉시티는 구글 SERP 스크래핑을 통하여 Reddit 데이터를 사용하였다. (3) 침해(위반) 주장 및 청구 사항 ① 접근통제 기술적 보호조치의 무력화 금지 규정 위반: 레딧과 구글은 레딧 콘텐츠에 대한 접근을 효과적으로 통제하는 기술적 보호조치를 실행, 이러한 기술적 보호조치는 검색 엔진 결과 페이지에 대한 자동화된 주체의 접근과 레딧 콘텐츠를 포함하는 검색 결과에 대한 스크래핑을 금지하는 것이다. 피고들은 접근통제 기술적 보호조치 무력화를 금지하는 규정(미 저 §1201(a)(1)(A))을 위반하였다. ② 접근통제 기술적 보호조치 무력화에 사용되는 도구의 거래금지 규정 위반: SerpApi는 웹 스크래핑을 용이하게 하는 제품과 서비스를 제공하며, 여기에는 레딧과 구글의 접근통제 기술적 보호조치를 무력화시키도록 설계된 제품과 서비스가 포함된다. 퍼플렉시티는 레딧 및 구글의 기술적 보호조치를 무력화하기 위하여 SerpApi의 서비스 또는 제품을 구매하였다. Oxylabs는 프록시 네트워크를 통하여 IP 차단 없이 인간과 유사한 방식의 스크래핑을 가능하게 하는 웹 스크래핑 솔루션을 제공함으로써, 레딧과 구글의 접근통제 기술적 보호조치를 무력화하는 프록시 서비스를 제공한다. 이러한 행위들은 접근통제 기술적 보호조치를 무력화하기 위한 기술·제품·서비스·장치의 유통을 금지하는 규정(미 저 §1201(a)(2))의 위반에 해당한다. ③ 권리통제 기술적 보호조치 무력화에 사용되는 도구의 거래금지 규정 위반: SerpApi 등의 제품∙서비스는 레딧의 콘텐츠를 무단으로 대규모의 자동화된 복제를 방지하기 위한 기술적 보호조치를 무력화하기 위한 것으로서, 권리 통제 기술적 보호조치를 무력화하기 위한 기술·제품·서비스·장치의 유통을 금지하는 규정(미 저 §1201(b))의 위반에 해당한다. 10. Alexander v. Apple (1) 캘리포니아 북부 연방지방법원 (5:25-cv-09090, 2025.10.25.) ※ (원고) Tasha Alexander 등(집단소송), (피고) Apple, Craig Federighi, John Giannandrea (2) 사실관계(원고 주장) ① 원고는 저작권을 보유한 예술가 및 작가들이다. 피고 Apple은 자사의 상업적 AI 제품인 Apple Intelligence를 구축하기 위하여 수백만 건의 등록된 저작권 보호 저작물을 고의적으로 침해하였다. Apple은 인터넷을 스크래핑하고 불법 복제된 저작물 사본을 다운로드하여 이를 복제한 뒤, 인간이 생성한 것과 유사한 텍스트 및 이미지를 생성하는 모델 학습에 사용하였고, 그 결과 원고의 저작물 시장을 대체하고 희석시키고 있다. ② Apple은 생성형 AI 모델 학습을 위한 데이터 수집 외에도, 웹사이트를 체계적으로 크롤링하고, 대규모로 웹페이지를 복제(스크래이핑)하는 소프트웨어인 Applebot을 배포하였다. ③ Apple은 저작물을 이용하여 OpenELM 모델을 학습시켰다(학습데이터의 상당 부분이 RedPajama 데이터셋의 하위 데이터셋인 Books에서 비롯되었음). 곧 Books3는 Books의 구성요소인데 Bibliotik에서 파생된 도서 데이터셋이고, Bibliotik은 그림자 도서관인데, 원고 및 집단의 저작물이 Books에 포함되어 있다. 또한 Apple은 Apple Intelligence (Siri 업그레이드, 시스템 개선, Genmoji, Image Playground 등 각종 도구의 핵심이 되는 기초 모델)는 저작물을 이용하여 학습시켰다. ④ Apple의 행위는 원고 및 집단 구성원의 저작물 시장을 훼손하는 것이고, 공정이용에 해당하지 않고, 변형적 이용에 해당하지 않으며, 중간적 복제(intermediate copying)에 의하여 면책되지 않는다. 또한 Apple의 Books3 무단 다운로드 및 웹 스크래핑은 원고의 시장을 대체하고 있고, 원고의 침해 저작물과 실질적으로 유사한 복제물을 생성할 가능성이 높지 않더라도 충분히 유사한 작품들로 시장을 범람시킨다(시장 희석). (3) 침해(위반) 주장 및 청구 사항 Apple은 원고 및 집단 구성원들의 허락·동의·라이선스 없이, 원고 및 집단 구성원들이 소유하는 저작물을 복제하여 AI 모델을 학습시킴으로써, 원고 및 집단 구성원들의 배타적 권리를 침해하였다. 11. Woulard v. Suno, Inc. (1) 일리노이 북부 연방지방법원 (1:25-cv-12684, 2025.10.16.) ※ (원고) Woulard(싱어송 라이터, 밴드의 리드 보컬, 밴드 발매작의 저작권자) 등(집단소송) (2) 사실관계(원고 주장) ① Suno는 싱크(sync) 라이선싱, 라이브러리·프로덕션 음악, 스트리밍, 위촉 작곡, 가사 라이선싱 등 예술가 시장에서 직접 경쟁하는 제품을 제작·판매하고 있다. Suno는 아무런 허락없이 온라인상에서 사실상 모든 음악 파일을 복제하여 중앙 집중식 라이브러리를 유지하고, 텍스트 설명과 함께 이를 이용해 모델을 학습·운영함으로써 라이선스된 음악을 대규모로 대체하는 결과물을 생성하고 있다. ② Suno는 저작권으로 보호되는 녹음물(sound recording)을 이용하여 AI를 학습시키고, 저작권 관리정보를 제거∙변경(녹음물)의 체계적 복제, 파일 변환 및 메타데이터 제거, 포맷 표준화, 오디오 세분화를 통한 분리)하고, Suno 모델의 목적이나 규모는 시장을 손상하고, Suno는 체계적인 저작권 침해를 하므로 공정이용을 주장할 수 없으며, 원 저작물과 경쟁하고 이를 대체하도록 설계된 모델은 변형성이 낮으며, Suno의 제품이 대규모로 원저작물에 밀접한 대체물을 공급하고, 라이선스 음악의 취득·제작을 대체하도록 의도적으로 설계·마케팅된 탓으로서 음악시장을 실질적으로 대체하고 희석을 야기하고 있다. (3) 침해(위반) 주장 및 청구 사항 ① 직접 침해: (a)사전 학습, 학습, 미세조정 과정에서 저작물을 복제·저장·사용함으로써 복제, 배포, 공연, 전시, 표시, 2차적저작물 작성에 대한 권리를 침해; (b)원고의 저작물 및 이를 포함하는 데이터세트·코퍼스의 복제물을 제3자에게 송신·업로드·제공 또는 기타 형태로 이용제공함으로써, 배포권 침해; (c)등록되지 않은 저작물에 대한 침해; (d)가사 부분에 대한 저작권 침해(어문저작물에 저작권 침해); (e)악곡 부분(가사 제외)에 대한 저작권을 침해한다. ② 저작권 관리정보의 제거 및 변경 ③ 접근통제 기술적 보호조치 무력화 ④ 허위의 저작권 관리정보의 제공 ⑤ 녹음물 및 가사에 대한 기여 침해 ⑥ 녹음물 및 가사에 대한 대위 침해 12. Woulard et al. v. Uncharted Labs (d/b/a Udio) (1) 일리노이 북부 연방지방법원 (1:25-cv-12613, 2025.10.15.) ※ 피고가 Udio라는 AI 음악 생성 서비스를 제공하는 Uncharted Labs라는 것을 제외하고는 사실관계, 위반 주장 및 청구 사항 거의 동일하다. 13. Tanzer et al. v. Salesforce (1) 캘리포니아 북부 연방지방법원(3:25-cv-08862-CRB, 2025.10.15) ※ (원고) E. Molly Tanzer, Jennifer Gilmore 등(집단소송) (2) 사실관계(원고 주장) 피고는 LLMs을 개발하기 위하여 RedPajama 및 The Pile 데이터셋을 다운로드, 저장, 복제. 이들 데이터셋은 Books3(원고의 저작물 포함)를 포함하고 있다. (3) 침해(위반) 주장 및 청구 사항 피고는 원고들의 저작물 사본을 포함하는 데이터셋을 복제, 저장, 처리, 재생산 및 사용함으로써, 원고들이 보유한 저작권에 따른 독점적 권리를 직접 침해하였다. 14. Martinez-Conde v. Apple Inc. (1) 캘리포니아 북부 연방지방법원(3:25-cv-08695-PHK, 2025.10.9) ※ (원고) Susana Martinez-Conde and Stephen L. Macknik 등(집단소송) (2) 사실관계(원고 주장) ① Apple은 학습 자료의 중앙화된 데이터베이스를 구축하면서 원고들의 저작물을 무단으로 복제하고, 원고들의 저작물을 이용하여 ‘Apple Intelligence’ 모델을 학습시킴으로써, 원고들의 저작권 침해. Apple은 원고들의 저작물이 포함되어 있는 Books3를 포함한 데이터셋을 복제하고 이를 학습데이터로 사용하였다. ② Apple이 AI 모델을 학습시킨 행위는 원고 저작물의 실제 및 잠재적 시장에 중대한 손해(저작물의 접근시장에 피해를 줌으로써 판매 감소)를 초래하고, 원고들의 저작물 자체와 집필 활동 시장에서 시장희석의 위험을 초래하였다. (3) 침해(위반) 주장 및 청구 사항 저작권 직접 침해: Apple은 원고들의 허락 없이 원고들의 서적 및 기타 저작물의 복제물을 만들었고, 이에 의하여 원고들의 배타적 권리를 침해하였다. 15. Disney Enterprises, Inc. v. Minimax (1) 캘리포니아 중부 연방지방법원(2:25-cv-08768, 2025.9.16) ※ (원고) Susana Martinez-Conde and Stephen L. Macknik 등(집단소송) (2) 사실관계 Disney Enterprises Inc. v. Midjourney Inc. 사건(2:25-cv-05275-JAK-AJR, 2025.6.11.)의 사실관계, 위반 주장 및 청구 사항이 사실상 동일하다. 다만 원고가 DC Comics 등 5개 기업이 제외되고, 피고가 중국 기업인 Minimax(비상장 회사) 및 SXJT(유한회사)와 Nanonoble(싱가포르 유한회사)라는 것 정도만 다르다. 16. Encyclopaedia Britannica, Inc. v. Perplexity AI (1) 뉴욕 남부 연방지방법원 (1:25-cv-07546, 2025.9.10.) (2) 사실관계(원고 주장) ① 원고 Britannica는 글로벌 디지털 교육·정보 플랫폼이고 Merriam-Webster를 소유, Merriam-Webster는 웹사이트 등을 통하여 언어 관련 지침을 제공하고, Merriam-Webster’s Collegiate Dictionary 등 다양한 사전들을 출판하고 있다. ② Perplexity는 생성형 AI 기업으로서 ‘답변 엔진(answer engine)’을 제공, 답변 엔진은 원고의 콘텐츠를 AI가 생성한 요약 형태로 제공함으로써, 원고 웹사이트로 향하던 트래픽을 잠식하고, 그 결과 원고들의 투자 위에 무임승차하고 있다. ③ Perplexity의 학습 완료된 LLM은 RAG 기법과 결합하여 운용되기도 하는데, 사용자로부터 프롬프트를 입력받고, 해당 프롬프트와 관련된 콘텐츠를 검색 인덱스에서 취득하여 복사하고, 추가적인 맥락을 제공하기 위해 원래 프롬프트에 검색·복사된 콘텐츠를 결합한 뒤, 결합된 데이터를 LLM에 제공하여 자연어 응답을 생성한다. ④ Perplexity는 데이터 큐레이션 단계에서 원고들의 저작권을 침해하고, RAG 모델의 입력으로 사용하기 위해 원고들의 저작물을 대규모로 불법 복제하고, 출력물 자체도 원고들 저작물의 대규모 복제에 해당하고, Perplexity의 불법 행위로 인하여 원고들은 피해를 입고 있다. (3) 침해(위반) 주장 및 청구 사항 ① Perplexity는 RAG 검색용 데이터베이스에 입력하기 위하여 원고들의 저작물을 복제함으로써 원고의 저작권을 침해하였다. ② Perplexity는 이용자들의 질의에 대한 답변은 원고들의 콘텐츠에서 파생되는 것으로서, 답변을 생성하는 과정에서 2차적저작물 작성권을 침해하였다(요약이나 축약본 제공, 원고 저작물을 출처로 하거나 파생한 답변 제공). 17. Hendrix v. Apple Inc (1) 캘리포니아 북부 연방지방법원(4:25-cv-07558, 2025.9.5.) ※ (원고) Hendrix, Jennifer Roberson 등(집단소송) (2) 사실관계(원고 주장) ① 원고들은 출판된 저작물의 저작권자들인데, Apple은 원고들의 저작물을 복제하여 원고들의 저작물과 경쟁하고 그 시장을 희석시키는 AI 모델을 학습시켰다. ② 원고들의 저작물은 해적 전자책 사이트인 Bibliotik에 무단으로 업로드되었고, Bibliotik은 Books3 데이터셋에 그대로 복제되었다. Books3는 RedPajama 데이터셋의 ‘서적 부분’의 구성요소로 사용되었고, Apple이 RedPajama(오픈 대규모 데이터셋)의 서적 부분 데이터를 OpenELM 모델 학습에 사용함으로써 원고들의 저작물이 Apple의 AI 학습에 사용되었다. 또한 Apple의 Intelligence Foundation Language Models도 원고의 저작물로 학습되었다. ③ Apple의 행위는 원고들의 저작물 시장을 훼손하였다.(저작물에 대한 접근시장을 해치고, 시장 희석의 위험을 야기) (3) 침해(위반) 주장 및 청구 사항 Apple은 Apple Intelligence 관련 작업(Apple Intelligence Tasks)을 수행하는 과정에서, 원고들 저작물의 복제물 및 2차적저작물 제작, 전시, 배포 등에 의하여 원고들의 배타적 권리를 침해하였다. 18. Getty Images (US), Inc. v. Stability AI, Ltd. (1) 캘리포니아 북부 연방지방법원(3:25-cv-06891, 2025.8.14.) (2) 사실관계(원고 주장) ① Getty Images(이하 ‘Getty’)는 전 세계 200개 이상의 국가 및 지역에서 창작자, 기업 및 미디어 고객들에게 서비스를 제공하고 있고, Getty의 이미지는 세계에서 가장 영향력 있는 신문, 잡지, 광고 캠페인, 영화, 텔레비전 프로그램, 서적 및 웹사이트에 매일 등장하는 작업물 제작에 활용되고 있다. ② Stability AI는 Getty 웹사이트의 이용약관이 상업적 목적의 무단 복제를 명시적으로 금지하고 있음에도 불구하고, 최소 1,200만 장의 이미지를 관련 텍스트 및 메타데이터와 함께 복제하였고, Getty로부터 이용허락받은 웹사이트들로부터 다수의 이미지를 복제하여, 자사의 Stable Diffusion 모델을 학습시키는 데 사용하였다. (3) 침해(위반) 주장 및 청구 사항 ① 저작권 직접 침해: Stability AI는 Getty의 콘텐츠를 복제하고 그로부터 2차적 저작물을 작성. ② 허위의 권리관리정보 제공: Getty가 이미지에 부착하는 워터마크(watermark)는 CMI에 해당하는데, Stability AI가 생성한 결과물에는 수정된 워터마크가 적용되어 허위의 저작권 관리정보를 제공(§1202(a)). 19. Strike 3 Holdings, LLC v. Meta Platforms, Inc. (1) 캘리포니아 북부 연방지방법원(5:25-cv-06213, 2025.7.) ※ (원고) Strike 3 Holdings & Counterlife Media (2) 사실관계(원고 주장) ① 원고들은 성인영화 작품(저작물)의 소유자인데, Meta는 원고들의 작품을 해적 사이트에서 다운로드하였으며(BitTorrent 프로토콜 사용), Meta Movie Gen, AI 모델 LLaMA, 기타 비디오 학습 콘텐츠에 의존하는 여러 Meta AI 모델을 훈련하기 위한 콘텐츠를 확보하였다. ② Meta는 원고들의 저작물 2,396편을 침해하였다. Meta는 자사의 상업적 이익을 위해 고의적·의도적으로 원고 저작물을 배포하고(BitTorrent의 주고받기(tit-for-tat) 방식에 의한 업로드), AI 학습을 위하여 원고들의 저작물을 표적으로 하여 획득하였다. (3) 침해(위반) 주장 및 청구 사항 Meta는 BitTorrent 프로토콜을 사용하여 원고 저작물의 요소들을 복제하고 배포함으로써, 복제권, 배포권, 공연권, 전시권을 침해하였다. 20. Lehrman v. Lovo, Inc. (1) 뉴욕 남부 연방지방법원 (1:24-cv-03770, 2025.5.16.) ※ (원고) Paul Lehrman, Linnea Sage 등(집단소송) (2) 사실관계(원고 주장) ① 원고들은 자신들의 음성·정체성(identity)이 LOVO에 의해 도용되어, 허락이나 적절한 보상을 받지 않고(일부는 지급) 수백만 건의 보이스오버(voice-over) 제작에 사용된 성우들이다. LOVO는 AI로 구동되는 소프트웨어를 이용하여 고객들이 실제 성우의 음성을 바탕으로 한 보이스오버 내레이션을 제작·편집할 수 있도록 하였다. 2023년 1월 기준, LOVO는 700만 개 이상의 보이스오버를 생성한다. ② LOVO의 600개 음성 옵션들은 허락하지 않은 원고들의 목소리를 기반으로 하고 있으며, LOV0는 Genny(상업용 AI 음성 합성 플랫폼) 학습용, 자체 사용, LOVO 서비스의 일환으로 판매하는 용도로 사용하고 있다. (3) 침해(위반) 주장 및 청구 사항 ① 자연인의 이름, 초상(portrait), 사진, 모습(likeness), 음성(voice)을 해당 당사자의 사전 서면 동의 없이 사용하는 것을 경범죄로 규정한 뉴욕주 법(Civil Rights Law) 규정(CVR §50)을 위반하였다. ② 원고들이 LOVO와 제휴한 것처럼 소비자를 혼동시키거나 LOVO의 음성 카탈로그에 포함된 것처럼 표시하는 것 등으로 인하여 부정경쟁을 규율하는 연방 상표법 규정을 위반하였다. ※ 특정 개인의 목소리나 모습을 AI로 만들어 그 개인의 정체성을 상업적으로 이용하는 것에 대하여 미국의 여러 주들은 디지털 모사물(digital replica)에 관한 입법을 하고 있다. 그런데 위의 사건은 이에 관한 주장이 제기되지 않았는데, 디지털 모사물에 관한 뉴욕주 법은 사자의 초상권 및 디지털 모사물을 규정(NY CVR §50-F)한 것에 기인한 것으로 보인다.
|
|||||