| 제목 | 2026 제1호-[미국] 어도비, AI 모델 학습 과정 내 불법 도서 사용에 따른 저작권 침해 집단소송 피소(김경숙) | |||||||
|---|---|---|---|---|---|---|---|---|
| 담당부서 | 통상산업연구팀 김영희(055-792-0092) | 등록일 | 2026-01-14 | |||||
| 첨부문서 |
[미국] 어도비, AI 모델 학습 과정 내 불법 도서 사용에 따른 저작권 침해 집단소송 피소(김경숙).pdf
미리보기 |
|||||||
|
어도비, AI 모델 학습 과정 내 불법 도서 사용에 따른 저작권 침해 집단소송 피소
상명대학교 지적재산권학과 교수 김경숙
2025년 12월 16일, 미국 오리건주 작가 엘리자베스 라이언(Elizabeth Lyon)은 어도비(Adobe)가 자사의 소형 언어모델(Small Language Model)인 SlimLM을 학습시키는 과정에서 저작권으로 보호되는 도서를 무단으로 이용하였다고 주장하며, 미국 캘리포니아 북부 연방지방법원에 집단소송(class action)을 제기하였다. 원고는 SlimLM의 학습 과정에서 자신의 저작물을 포함한 다수의 저작권 보호 도서가 허락이나 보상 없이 복제·처리되었다고 주장한다. 본 사건의 특징은 어도비가 SlimLM 학습을 위해 문제된 도서를 직접 수집·이용하지 않고, 오픈소스 데이터셋인 SlimPajama-627B를 학습에 이용하였다는 점이다. 이에 따라 본 사건은 제3자가 구축한 오픈소스 데이터셋에 저작권 침해 콘텐츠가 포함되어 있는 경우, 그 데이터셋을 이용하여 AI 모델을 학습시킨 다운스트림 개발자(downstream developer)에게도 저작권 침해 책임이 성립할 수 있는지가 중요한 법적 쟁점이다. 즉, 직접적인 불법 수집 행위가 없더라도, 침해 데이터의 ‘출처 연쇄’를 통해 책임이 하위 단계의 AI 개발자에게까지 확장될 수 있는지가 본 사건의 핵심 쟁점이다.
1) 당사자 주장 (1) 원고의 주장 원고는 어도비가 SlimLM을 학습시키는 과정에서 불법도서가 포함된 데이터셋을 이용함으로써 저작권을 침해하였다고 주장한다. 원고의 소장에 따르면, SlimLM 학습에 사용된 SlimPajama 데이터셋은 악명 높은 Books3 데이터셋을 직접 복제한 RedPajama 데이터셋의 파생물이라고 주장한다. Books3는 약 191,000권의 저작권 보호 도서로 구성되어 있으며, 사설 트래커인 Bibliotik등 불법 복제 출처에서 수집된 자료를 대량으로 포함해 왔다는 비판을 받아왔다. 원고는 SlimPajama가 RedPajama의 파생 데이터셋인 이상, 그 안에는 필연적으로 Books3에 포함된 원고 및 집단 구성원의 저작물이 포함되어 있다고 주장한다. 따라서 어도비는 해당 데이터셋을 이용함으로써 AI 모델의 전처리(preprocessing) 및 사전학습(pretraining) 과정에서 해당 저작물을 반복적으로 다운로드, 복사 및 처리했다고 주장하고 있다. (2) 어도비의 항변 어도비는 SlimPajama‑627B 데이터셋은 중복 제거(deduplication)가 이루어진 다중 출처 코퍼스(multi‑corpora)로 구성된 합법적 데이터로서, 특정 불법 데이터셋을 그대로 복제하거나 의존한 것이 아니라고 주장한다. 따라서 SlimLM의 학습 과정에서 원고의 저작권을 침해한 사실이 없다는 입장이다. 2) SlimLM과 학습 데이터 구조 SlimLM은 어도비(Adobe)가 스마트폰, 태블릿, 노트북 등 일상적 생산성 소프트웨어에 내장하기 위해 개발한 소형 언어모델(Small Language Model) 시리즈로, 요약, 재작성, 질문·응답 등 모바일 및 경량 환경에서의 문서 보조 작업에 최적화되어 있다. SlimLM은 오픈소스 데이터셋인 SlimPajama-627B를 이용해 사전 학습된 AI 모델이다. 한편, Books3는 대규모 언어모델(LLM) 학습에 사용되어 온 텍스트 데이터셋 중 하나로, 약 191,000권의 도서 텍스트로 구성되어 있다. Books3는 학술서, 소설, 논픽션 전자책이 대량 공유되던 사설 트래커 Bibliotik에서 수집된 것으로 알려져 있으며, 다수의 저작권 보호 도서가 저작권자의 허락이나 라이선스 없이 포함되었을 가능성이 매우 높다는 점에서 지속적으로 문제 제기가 되어 왔다. RedPajama 데이터셋은 2023년 AI 반도체 기업 Cerebras가 연구 목적을 위해 공개한 대규모 오픈 텍스트 데이터셋으로, Common Crawl 웹 텍스트, GitHub 코드, Wikipedia, 논문·기술 문서 등 다양한 오픈 텍스트 소스를 결합한 다중 출처 코퍼스(multi-corpora)이다. 다만 이 데이터셋에는 Books3 역시 포함되어 있어, 해당 부분이 법적 논란의 핵심이 되고 있다. 2023년 6월에 공개된 SlimPajama-627B는 Cerebras가 대규모 언어모델 학습을 위해 RedPajama를 기반으로 중복 제거 및 정제 과정을 거쳐 구축한 경량화(‘슬림’) 데이터셋이다. 이러한 생성 과정으로 인해 SlimPajama-627B는 RedPajama의 파생(derivative) 데이터셋으로 평가된다. 이와 같은 데이터셋의 계보 구조로 인해, 어도비가 비록 SlimLM 학습 과정에서 직접 Books3나 RedPajama를 사용하지 않고 SlimPajama-627B만을 이용하였다고 주장하더라도, 원고는 책임의 초점을 ‘출처의 연쇄(Books3 → RedPajama → SlimPajama)’로 확장하여 어도비에게 저작권 침해에 대한 책임을 묻고 있다. 3) 쟁점 및 법적 함의 본 사건의 핵심 쟁점은 제3자(Cerebras)가 구축한 데이터셋에 저작권 침해 콘텐츠가 포함되어 있는 경우, 해당 데이터셋의 파생물(derivative dataset)을 이용하여 AI 모델을 학습시킨 다운스트림 개발자(downstream developer)에게도 저작권 침해 책임이 성립할 수 있는지 여부이다. 이 쟁점은 ‘오픈소스’ 데이터셋을 이용하였다는 사정만으로 저작권 침해 책임이 당연히 면제되는 것은 아니며, 원본 데이터에 침해 콘텐츠가 포함된 경우 하위 개발자에게도 공동 또는 간접 책임이 인정될 가능성이 있다는 법적 함의를 갖는다. 따라서, 법원 판단에 따라 정제된 파생 데이터셋이 과거의 침해를 사실상 ‘승계’한 것으로 평가될 경우, AI 기업은 직접 불법 수집에 관여하지 않았더라도 책임을 부담할 가능성을 배제할 수 없게 된다.
향후 법원의 판단에 따라 본 사건은 AI 가치사슬에서 데이터셋 제작자와 AI 모델 개발자 간 책임 부담 구조에 중요한 영향을 미칠 수 있다. 지금까지 많은 AI 기업들은 제3자가 구축한 오픈소스 데이터셋을 활용하는 경우, 데이터 수집 단계에서의 불법성에 대한 책임으로부터 비교적 자유롭다고 인식해 왔다. 만약 법원이 제3자가 구축한 불법콘텐츠가 포함된 데이터셋을 AI 모델 학습에 이용한 경우에 대해서도 저작권 침해를 인정한다면, AI 기업은 오픈 데이터셋 활용에 있어 보다 엄격한 출처 검증, 라이선스 확인, 필터링 기준 설정 등을 요구받게 될 것이다. 이는 장기적으로 AI 학습 데이터의 라이선스화, 계약 기반 데이터 조달, 투명성 강화로 이어질 가능성이 크다.
AutoGPT.net, “Analysis of Books3: A Deep Dive into the Controversy”, (7 March 2024), available at https://autogpt.net/analysis-of-books3-a-deep-dive-into-the-controversy/ Craig Hale, “Adobe faces class action lawsuit after allegedly misusing authors’ work in AI training”, TechRadar(19 December 2025), available athttps://www.techradar.com/pro/adobe-faces-class-action-lawsuit-after-allegedly-misusing-authors-work-in-ai-training Daria Soboleva, Faisal Al-Khateeb, Robert Myers, Joel R. Steeves & Joel Hestness, “SlimPajama: A 627B token, cleaned and deduplicated version of RedPajama, Cerebras AI Blog(9 June 2023)”, available at https://www.cerebras.ai/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama Emre Çitak, “Adobe is sued for using pirated books to train AI”, Dataconomy(18 December 2025), available at: https://www.dataconomy.com/2025/12/18/adobe-is-sued-for-using-pirated-books-to-train-ai/ Lucas Ropek, “Adobe hit with proposed class-action, accused of misusing authors’ work in AI training”, TechCrunch (17 December 2025), available at https://www.techcrunch.com/2025/12/17/adobe-hit-with-proposed-class-action-accused-of-misusing-authors-work-in-ai-training/ Somatirtha, “Adobe Sued Over AI Training Data: Pirated Books Allegations Explained”, Analytics Insight(18 Dec 2025), available at https://www.analyticsinsight.net/news/adobe-sued-over-ai-training-data-pirated-books-allegations-explained TechTarget, “What is a small language model (SLM)?”, TechTarget WhatIs(9 September 2024), available at https://www.techtarget.com/whatis/definition/small-language-model-SLM TheOutpost.ai “Adobe faces class-action lawsuit over alleged use of pirated books in AI training”, TheOutpost.ai(18 December 2025), available at https://theoutpost.ai/news-story/adobe-faces-class-action-lawsuit-over-alleged-use-of-pirated-books-in-ai-training-22501/
|
||||||||