| 제목 | 2025 제21호-[미국] 작가들, Books가 포함된 RedPajama 데이터셋의 LLM 학습 관련하여 Snowflake Inc. 제소(강기봉) | |||||||
|---|---|---|---|---|---|---|---|---|
| 담당부서 | 통상산업연구팀 김영희(0557920092) | 등록일 | 2025-12-23 | |||||
| 첨부문서 |
[미국] 작가들, Books3가 포함된 RedPajama 데이터셋의 LLM 학습 관련하여 Snowflake Inc. 제소(강기봉).pdf
미리보기 |
|||||||
|
작가들, Books3가 포함된 RedPajama 데이터셋의 LLM 학습 관련하여 Snowflake Inc. 제소
서강대학교 전인교육원 대우교수 강기봉
1) 소의 제기 원고인 작가 다리우스 H. 제임스(Darius H. James)는 작가들로 구성된 집단소송(class action)의 대표당사자이며, 그의 대리인이 집단의 대리인이다. 원고는 피고 Snowflake Inc.에 대해 2025년 11월 21일, 미국 몬태나 연방지방법원에 배심원 재판을 청구하는 소를 제기하였다. 원고는 피고 Snowflake Inc.가 Books3 데이터셋를 포함하는 RedPajama를 이용하여 LLM을 학습시켰고, 이는 저작자들의 저작권을 침해한 것이라고 주장했다. 2) 사실관계 원고는 등록된 저작권의 소유자로서 도서(Negrophobia 등)에 대한 배타적 권리를 보유하고 있다. 원고는 피고가 Snowflake Arctic LLM 및 기타 관련 모델의 사전 학습 및 학습에 필요한 충분한 데이터를 제공하기 위해 Books3 데이터셋을 서브셋(subset)으로 포함하는 RedPajama 데이터셋(허깅페이스(Hugging Face)에서 제공되었다)을 다운로드하여 복사 및 저장했다. 2023년에 Snowflake는 Arctic LLM 제품군 개발을 지원하기 위해 대규모 사전 학습 모음자료(corpora)를 구축하고 관리하기 시작했다. 이에 RedPajama 데이터셋에는 원고의 저작물이 포함되어 있으며, 피고가 LLM의 사전 학습 및 학습을 위해 데이터셋의 복사본을 여러 개 제작했다고 주장했다. 그리고 원고는 원고와 집단소송 구성원들이 피고에게 자신의 저작물을 복제, 2차적저작물작성, 전시 및 배포할 권한을 부여한 바가 없었고, 피고가 원고 저작물의 사본을 포함하는 데이터셋을 복사, 저장, 처리, 복제 및 사용함으로써 원고의 저작물에 대한 배타적 권리를 직접적으로 침해했다고 주장했다.
1) 집단소송의 당사자 이 사건의 집단소송 당사자들은 원고가 침해를 인지하였다고 보는 2022년 11월 25일부터 소제기일까지 피고의 행위에 의해 자신의 저작물이 침해된 자들을 포함한다. 그리고 원고인 다리우스 H. 제임스는 대표당사자에 해당한다. 2) 쟁점 원고를 포함하는 집단소송의 구성원들에 의해 주장된 공통적인 쟁점은 아래와 같다. ① 피고가 침해 저작물을 취득 및 복제하여 상업적 이익을 위해 사용할 의도로 복제물을 제작함으로써 원고 및 집단소송 원고의 저작권을 침해했는지 여부 ② 피고가 침해 저작물을 상업적 이익을 위해 사용했는지 여부 ③ 피고가 불법적으로 취득한 침해 저작물의 복제물을 사용하여 피고의 AI 모델을 학습시킴으로써 저작권을 침해했는지 여부 ④ 피고가 자사의 AI 모델을 공개 라이선스(open license) 하에 배포함으로써 침해 저작물의 추가적인 침해를 야기했는지 여부 3) 청구의 취지 원고는 피고에 대해, ①원고를 집단소송의 대표당사자로 지정하고 원고의 변호사를 집단소송의 대리인으로 지정하여 집단을 대표하는 집단소송의 자격을 인정, ②피고의 행위가 미국 저작권법 제501조를 위반한다는 판결, ③피고의 원고 및 집단의 저작권 침해에 대한 미국 저작권법 제504조에 따른 법정 손해배상금 및 기타 손해배상금의 지급을 판결, ④미국 저작권법 제505조 또는 기타 법률에 따른 합리적인 변호사 수임료 및 소송 비용의 상환 판결, ⑤해당 침해가 고의적이라는 판결, ⑥미국 저작권법 제503조(b)에 따라 피고가 원고 및 집단의 배타적 권리를 침해하여 제작 또는 사용한 모든 복제물의 폐기 또는 기타 합리적인 처분을 판결, ⑦원고 및 집단소송 원고에게 지급되는 손해배상금에 대한 판결 전후 이자(이자는 본 집단소송 소장이 피고에게 최초 송달된 날부터 최고 법정 이율로 계산)를 지급, ⑧법원이 원고에게 적절하다고 판단하는 추가적인 구제 조치를 제공할 것을 법원에 청구하였다.
위 사례에서 LLM의 학습을 위해 저작권자의 이용허락 없이 저작물의 일시적 또는 영구적 복제가 있었으므로 피고의 저작물에 대한 저작권 침해 자체는 인정될 것으로 보이지만, 이에 대해 다른 사건들에서와 마찬가지로 공정이용 해당 여부, 즉 저작재산권의 제한 여부가 중요하게 다뤄질 것으로 보인다. 본 사건은 미국 내에서 인공지능 기업에 대한 60번째 소송에 해당한다고 한다. 그리고 향후에도 인공지능 기업에 대한 소송이 증가할 것으로 생각된다. 인공지능, 특히 생성형 AI의 학습에 필요한 데이터에는 저작물이 필연적으로 포함될 것이고, 인공지능에 의한 산출물이 시장에 존재하는 동안 저작자들이 일정한 영향을 받을 수 있기 때문이다. 인공지능 기술의 발전은 저작물의 이용자들이 저작물을 향유할 수 있는 수단이나 방법을 다양하게 할 것이고, 이와 함께 국가의 산업 경쟁력을 제고할 수 있을 것이다. 그렇지만 이로 인해 저작권자들이 받아야 하는 인지가 가능한 또는 손실들에 대한 고려도 중요하다. 그래야 문화의 발전이라는 저작권법의 목적에 충실할 수 있을 것이기 때문이다. 이런 점에서 위와 같은 사례들의 판결 결과들을 확인하면서도 저작자의 창작에 대한 동기부여 또는 환경이 훼손되지 않도록 법률 및 정책적인 방안을 숙고해야 할 필요가 있어 보인다.
• James v. Snowflake Inc., 2:25-cv-00108-BMM(November 21, 2025, U.S., District of Montana). <https://copyrightalliance.org/wp-content/uploads/2025/11/James-v.-Snowflake.pdf> • James v. Snowflake Inc. U.S. copyright suits v. AI companies hit 60, Chat GPT Is Eating the World, November 24, 2025.
|
||||||||