대메뉴 바로가기 본문 바로가기

한국저작권위원회

인기검색어
폰트, 음악, PPT, 일러스트
전체 메뉴

사이트맵

닫기

저작권동향

저작권동향 상세보기
제목 2025년 제4호-[미국] OpenAI가 GPT-4o 모델 학습을 위해 저작권으로 보호받는 유료 콘텐츠를 무단으로 이용하였다는 연구 결과 발표(이철남)
담당부서 국제통상협력팀 손휘용(0557920089) 등록일 2025-05-16
첨부문서

2025년 제4호-[미국] OpenAI가 GPT-4o 모델 학습을 위해 저작권으로 보호받는 유료 콘텐츠를 무단으로 이용하였다는 연구 결과 발표(이철남).pdf 미리보기

 

 

미국

OpenAIGPT-4o 모델 학습을 위해 저작권으로 보호받는 유료 콘텐츠를 무단으로 이용하였다는 연구 결과 발표

 

충남대 법학전문대학원 교수

이철남

 

1. 개요

 

민간 비영리 기관 사회과학연구협의회(Social Science Research Council)“AI 공개 프로젝트(The AI Disclosure Project)의 일환으로 진행된 연구에서 OpenAIGPT 시리즈 모델의 학습 데이터셋에 저작권으로 보호받는 비공개 서적이 포함되었는지에 대한 테스트가 진행되었음. 연구에서는 34권의 O'Reilly Media 서적 데이터셋을 사용함. O'Reilly 서적은 공개적으로 접근 가능한 무료 콘텐츠와 비공개 유료 콘텐츠를 모두 포함하고 있음. 이를 통해 OpenAI가 주로 공개적으로 이용 가능한 데이터로 모델을 학습했는지, 아니면 유료 제한을 우회하여 비공개 데이터를 사용했는지를 확인했음. 연구 결과에 따르면 OpenAIGPT-4o 모델은 비공개 유료 데이터에 대해 "높은 인식률"을 보였음.

 

 

2. 주요 내용

 

1) 연구 배경

대규모 언어 모델(Large Language Model, LLM)'사전 학습' 단계에 엄청난 양의 데이터를 필요로 함. 그러나 이러한 사전 학습 데이터의 출처와 법적 지위는 데이터를 수집하고 사용하는 기업들에 의해 대부분 공개되지 않고 있음. 현재 진행되고 있는 몇몇 소송은 주요 AI 기업들이 불법적으로 획득한 비공개 콘텐츠로 학습할 수 있음을 시사함. AI 공개 프로젝트의 연구는 OpenAI가 대규모 언어 모델 학습에 사용하는 데이터에 대한 의문을 제기함.

2) 연구 방법

(1) 데이터셋

본 연구의 데이터셋은 저작권이 있는 O'Reilly Media의 책 34권으로 이루어져 있으며, 13,962개의 단락으로 분할됨. 각 단락은 책별 초기 DE-COP 점수를 계산하는 데 활용되며, 이 점수는 OpenAI의 각 모델에 대한 AUROC 점수를 산출하는 데 사용됨. 이 데이터셋의 특징은 동일한 책 내에 비공개(유료) 텍스트와 공개(무료) 텍스트가 모두 존재한다는 점임. 이를 통해 모델이 공개 데이터만으로 학습되었는지, 아니면 접근 위반이 발생했을 가능성이 있는지 식별할 수 있음. 공개 텍스트는 O'Reilly Media가 콘텐츠 미리보기용으로 제공하는 부분, 구체적으로 각 장의 처음 1,500자와 1장과 4장 전체로 정의함. 그 외의 모든 O'Reilly 텍스트는 비공개로 간주함.

 

(2) DE-COPAUROC

본 연구에서는 특정 데이터 샘플이 대상 모델의 학습 세트에 포함되었는지 여부를 판단하기 위해 DE-COP 멤버십 추론 공격 방법을 사용함. 이는 LLM에 객관식 시험을 제시하여, 인간이 직접 작성한 O'Reilly 책 내용과 AI로 생성된 내용을 구별할 수 있는지 확인하는 방식으로 진행됨. 모델이 학습 기간 동안 출판된 책에 대해, 인간이 작성한 부분을 정확하게 식별한다면, 이는 해당 텍스트에 대한 사전 모델 인식(학습)을 나타낼 가능성이 높음.

다음으로 생성된 DE-COP 퀴즈 점수를 사용하여 AUROC 점수를 계산함. 이는 모델이 잠재적으로 학습된 콘텐츠와 학습 완료 후 출판된 콘텐츠를 처리하는 방식에 의미 있는 차이('분리 가능성')가 있는지 평가함. AUROC는 분류기의 두 클래스 간 구별 능력을 측정하며, 점수는 0에서 1까지의 범위를 가짐. 0.5는 무작위 기회를 나타내며, 1에 가까울수록 두 클래스(또는 범주)를 정확하게 '구별'(, 분류)하는 능력을 강력하다는 것을 의미함. 본 연구에서 AUROC는 학습되었을 가능성이 있는 책과 모델이 보지 못했을 가능성이 있는 책을 분리하는 능력을 측정함. 따라서 높은 AUROC 점수는 모델이 컷오프 날짜 이전에 출판된 데이터셋의 많은 책으로 학습되었음을 시사함.

3) 연구 결과

본 연구의 주요 결과는 AUROC 점수를 기반으로, OpenAI 모델의 사전 학습 데이터에서 비공개 데이터의 역할이 시간이 지남에 따라 크게 증가했음을 보여줌. GPT-4o는 유료 O'Reilly 서적 콘텐츠에 대해 82%AUROC 점수로 "높은 인식률"을 보임. 대조적으로 OpenAI의 이전 모델인 GPT-3.5 TurboAUROC 점수는 50%를 약간 넘는 수준으로, 동일한 수준의 인식을 보이지 않음. GPT-4o는 공개적으로 접근 가능한 샘플(64%)보다 비공개 O'Reilly 서적 콘텐츠(82%)에 대해 더 높은 인식률을 보임. GPT-3.5 Turbo는 비공개 샘플(54%)보다 공개적으로 접근 가능한 O'Reilly 서적 샘플(64%)에 대해 더 높은 인식률을 보임. 그러나 GPT-4o와 동일한 학습 컷오프를 가진 GPT-4o Mini와 같은 작은 모델은 비공개 O'Reilly 데이터로 학습되지 않았으며 공개 책 데이터에 대해서도 유사하게 낮은 인식을 보임. 이는 파라미터 수가 훨씬 많은 GPT-4o에 비해 작은 모델의 텍스트 기억 능력이 제한적이기 때문일 수 있음.

 

 

3. 결론 및 시사점

 

본 연구에서는 증거가 OpenAI O'Reilly Media 서적에 국한되지만, 저작권이 있는 데이터 사용과 관련된 시스템적 문제를 반영할 가능성이 높다고 연구진은 주장함. 테스트한 모든 O'Reilly 서적이 LibGen 데이터베이스에서 발견되었으므로 LibGen 데이터베이스를 통해 접근 위반이 발생했을 수 있다고 추측하는 것임. MetaAnthropic과 같은 다른 AI 회사들도 잠재적으로 저작권이 있는 자료로 모델을 학습한 것으로 알려져 소송 중에 있음. AI 공개 프로젝트는 AI 기업의 모델 사전 학습 프로세스에 대한 더 강력한 책임이 필요함을 강조함. 데이터 출처 공개에 있어 기업 투명성 향상을 장려하는 책임 조항이 학습 데이터 라이선스 및 보상에 대한 상업 시장 촉진에 중요한 단계가 될 수 있다고 제안함.

다만, GPT-4o 모델을 비공개 데이터로 학습했다는 연구 결과는 예비적이며 방법론적으로도 주의할 필요가 있음. 멤버십 추론 공격은 학습 데이터 소스를 공개하는 상세한 모델 카드를 대체할 수 없음. 소규모 기업이 모든 학습 데이터 소스를 식별하도록 요구하는 것은 적절한 도구와 표준 없이는 비현실적임. 연구진은 대규모 사전 검증된 학습 데이터셋인 Common Corpus와 같은 이니셔티브는 데이터 정리 프로세스를 중앙 집중화하고 검증 가능한 사전 학습 데이터를 제공함으로써 이 문제를 해결하는 데 도움이 될 수 있다고 제안함. 또한 EU AI 법과 같은 데이터셋 공개 의무는 글로벌 AI 시장에서 긍정적인 변화를 이끌어낼 수도 있다고 주장함.

위의 연구는 국내에서의 관련 논의에 시사하는 바가 큼. AI 기본법 제정 과정에서 데이터셋 공개 의무를 둘러싼 상당한 논의가 있었고, 관련 법률의 제정 이후에도 여전히 지속되고 있음. EU AI법을 참고하되, 국내 이해관계자들과의 충분한 논의를 거쳐 컨센서스를 만들어가야 할 것임.

 

 

참고자료

 

Rosenblat, Sruly, Tim O’Reilly, and Ilan Strauss. “Beyond Public Access in LLM Pre-Training Data: Non-public book content in OpenAI’s Models.” SSRC AI Disclosures Project Working Paper Series (SSRC AI WP 2025-04), Social Science Research Council, April 2025. https://www.ssrc.org/publications/beyond-public-access-in-llm-pre-training-data-non-public-bookcontent-in-openais-models/

Duarte, Andre V et al. (2024). “De-cop: Detecting copyrighted content in language models training data”. arXiv preprint arXiv:2402.09910

https://www.artificialintelligence-news.com/news/study-claims-openai-trains-ai-models-copyrighted-data/

 

 

  • 담당자 : 손휘용
  • 담당부서 : 국제통상협력팀
  • 전화번호 : 055-792-0089

본 페이지의 내용이나 사용 편의성에 대해 만족하십니까?

  • 만족도 총 5점 중 5점
  • 만족도 총 5점 중 4점
  • 만족도 총 5점 중 3점
  • 만족도 총 5점 중 2점
  • 만족도 총 5점 중 1점
평가하기