대메뉴 바로가기 본문 바로가기
화면크기 ENG

한국저작권위원회

인기검색어
폰트, 음악, PPT, 일러스트
전체 메뉴

사이트맵

닫기

저작권 기술산업 동향

저작권 산업기술동향 상세보기
제목 LLM이 학습한 저작물을 알아낼 수 있을까?
담당부서 정보기술팀 박동현 등록일 2026-04-06
첨부문서

260406 LLM이 학습한 저작물을 알아낼 수 있을까(박동현).pdf 미리보기

 

|요약


사용자의 요구사항에 맞춰 텍스트를 생성해 내는 것과 같은 LLM 기능을 경쟁력 있게 구현하기 위해서는 저작물을 학습 데이터로 이용하는 것은 필수적이라고 볼 수 있다.

 

LLM의 학습 과정을 살펴보면, 실제 저작물이 학습 데이터로 이용되었는지 그리고 얼마나 이용되었는지를 역추적해서 파악하는 것은 기술적으로 매우 어려운 과제이다.

 

하지만 특정 조건에서 학습 데이터의 일부가 변형 없이 그대로 출력되는 예외적인 상황인 암기 현상과 관련된 연구가 다양하게 진행되고 있다. 암기 현상은 실제 LLM이 학습한 데이터를 역추적하는 것에 중요한 기술적 단서가 된다.

 

최근 새롭게 제안된 기술인 ‘RECAP’LLM이 암기하고 있는 학습 데이터를 스스로 재현하도록 유도하는 에이전틱 파이프라인 구조로, LLM에게 단순히 단발성 질문을 던지는 수준을 넘어 여러 에이전트가 서로 협력하여 LLM의 깊숙한 기억을 점진적으로 이끌어내는 방법이다.

 

앞으로 인공지능 분야의 기술이 더욱 발전하여 권리자와 인공지능 개발 기업 간의 법적 불확실성을 해소하고 학습 데이터의 투명성이 보장되길 바란다.

 

 

공공누리 마크
한국저작권위원회가 창작한 LLM이 학습한 저작물을 알아낼 수 있을까? 저작물은
"공공누리" 출처표시-상업적 이용금지-변경금지 조건에 따라 이용할 수 있습니다.