|요약
사용자의 요구사항에 맞춰 텍스트를 생성해 내는 것과 같은 LLM의 기능을 경쟁력 있게 구현하기 위해서는 저작물을 학습 데이터로 이용하는 것은 필수적이라고 볼 수 있다.
LLM의 학습 과정을 살펴보면, 실제 저작물이 학습 데이터로 이용되었는지 그리고 얼마나 이용되었는지를 역추적해서 파악하는 것은 기술적으로 매우 어려운 과제이다.
하지만 특정 조건에서 학습 데이터의 일부가 변형 없이 그대로 출력되는 예외적인 상황인 암기 현상과 관련된 연구가 다양하게 진행되고 있다. 암기 현상은 실제 LLM이 학습한 데이터를 역추적하는 것에 중요한 기술적 단서가 된다.
최근 새롭게 제안된 기술인 ‘RECAP’은 LLM이 암기하고 있는 학습 데이터를 스스로 재현하도록 유도하는 에이전틱 파이프라인 구조로, LLM에게 단순히 단발성 질문을 던지는 수준을 넘어 여러 에이전트가 서로 협력하여 LLM의 깊숙한 기억을 점진적으로 이끌어내는 방법이다.
앞으로 인공지능 분야의 기술이 더욱 발전하여 권리자와 인공지능 개발 기업 간의 법적 불확실성을 해소하고 학습 데이터의 투명성이 보장되길 바란다.