생성형 인공지능의 저작물 학습행위와 공정이용 여부의 판단 세종대학교 법학과/교수 최승재 2025년 인공지능과 관련된 논의는 저작권법학계에서 가장 뜨거운 논제였다. 이 중에서도 생성형 인공지능의 저작물 학습 행위가 공정이용에 해당하는지 여부에 대한 판단기준을 현재 논의하고 있다. 이 주제는 현재 국제적인 관심을 받고 있다. 필자가 소개한 AIPPI 요코하마 총회에서도 이 주제가 저작권법상의 논의 주제로 선정되어 총회에서 결의도 이루어졌다. 현재의 대체적인 방향성은 TDM(Text and Data Mining) 규정을 도입하면 모든 문제가 해결될 것처럼 논의가 전개되던 시기가 지나가고 이제는 저작권법상의 공정이용 조항의 적용에 대한 기준을 정립하자는 쪽으로 어느 정도 논의의 가닥이 정해지는 것으로 보인다. 과학기술정보통신부(이하 ‘과기부’)가 소관하고 있는 인공지능기본법에도 고영향 인공지능을 포함하여 저작물의 이용에 대한 논의는 포함되지 않았다. 이는 정당한 결론으로 인공지능 학습에서의 저작물이용을 규율하는 것에 대한 규범적인 논의는 저작권법에서 논의되는 것으로 정립된 것으로 보인다. 저작권법은 저작권법상 권리에 대한 제한과 예외로써, 개별적·한정적 저작재산권 제한 규정과 포괄적 저작재산권 제한 규정인 공정이용 규정을 두고 있는데 TDM 논의는 전자를 추가하자는 논의이고, 공정이용을 활용하자는 논의는 포괄적 공정이용 규정을 활용하자는 논의이다. 전자는 별도의 입법이 필요한 논의이고 후자는 이미 입법이 되어 있는 논의이다. 그런데 별도의 입법을 마련하더라도 새로 등장하는 인공지능 학습과 관련된 쟁점들에 대응하기에는 역부족이라고 본다. 2022년 이후 새로 TDM 입법이 이루어진 해외사례는 없는 것으로 알고 있다. 즉 지금 입법된 TDM 규정들은 모두 2022년 이전에 이루어진 입법으로 현재의 문제 상황들에 대한 대응능력은 회의적인 것으로 보인다. 그리고 비교법적으로도 공정이용을 가지고 있는 국가들은 TDM 규정을 별도로 두지 않고 있다는 점도 우리나라에서의 TDM 입법 주장이 더 이상 이루어지지 않는 이유의 하나라고 본다. 그러나 본원적인 문제는 TDM 입법이 된다고 해서 해결되는 문제가 많지 않다는 필자의 주장이 어느 정도 공감대를 얻어서 설득력이 있다고 평가를 받은 것으로 생각한다. 급속히 변화하는 사회·문화·기술적 환경 전반에 유연하게 대응할 수 있도록 마련된 저작재산권 제한의 일반적 규정이 바로 저작권법 제35조의5다. 지금과 같은 상황에 대응하기 위한 것이다. 이런 조항은 2011년도에 우리 저작권법의 일부로 맞이하고는 이 조항이 필요한 상황이 되니 별도의 추가 입법을 하겠다는 것 자체가 저작권법상의 저작재산권 제도에 대한 부적절한 대응이다. 새로운 유형의 저작물 이용 방법에도 합리적으로 적용될 수 있는 법적 기반을 제공하는 공정이용조항의 활용방항을 논의하는 것이 효율적이고 효과적인 접근법이다. 그런 의미에서 2025년 12월 현재 논의 중인 공정이용 가이드라인 준비에 대한 논의는 시의적절하다고 생각한다. 인공지능을 학습(training)시키는 행위는 생성형 인공지능(Genarative Artificial Intelligence) 모델을 구현하기 위해 저작물이 포함된 데이터를 수집하고 이를 전처리한 후 전처리된 데이터를 이용해 모델이 통계적 규칙·패턴을 학습하여 내부 매개변수로 고정시키는 일련의 과정을 총괄하여 부르는 것을 말하는 것으로 이해된다. 이는 단계적으로 나누어보면, 인공지능학습을 위한 데이터를 수집하는 단계(1단계: 데이터 수집단계), 학습된 데이터를 정제하고 변환하는 단계(2단계: 데이타 정제 및 변환단계), 정제된 데이트를 인공지능학습에 사용하기 위하여 모델을 학습시키는 단계(3단계: 모델학습단계). 학습된 모델을 평가하고 이를 특정한 목적을 위해서 최적화하는 단계(4단계: 모델 평가 및 최적화단계)라는 일련의 과정을 거치게 된다. 1) 학습용 데이터 수집단계에 따른 쟁점: 공개한 저작물이라고 자유이용을 허락한 저작물이 아니다. 학습용 데이터를 수집하는 방법은 여러 가지가 있을 수 있다. 이용에서의 자유도가 높은 것은 공공데이터를 수집하는 것이다. 한편 자유이용허락표시저작물들도 있다. 이들 오픈소스 데이터들은 일정한 조건들이 붙어있는 경우가 많지만 상대적으로 학습을 위한 데이터의 수집 및 이용에서 자유도가 높다. 이런 데이터가 아닌 데이터로 논점이 되는 것이 웹 크롤링(Web Crawling)이나 웹 스크래핑(Web Scraping)을 한 데이터들이다. 웹 크롤링은 자동화 프로그램을 통한 데이터 수집을 말하고, 웹 스크래핑은 필요한 정보만 선별하여 추출하는 것을 말한다. 특히 웹 크롤링을 하여 수집한 데이터들은 자유롭게 사용하게 해달라는 요구가 있다. 그런데 웹 크롤링의 대상이 되는 데이터라고 해서 저작권을 포기한 데이터라고 할 수 있을까 하는 질문을 하여 보면 저작권법의 시각에서 이 질문에 대한 답을 긍정(肯定)적으로 할 수 없다. 이는 다시 말해 웹 크롤링으로 수집된 데이터라고 해도 그것이 저작권법에 의해서 보호되는 저작물이라면 저작권법에 의한 제약이 없는 데이터라고 할 수는 없다는 것이다. 2) 인공지능 학습용 데이터: 양(量)에서 질(質)로 인공지능 학습에 있어서 초기에 데이터의 양 자체가 담보되어야 했다. 그리고 실제로 인공지능 업체들은 데이터를 가능한 많이 확보하기 위해서 할 수 있는 모든 일을 이미 다 한 것이 아닌가 싶다. 이런 선발업체들의 행위는 지금 소송이라는 형태로 나타나고 있다. 그런데 인공지능 학습을 시키는 위해서는 데이터를 정제하고 분할하고 정규화하는 과정이 필요하다. 데이터를 정제한다는 것이 학습에 필요한 데이터만을 남기고 불필요한 정보를 삭제한다는 의미이고, 데이터는 토큰단위로 확률모델에 의해서 제안되므로 이런 데이터 분할을 통한 토큰화가 요구된다. 그리고 정규화를 통해서 인공지능 학습에 적합한 형태로 데이터를 만들어야 한다. 그런데 이제 어느 정도의 데이터의 양이 확보되고 나니 이제는 할루시네이션(hallucination)과 같은 문제를 제외하고도 학습 결과물의 질을 담보하기 위해서 학습하는 데이터의 질을 높일 필요성이 생겼다. 가비지 인, 가비지 아웃(garbage-in, garbage-out)은 진리이다. 지금 쟁점이 되는 앤트로픽(Anthropic) 소송에서의 다운로드 한 책을 학습하는 것이나 우리나라에서 전문서적을 학습시키기 위해서 인공지능 업체들이 하고 있는 활동들도 바로 이런 학습용 데이터의 질 향상을 위한 노력이라고 하겠다. 이런 상황은 저작권법의 시작에서 점차 저작권 침해가 더 치열하게 발생할 가능성이 높아진다는 것을 보여준다고 생각한다. 우리나라에서의 방송3사 사건이나 일본의 요미우리 사건이 언론사를 중심으로 해서 이루어지고 있지만 우리나라에서도 미국과 마찬가지로 전면적인 인공지능 학습 관련 소송이 있을 수도 있다는 것이다. 우리와 같은 대륙법계인 독일에서도 2025년 11월 오픈에이아이(OpenAI)에게 저작권침해 책임을 인정하는 판결이 나오는 것도 참고하여야 한다. 3) 데이터라 불리는 저작물의 무단 복제 인공지능 학습과 관련된 저작권 침해 논의에 있어서 우선 저작물을 데이터라고 칭하는 것을 경계하고 싶다. 저작물이건 개인정보건 데이터라는 이름으로 칭할 수 있겠지만 저작물을 데이터라고 칭하는 순간 인간의 인식에서 저작물이 가지는 인간의 창작성이 구현된 구현체로서의 중요성이 몰각될 수 있다. 그러므로 저작물은 데이터가 아닌 저작물로 불러야 한다. 인공지능 학습에 저작물이 사용되면 권리적으로 문제되는 것이 우선 ‘복제권’이다. 흥미롭게도 인공지능 학습을 하는 것이 왜 저작권 침해냐는 주장을 하면서 인간의 학습이 저작권 침해가 아닌데 인공지능이 공부하는 것(학습)은 저작권 침해라고 보는 것은 타당하지 않다는 주장을 꽤 듣게 된다. 인간이 학습을 위해서 ‘수학의 정석’을 복제하면 이는 복제권 침해다. 불법복사를 하는 소위 대학가 복사집을 단속했던 저작권 단속이 바로 복사집 단속이었다. 인공지능도 불법복제를 하면 복제권 침해가 된다. 학습이라는 단어가 주는 묘한 말의 기교를 가지고 본질을 흔들면 안된다. 꼬리가 머리를 흔드는 현상(wag the dog phenomenon)을 저작권법이 용납할 이유는 없다. 저작권법상 저작자는 그의 저작물을 복제할 권리를 가진다(저작권법 제16조). 저작권법상 “복제”란 인쇄·사진촬영·복사·녹음·녹화 그 밖의 방법으로 일시적 또는 영구적으로 유형물에 고정하거나 다시 제작하는 것을 말한다(저작권법 제2조 제22호). 이런 저작권법상의 복제에는 인쇄·사진 등의 눈에 보이는 복제뿐만 아니라 녹음이나 녹화 등의 재생가능한 복제도 포함된다. 2025. 11. 17. 미국영화협회(Motion Picture Association)가 보고한 저작권 침해 사례 중 예를 들어 상영중인 영화관에서 아이폰으로 영화를 촬영하는 행위와 같은 것이 복제행위이다. 복제의 방법이나 수단에는 제한이 없으므로 유형물이기만 하면 어떠한 매체에 수록하더라도 복제에 해당한다. 디지털 저작물을 클라우드 스토리지, 컴퓨터의 하드디스크 등 전자적 기록매체에 저장하는 것도 복제에 해당한다. 복제는 가장 기본적인 저작재산권의 행사이다. 그런 만큼 가장 기본적인 침해의 행태이기도 하다. 앞서 저작물 수집 단계에서 저작물의 자동 수집(크롤링·스크래핑) 행위, 저작물의 복제물을 만들어 학습데이터로 저장하는 행위는 저작권법상 복제에 해당된다. 수학의 정석을 불법복제하는 것이 허용되지 않는 행위인 것처럼 저작물을 인공지능 학습을 위한 것이라고 하면서 불법복제하는 것이 허용되지 않는 행위인 것이 다르지 않다. 이와 같은 복제권 침해행위는 전처리 단계에서도 발생할 수 있다. 원저작물을 클라우드 등 저장 공간에 불러와 처리해야만 수행될 수 있고, 이때 저작물의 전체 또는 일부가 저장 공간에 고정되므로 복제물에 해당할 수 있다. 1) 우리 대법원의 판단기준과 저작권법 제35조 제1항의 ‘저작물의 통상적인 이용 방법과 충돌하지 아니하고 저작자의 정당한 이익을 부당하게 해치지 아니하는 경우’의 의미 대법원 2024. 7. 11. 선고 2021다272001 판결에서, 대법원은 “저작물의 이용 행위가 구 저작권법 제35조의3 제1항에서 규정한 ‘저작물의 통상적인 이용 방법과 충돌하지 아니하고 저작자의 정당한 이익을 부당하게 해치지 아니하는 경우’에 해당하는지 판단할 때에는, 같은 조 제2항 각 호에서 예시적으로 열거한 ‘이용의 목적 및 성격(제1호)’, ‘저작물의 종류 및 용도(제2호)’, ‘이용된 부분이 저작물 전체에서 차지하는 비중과 그 중요성(제3호)’, ‘저작물의 이용이 그 저작물의 현재 시장 또는 가치나 잠재적인 시장 또는 가치에 미치는 영향(제4호)’ 등을 종합적으로 고려하여야 하고, 이용의 경위나 방법 등과 같이 위 각 호에서 열거하지 않은 사항이라도 판단 요소로 고려할 수 있다.”고 보았다. 1항의 3단계 테스트를 함에 있어서,‘저작물의 통상적인 이용 방법과 충돌하지 아니하고 저작자의 정당한 이익을 부당하게 해치지 아니하는 경우’의 의미를 제2항의 4요소 심사로 수행한 것이다. 실무적으로 판단의 용이성을 담보하기 위해서는 네 가지 판단 요소의 판단에 대한 가이드를 제공하는 방법이 될 것이다. 즉 ① 저작물 이용의 목적 및 성격(1요소), ② 이용된 저작물의 성격(2요소), ③ 이용된 양과 질(3요소), ④ 이용이 시장에 미치는 영향(4요소)이다. 미국 법원의 경우 이런 4개의 요소 중에서 특히 1요소와 4요소가 중요하게 판단된다. 미국 법원의 태도는 지속적으로 1요소를 중시하는 판결과 4요소를 중시하는 판결로 오가는데, 1요소를 상징하는 용어가 변용적 이용이다. 변용적 이용은 그 실질이 변용의 정도에 있다기 보다는 공익적인 저작물 활용의 필요성과 저작권자의 권리 보호의 균형에 있다고 생각한다. 미국 법원은 1요소의 변용적 이용이라는 판단을 실질적으로 공익성 판단으로 운용한 것으로 보인다. 그러나 저작재산권의 보호가 기본이고 이에 대해서 물러날 것인지를 정하는 것이 포괄적 저작재산권 제한 조항인 공정이용이라는 규정의 의의를 생각하면 4요소(시장대체효과 내지 시장잠식효과와 같은 시장효과)가 공정이용 판단에서 주된 판단기준이 되어야 한다고 본다. 2) 우리 대법원의 판단기준과 저작권법 제35조 제2항의 요소별 판단 대법원의 판단기준을 요소별로 판단하되 이를 종합하는 태도를 취하고 있으므로 이런 점을 감안하여 가이드라인에는 각 요소별의 긍정적이거나 부정적인 요소들을 인공지능 학습을 하는 기업에서 인식할 수 있도록 하는 것이 도움이 될 것으로 생각한다. ① ‘저작물 이용의 목적 및 성격’을 보는 1요소의 경우, 영리성 여부, 즉 영리인지 비영리인지 여부가 문제가 될 것이고, 교육·비평 등의 목적에 의한 것인지 등이 쟁점이 된다. 영리는 비영리인 경우에 비하여 불리한 요소이고 교육목적 등은 유리한 요소가 될 것이다. 참고로 우리 대법원은 24년 판결에서 변용성을 판단요소로 보았다. 미국 저작권법을 적용한 미국 판례를 고려하여 우리 대법원도 1요소의 저작물의 성격을 고려한 공정이용의 판단에 있어서 ‘변용적 이용’, 즉 저작물의 변용 여부를 고려하겠다는 것으로 보인다. 한편 우리 대법원은 “피고는 저작권 등 권리의 침해를 방지하기 위한 복제방지조치 등 필요한 조치도 취하지 아니한 채 원고의 이용허락 없이 장기간 동안 이 사건 저작물을 공중의 이용에 제공하는 이 사건 게시행위를 하였다”는 점을 불리한 요소로 판단한 것으로 보이는데, 이는 1요소의 일부로 보인다. 이런 점에서 보면, 이용된 저작물에 대한 불법복제방지 조치 이외에도, 해당 저작물의 이용허락을 받으려는 노력을 하였다면 이런 노력은 유리한 요소로 판단할 수 있을 것이다. ② ‘저작물의 종류 및 용도’에 대한 2요소의 경우, 사실적 정보는 창작성 높은 콘텐츠에 비하여 공정이용의 인정에 유리한 요소가 된다고 생각된다. 창작 법제인 저작권법의 경우 창작성이 높다는 것은 보호의 필요성이 상대적으로 크다는 것으로 이런 점에서 보면 저작물의 종류가 창작성이 높으면 공정이용을 통한 저작물 이용활성화는 후퇴할 필요성이 있을 것이다. 저작물의 종류 및 용도란 원저작물이 사실·기능적 저작물인지, 문학·학술·예술적 저작물인지, 공표되거나 발행된 저작물인지 등에 대한 고려 요소라는 점에서 문학·학술·예술적 저작물의 경우 이용허락을 받지 않은 사용이 공정이용으로 판단되기는 어려울 것이다(부정적 요소). ③ 3요소의 경우, 전체 중 일부 인용 여부(양적 기준)나 일부라고 하더라도 특정한 저작물의 핵심적인 부분을 포함하여 사용하였는지 여부(질적 기준)를 보는 것이다. 그런데 이 요소는 직관적이기는 하지만 실제로 이런 사건이 많이 생기지는 않았다. 그러나 인공지능 학습에 있어서 부분적인 사용이 아니라 전체의 사용이 이루어질 수 있다는 점에서 다시금 조명받을 수 있다고 본다. 양적 기준에 있어서는 양이 적으면 공정이용이 인정되기에 유리한 사정이 될 것이고 양적 요소에도 불구하고 질적으로 핵심을 사용하였다면 공정이용을 인정받기 어려울 것으로 본다. ④ 4요소는 공정이용 판단에서 가장 중요한 요소라고 본다. 4요소는 저작권자가 가진 경제적 이익의 잠식(market erosion) 내지 시장대체 여부를 보는 요소이다. 여기서 시장은 현실적인 시장을 물론 잠재적인 시장을 포함하는 것이다. 여기서 잠재적인 시장이란 만일 저작권자의 침해가 없었더라면 존재하였을 시장을 말하는 것이다. 만일 ‘저작권 침해가 없었더라면’이라는 가정적인 질문을 생성형 인공지능 학습으로 가지고 오면 생성형 인공지능 학습 결과물로 인해서 시장에서 직접 ‘저작권법 책’을 사서 보아야 할 것을 ‘저작권법 책’을 사서 보지 않고 무단학습한 생성형 인공지능 학습결과물을 보게 되는 것을 예시할 수 있겠다. 저작권법은 저작권자의 경제적인 이익을 주는 법제(인센티브 제공)라는 점에서 이런 저작권자의 인센티브를 박탈하는 행위를 저작재산권을 제한하는 공정이용으로 보는 것은 법 자체가 형용모순이 되는 것이라고 생각한다. 이런 점에서 제4요소가 가장 중요한 판단의 기준이 된다. 2024년 대법원은 한국교육과정평가원이 저작권신탁관리업자인 법인이 신탁관리하는 저작물을 이용하여 작성한 고입선발고사, 대학수학능력시험 등 평가문제를 해당 시험이 종료된 후에도 수년 동안 홈페이지 등에 게시하여 누구든지 다운로드를 받을 수 있는 상태로 둔 행위가 구 저작권법 제35조의3에 따라 허용되는 ‘저작물의 공정한 이용’에 해당하는지 문제 된 사안에서, 위 게시행위가 저작물의 통상적인 이용 방법과 충돌하지 아니하고 저작자의 정당한 이익을 부당하게 해치지 아니하는 경우에 해당한다고 보기는 어려우므로, 같은 취지에서 위 게시행위가 구 저작권법 제35조의3에 따라 허용되는 ‘저작물의 공정한 이용’에 해당하지 않는다고 본 원심을 수긍하였다. 이 사건에서 저작물이 새로운 표현이나 의미로 변형되는 정도가 낮고(1요소), 게시기간이나 이용자 제한 없이 무제한 제공되는 점(3요소), 저작물의 시장가치를 훼손할 우려가 있다는 점(4요소), 저작권 보호를 위한 복제방지조치 등을 취하지 않았다는 점(1요소) 등을 들어서 공정이용면책이 되지 않는다고 보아서 적용에 있어서 기준을 제시하였다. 대법원이 제시한 이런 요소들은 향후 문화체육관광부와 한국저작권위원회의 가이드라인과 함께 인공지능사업자의 판단에 도움을 줄 것으로 보인다. 저작권법 제35조의5 제1항은 3단계테스트를, 그리고 제2항은 4요소 심사를 하고 있다. 제2항은 고려요소들로 어느 한 요소에 의해서 공정이용 여부가 결정되는 것이 아니며 이들을 종합적으로 고려하여 공정이용의 인부가 정해지게 된다. 이런 이해는 2024년 대법원이 판시한 태도도 마찬가지다. 인공지능사업자들의 입장에서 TDM 규정이 입법되어도 여전히 불확실한 점이 해소되지 않는다는 점에 동의하면서도 공정이용 조항을 활용하는 것에 대해서는 예측가능성이 부족하다고 보는 것 같다. 학습·개발 목적의 비표현적 이용 등 기술 환경 변화에 대한 적용 가능성은 미국의 판례 동향을 관찰할 필요가 있다. 그러나 우리 저작권법상 공정이용 조항(저작권법 제35조의5)의 4가지 요소들의 개별 평가 및 이에 기초한 전체적·종합적 판단은 우리나라 산업의 현실과 저작권자의 보호의 균형이라는 점에서 개별 사안별로 특수성을 고려하여 판단하여야 할 것이다. 그리고 그 바탕은 저작권자의 보호 그리고 이를 통한 콘텐츠 산업의 발전과 이를 위한 인공지능 산업의 동반성장이라는 기조(基調)여야 한다. • 남형두, 「공정이용의 역설-시소에 올라탄 거인, 균형의 복원」, 경인문화사(2025. 2. 24.) • 최승재, [일본] 국제지식재산권보호협회(AIPPI) 2025년 요코하마 총회 결의: 인공지능과 저작권, 저작권동향 2025년 제16호(2025) • ANDREA BARTZ, CHARLES GRAEBER, and KIRK WALLACE JOHNSON v. ANTHROPIC PBC, Northern District Court of California, No. C 24-05417 WHA(2025). • GEMA v. OPEN AI, LG München I, Urteil vom 11. 11. 2025. 42 O 14139/24. |