첫 화면 메뉴 바로가기 본문 내용 바로가기

한국저작권위원회

인기검색어
폰트, 음악, PPT, 일러스트
전체 메뉴
닫기

저작권동향

저작권동향 상세보기
제목 ChatGPT 기술 산업 현황 보고서
담당부서 심의산업통계팀 전상홍(0557920098) 등록일 2023-02-28
첨부문서

ChatGPT 기술 산업 현황 보고서.pdf 미리보기

1.  ChatGPT의 개념과 특징
  가. (개념) ChaTGPT는 OpenAI 社에서 제작한 대규모 인공지능 언어모델인 GPT(Generative Pretrained Transformer) 기술을 적용하여 개발한 대화 전용 인공지능 챗봇(Chat Generative Pre-trained Transformer, ChatGPT)을 말함.
  나. (특징) 사용자의 질문에 대한 일반적인 대화뿐만 아니라 창의적인 아이디어 도출을 위한 대화, 주제에 대한 간단한 에세이나 시나리오 작성, 소스코드 작성 및 코드 리뷰가 가능함.
    ChatGPT는 사용자와의 상호작용 없이 독립적인 정보만을 제공하는 기존 검색 엔진에 비해 사용자의 질문을 이해하고 답변을 준다는 점에서 사용자 친화적이고 새로운 답변을 생성한다는 측면에서 큰 차이가 존재함.

2. ChatGPT의 기반 기술(GPT+RLHF)
  가. GPT(Generative Pre-trained Transformer)
    GPT는 대규모의 사전학습 언어모델(Pretrained Language Model, PLM)로서 Tranfomer라는 문장 속 단어들의 관계를 파악하여 맥락과 의미를 파악하는 신경망 모델을 이용하여 인공지능이 할 수 있는 최선의 답변을 텍스트로 생성함.
    2018년에 개발된 GPT-1을 시작으로 2019년 GPT-2, 2020년에  GPT-3까지 개발되었으며8), 버전이 업그레이드하면서 모델의 크기가 커지고 성능이 우수해지고 있음.
  나. 인간 피드백을 통한 강화학습(Reinforcement Learning from Human Feedback, RLHF)
     인공지능이 강화학습을 할 때 인간이 추가 학습정보나 학습한 결과에 대한 평가 등을 제공(피드백)하여 알고리즘의 최적화를 통해 모델의 성능을 향상시키는 강화학습 방법임.

3. ChatGPT 학습과정
  가. (1단계) GPT-3.5를 통해서 약 5000억 개의 글자(토큰)로 이루어진 학습 데이터를 인공 신경망을 통해서 학습함.
  나. (2단계) GPT-3.5는 인간이 선호하는 답변을 생성할 수 있도록 기계학습 데이터 분석·분류 전문가가 작성한 질문으로 학습하여 미세 조정(Fine-tuning)된 GPT-3 모델임.
  다. (3단계) GPT-3.5 모델에게 질문을 하여 여러 가지 답변을 생성하도록 하고 생성된 답변들에 대해서 기계학습 전문가들이 점수를 주고 순위를 부여하도록 함. 미세 조정된 GPT-3.5 모델이 최고 순위의 답변을 도출하는 보상 모델을 만듦.
  라. (4단계) 미세 조정된 GPT-3.5 모델이 보상 모델을 통해 질문에 대하여 최적의 답변을 도출할 수 있도록 스스로 강화학습을 함.

4. 학습 데이터(GPT-3 기준)
  가. (Crawl) 2016년부터 2019년까지 웹크롤링을 통해서 수집한 데이터
  나. (WebText2) 레딧(Reddit)에서 2018년 1월 ~ 10월까지 게시글 중에서 최소 3 Karama (긍정이나 부정 표시개수) 이상의 게시글
  다. (Books1) 만료저작물들을 인터넷에서 수집하여 제공하는 프로젝트 구텐베르크(Project Gutenberg Corpus)의 책 자료일 것으로 추정
  라. (Books2) Bibliotik의 데이터일 것으로 추정
  마. (Wikipedia) 위키피디아를 통해서 수집한 자료

5. ChatGPT 시장규모
  가. 챗봇
    글로벌 챗봇 시장 규모는 2032년까지 연평균 19.92% 성장하여, 약 49억 달러의 시장을 형성할 것으로 전망임.
  나. ChatGPT
    출시 4일만에 하루 동안 해당 서비스를 이용한 이용자의 수(DAU26))는 100만 명을 돌파, 40일째에는 1,000만 명을 돌파, 현재 ChatGPT 일 사용자 수는 1,500만 명 으로 추정됨(2023.1.23. 기준).
    UBS 리서치에 따르면 ChatGPT는 1조 달러($1 trillion)의 가치가 있다고 발표함.

6. 인공지능 챗봇 서비스
  가. 마이크로소프트: 빙(Bing)
    마이크로소프트 빙 검색엔진에 ChatGPT보다 성능이 우수한 오픈AI 社의 새로운 언어모델인 프로메테우스(Prometheus)를 적용할 예정임.
  나. 구글: 바드(Bard)
    대화형 애플리케이션 언어 모델인 람다(LaMDA)31) 기반의 대화형 인공지능 챗봇으로 기자회견에서 시연을 통해 공개함.
  다. 네이버: 서치GPT
     네이버에서 올해 상반기에 네이버의 하이퍼클로바 모델을 기반으로 작동하는 새로운 검색 서비스인 ‘서치GPT’를 공개하겠다고 발표함.
  라. 바이두 어니봇
    대규모 언어모델인 어니 3.0(ETNIE 3.0) 기반의 대화형 인공지능 챗봇을 내부 테스트를 거쳐 2023년 3월에 출시할 예정임.

7. ChatGPT의 한계
  가. (정확성) ChatGPT에서 사용할 수 있는 데이터는 2021년 9월로 제한되기 때문에 입력된 질문에 대한 정보가 충분하지 않으면 잘못된 데이터로 답변을 채우거나 부정확한 정보를 산출(hallucinations)하는 경향이 있음.
  나. (편향성) ChatGPT 모델은 부적절한 요청에 대해서는 답변을 거부하도록 훈련되었지만 우회적인 질문을 통해 유해한 지침이나 쿼리에 응답하거나 편향된 답변을 산출할 수 있음.
  다. (접근 정보의 제한) 실시간 정보, 인터넷의 URL이나 참조를 제공하거나 위치기반 정보를 사용할 수 없음. 이에 따라 응용 프로그램의 기능과 응용 프로그램이 제공할 수 있는 서비스 유형 또한 제한됨.
  라. (다중모드 입·출력) 텍스트 모델이므로 이미지, URL, 오디오 또는 기타 입력 모드를 입력하거나 출력(제공)할 수 없음. 비언어적 수단을 이용할 수 없으므로 대화의 깊이나 질적 측면에서 한계가 존재함.
  마. (서비스 지속성) ChatGPT의 사용자 폭증에 따른 서버 용량 초과로 인한 네트워크 오류로 사용자의 접근에 제한이 발생하거나 일시적으로 서비스가 중단되는 현상이 발견되고 있음.
  바. (오·남용) ChatGPT를 활용한 과제, 시험 등 교육 분야에서 부정행위가 적발되는 등 오용, 남용되는 사례가 등장하고 있고 확대될 것으로 보임.

8. ChatGPT 관련 저작권 이슈
  가. 학습자료 이용의 저작권 문제
    GPT를 학습시키기 위해 크롤링을 통해 웹사이트에서 수집한 자료의 양은 570Gbyte라고 알려져 있음.
    인터넷에 공표된 저작물 중 상당 부분이 저작권법상 보호받는 저작물이기 때문에 해당 저작물의 수집·저장, 학습 과정에서 발생하는 전송 등의 과정을 고려해볼 때 학습자료에 대한 저작권 문제가 발생할 수 있음.
    다만, 인공지능의 학습자료의 데이터마이닝 과정에서 이루어지는 저작물 이용행위가 공정이용에 해당하는지는 검토가 필요함.
  나. CCL과 오픈소스 문제
    GPT가 학습한 자료에는 CCL(Creative Commons License)를 적용하고 있는 저작물이 상당수 있음
    GPT가 CCL 조건을 지키며 저작물을 학습시키고 있는지 여부, CCL 저작물을 학습하여 문장을 생성한다고 했을 때 CCL 저작물이 표현될 수 있다면 해당 라이선스 조건에 따라서 저작자표시 등의 이용조건 준수 여부가 문제 될 수 있음.
    ChatGPT가 학습한 소스코드나 학습한 소스코드를 통해 창작한 소스코드가 이러한 오픈소스 라이선스 저작물을 사용하였고, 오픈소스 라이선스의 사용조건을 지키지 않았다면 저작권 침해 문제가 발생할 수 있음.
  다. ChatGPT 생성물의 저작물성
    현행 저작권법상 저작자는 인간을 전제로 하기 때문에 ChatGPT의 생성물은 저작물로 인정받기 어려움.
  • 담당자 : 손휘용
  • 담당부서 : 국제통상협력팀
  • 전화번호 : 0557920089

본 페이지의 내용이나 사용 편의성에 대해 만족하십니까?

  • 만족도 총 5점 중 5점
  • 만족도 총 5점 중 4점
  • 만족도 총 5점 중 3점
  • 만족도 총 5점 중 2점
  • 만족도 총 5점 중 1점
평가하기