첫 화면 메뉴 바로가기 본문 내용 바로가기

한국저작권위원회

홈

- 위원회
- 사업
- 자료
- 참여
- 소식
- 정보공개

저작권동향

저작권동향 상세보기
제목	생성형 인공지능(Generative AI) 산업 현황 보고서
담당부서	심의산업통계팀 김영희(0557920093)	등록일	2023-04-20
첨부문서	생성형 인공지능(AI) 산업현황 보고서.pdf 미리보기
I. 생성형 인공지능(생성 AI, Generative AI) 개념 ㅇ (정의) 머신러닝 알고리즘을 활용하여 텍스트, 비디오, 오디오 및 이미지 등 기존 콘텐츠를 활용한 학습 데이터를 기반으로 유사한 콘텐츠를 새롭게 만들어 내는 인공지능(AI) 기술 ㅇ (개념) 대형 언어 모델이나 이미지 생성 모델 등을 활용해 사용자가 원하는 새로운 창작물을 생성하는 모든 기술을 의미 - 인간의 행위를 대체하거나 보조하던 역할에서 인간 고유의 영역으로 여겨졌던 '창작'의 영역까지 인간과 경쟁하게 됨 II. 역사 및 발전 과정 ㅇ (역사) 생성 AI는 2014년 GAN(Generative Adversarial Networks)이라는 인공신경망 기술이 등장하면서 본격적으로 인기를 끌기 시작함. 이전에도 VAE(Variational Auto-encoder) 등의 생성 모델이 있었지만, GAN이 생성 AI의 시대를 본격적으로 열었다고 볼 수 있음 - 이후 ‘대형 언어 모델’ GPT-3로의 발전, DALL-E, Stable Diffusion 등과 같은 이미지 생성 AI(Generative AI)가 공개되면서 크게 세간의 주목을 받게됨 ㅇ (발전 과정) 가트너의 2019년부터 2022년까지의 인공지능 하이프 사이클을통해 생성 AI(Generative AI)의 기술 민감도를 살펴보면 생성AI는 ➊ 2019년까지는 인식하지 못하였고, ➋ 2020년에 처음으로 등장, ➌ 2021년 혁신 촉발단계(Innovation Trigger)의 마지막 단계까지 발전, ➍ 2022년 기대정점 단계(Peak of Inflated Expectation)의 초기 단계로 향후 2~5년 이내 주류 기술로 자리 잡을 것으로 예측, ➎ 생성 AI의 마지막 단계인 주류 기술화 (Plateatu of Productivity) 시점은 2~5년 이내일 것으로 전망되고 있음 - ChatGPT에 대한 대중의 관심으로 불과 2년 만에 혁신 촉발(Innovation Trigger) 단계를 지나 기대정점(Peak of Inflated Expectation)으로 발전 III. 생성 모델 ㅇ (정의) 생성 모델(Generative model)은 대량의 학습 데이터를 학습하여 학습 데이터 중 최적화된 학습 데이터와 유사한 분포를 따르는 창작물을 생성하는 방법(Model)을 말함 IV. 생성 AI 모델 기술 분야 ㅇ 생성 AI 모델은 최종 산출물에 따라 ➊ 언어 생성 모델, ➋ 이미지 생성 모델, ➌ 음성 생성 모델, ➍ 비디오 생성 모델, ➎ 게임 생성 모델 및 3D 생성 모델 등을 포함하는 기타 생성 모델로 분류 ➊ (언어 생성 모델) 자연어 처리(NLP) 분야에서 많이 사용되는 모델로 문장 생성, 기계 번역, 질문 응답 생성, 요약 생성 등에 사용, 대표적인 언어 생성 모델로는 Transformer, BERT, GPT-3, BART 등이 있음 (1) 트랜스포머 모델(Transformer Model) - 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습한 신경망으로 ‘파운데이션 모델’이라고도 함 (2) BERT(Bidirectional Encoder Representations from Transformers) - 2018년 구글이 공개한 사전 훈련 언어 모델로 트랜스포머를 이용하여 구현 - (학습 데이터) 33억 단어(위키피디아 25억 단어, BooksCorpus 8억 단어)에 대해 4일간 학습시킨 언어모델 (3) GPT(Generative Pre-trained Transformer)계열 모델 - 오픈 AI가 개발한 대규모 언어 모델로 트랜스포머 아키텍처를 기반으로 하며 큰 규모의 데이터셋에서 사전 학습된(Pre-trained) 모델을 사용 - (특징) ▴(사전 훈련Pre-training과 파인 튜닝Fine-tuning 기술) 대규모 말뭉치를 사용한 사전 훈련을 통해 모델 학습 후 특정 태스크에 맞게 적은 양의 데이터를 사용하여 파인 튜닝을 수행 ▴(전이 학습Transfer Learning 능력) 전이 학습을 통해 다른 언어 처리 태스크에도 유용하게 사용이 가능 ▴(대규모언어Large language 모델) 대규모 말뭉치를 사용한 학습 모델로 고성능 처리 및 메모리 자원 등이 필요 ▴(대화형 응답 생성 능력) 챗봇이나 가상 비서와 같은 인터페이스에서 자연스러운 대화를 생성하는 데 사용 가능 - (장점) ▴순방향 어텐션 사용에 따른 문장 생성에 직접적 이용 가능 ▴분류, 대화, 번역, 요약, 질의응답 등 다양한 자연어 처리 작업에 성능 우수 ▴단어나 문장의 문맥을 이해하고 다음에 올 단어나 문장을 예측하는 능력 가짐 ▴언어 생성에 용이 - GPT 모델은 GPT-1(2018년) 부터 GPT-2 (2019년), GPT-3 (2020년), GPT-4 (2023년) 시리즈로 발전되어 옴 - (기본 구조) 트랜스포머의 디코더 부분만을 이용하여 구현 (4) 초거대 언어 모델(Hyper-scale Language Model)* - (정의) 딥러닝과 같은 인공신경망 구조와 기법의 모델 중에서 매개변수 (Parameter) 수가 매우 많은 모델로 오픈AI의 초거대 언어모델 GPT-3는 전 세계적으로 초거대 언어모델의 개발 경쟁을 촉발 * 초거대 AI(Hyper-scale AI)라는 용어는 GPT-3의 등장을 계기로 널리 쓰이게 되었으며 초거대 인공지능, 초거대 모델 등으로 불리움 - (대규모 언어 모델(LLM)과 초거대 언어 모델(Hyper-scale LM)) * 대규모 언어 모델은 사람들이 사용하는 자연어를 학습하여 실제 인간과 유사한 문장을 생성하기 위한 언어 모델로 점차 규모가 커지며 초거대 AI로 진화 * 초거대 언어 모델은 매개변수 수가 수천억 개로 매우 많으며 방대한 양의 데이터를 학습할 수 있는 모델로 대규모 언어 모델을 포함하는 개념 ➋ (이미지 생성 모델) 이미지 생성 분야에서 사용되는 모델로 스타일 변환, 캐릭터 생성, 이미지 증강 등에 사용, 대표적인 이미지 생성 모델로는 AE, GAN, StyleGAN, VAE 등이 있음 (1) (AE, Auto-Encoder) 대표적인 비지도학습(Unsupervised Learning)을 위한 인공 신경망 구조 중 하나로 단순히 입력을 출력으로 복사하는 신경망 - 어떤 값을 예측하거나 분류하는 것이 목적인 지도학습(Supervised Learning)과는 다르게 데이터의 노이즈를 제거하거나 데이터의 시각화에 적절한 방법 - (특징) 입력(Encoder)과 출력층(Decoder)의 뉴런 수가 동일한 신경망 모델로 입력 데이터의 가장 중요한 특징을 학습하는 것으로 노이즈가 아닌 주요 특징에 대해서만 학습함, 손상된 이미지 복구나 워터마크 제거 등에 활용 - (장점) 비지도 학습 방식 기반으로 라벨이 없는 입력 데이터를 활용이 가능 - (단점) 다른 데이터가 들어와도 훈련 데이터와 비슷하게 만들어버리는 과적합 (Overfitting)† 문제 갖음 † 과적합(과적합, overfitting)은 기계학습에서 학습 데이터를 과하게 학습하는 것을 의미 (2) (VAE, Variational Auto-Encoder) 확률분포 p(x)를 학습함으로써, 학습한 확률 분포로부터 데이터를 생성하는게 목적인 생성모델 - (Encoder) 데이터가 주어졌을 때 Decoder가 원래의 데이터로 잘 복원 할 수 있는 z를 샘플링 할 수 있는 이상적인 확률 분포를 찾는 것 - (Decoder) 추출한 샘플을 입력으로 받아 다시 원본으로 재구축하는 역할 - (장점) 확률 모델을 기반으로 했기 때문에 잠재 코드를 더 유연하게 계산 가능, 모델의 평가 기준이 명확함 - (단점) 노이즈를 주입하고 복원이 완벽하지 않기 때문에 결과의 질이 낮음, GAN 모델에 비해 결과가 흐림 - (AE와 VAE 차이점) AE(Auto-Encoder)는 원래의 데이터를 복원하는 것이 목적인 모델인 반면, VAE는 원래의 데이터를 새로운 유사한 데이터로 재생성해 내는 것이 목적인 모델 (3) (GAN, Generative Adversarial Network) 생성 모델과 판별 모델이 경 쟁하면서 실제와 가까운 이미지, 동영상, 음성 등을 자동으로 만들어 내는 기계 학습(ML) 방식의 하나로 생성적 대립 신경망이라 함 - (특징) 지도학습에 사용되는 라벨이 없이도 학습이 가능한 비지도학습 모델, 진짜와 동일해 보이는 이미지를 생성 - (장점) 생성 모델의 성능이 좋고 학습 데이터가 적어도 생성 모델을 활용하여 보충이 가능하며 분류 모델을 더 강인하게 학습할 수 있음 - (단점) 데이터의 분포를 따라가다 보니, 어떤 데이터가 나올지 모른다는 점과 생성기와 판별기가 고루 학습되지 않으면 편향적인 결과가 생성될 수 있음 (4) (Diffusion확산 모델) 데이터를 만들어내는 딥러닝 생성 모델(Deep Generative Model) 중 하나로 확산(Diffusion)의 형태를 확률적으로 예측하고자 하는 기존의 방법을 활용한 모델 - (장점) VAE, GAN, Flow Based 등 기존의 생성 모델보다 훨씬 사실적이고 정교한 이미지를 생성, GAN 보다 학습 및 생성에 보다 안정적이며 다양한 이미지 생성이 가능함 - (단점) 순차적인 역변환 과정(Inverse Process)을 통해 이미지가 생성되므로 생성 속도가 느리고 GAN에 비해 충실도(Fidelity)가 낮음 - (수행 과정) Forward Process(방 어지르기)와 Reverse Process(방 치우기) 과정 * (Forward Process) 방을 일부로 어지럽힌다 → 데이터에 노이즈를 주입한다 * (Reverse Process) 어지럽혀진 방을 치운다 → 데이터에서 노이즈를 제거한다 (5) (Flow-based Generative 모델) 딥러닝 모델에 대한 역변환을 통해 단순한 분포(Normal distribution)에서 시작하여 복잡한 분포를 학습하는 방법 - (특징) 학습 단계에서 이미지는 생성하지 않고 잠재 벡터 z만 생성 - (장점) GAN과 VAN는 원본 데이터를 압축 및 확장하는 과정에서 데이터의 손실이 발생할 수 있는 반면, Flow-based 생성모델은 역함수 변환을 통해 데이터의 손실(loss)을 줄일 수 있음 ➌ 기타 생성 모델 ㅇ (음성 생성 모델) 음성 생성 분야에서 사용되는 모델로, 음성 합성, 음성 변환, 음악 생성 등에 사용, 대표적인 음성 생성 모델로는 VALL-E, WaveNet, Tacotron, DeepVoice 등이 있음 ㅇ (비디오 생성 모델) 비디오 생성 분야에서 사용되는 모델로, 영상 생성, 동영상 생성, 영상 변환 등에 사용, 대표적인 비디오 생성 모델로는 VideoGAN, Vid2Vid 등이 있음 ㅇ (게임 생성 모델) 게임 생성 분야에서 사용되는 모델로, 게임 캐릭터 생성, 게임 맵 생성, 게임 대사 생성 등에 사용, 대표적인 게임 생성 모델로는 GVGAI, VGDL 등이 있음 ㅇ (코드 생성 모델) 템플릿 기반 코드, 자연어 기반, 딥러닝 기반, 규칙기반 코드 생성 모델로 분류할 수 있음 ㅇ (3D 생성 모델) 컴퓨터 그래픽스 분야에서 3D 모델을 자동으로 생성하는 모델, 이미지 및 비디오를 생성하는데 많이 사용되는 GAN 모델이 3D 모델 생성 분야에서도 활용됨 ㅇ (단백질 구조 예측 생성 모델) 단백질의 아미노산 서열 정보를 바탕으로 해당 단백질의 3차원 구조를 예측하는 모델, 단백질 구조 예측 생성 모델에는 구조 기반 모델(homology modeling), 자율적 모델(AlphaFold) 등이 있음 V. 국내외 생성형 인공지능(AI) 서비스 (1) 국외 ㅇ (OpenAI, 미국) - 샘 알트만(Sam Altman)이 2015년 12월 설립한 인공지능 기업으로 GPT 계열 거대 언어 모델, DALL-E 계열 이미지 생성 AI, 3D 생성 AI 서비스 제공 ➊ (ChatGPT) 2022년 11월 30일 공개한 GPT-3.5 언어 모델을 기반 대화형 인공지능(AI) 챗봇 - (특징) GPT-3.5(최대 8,000단어 처리), 주고받은 대화와 대화의 문맥 기억, 글쓰기, 아이디어, 이메일 작성 등 다방면 활용 가능 ➋ (GPT-4) 2023년 3월 14일 공개한 GPT-4 언어 모델 기반 대화형 인공지능 챗봇 - (특징) GPT-4.0(최대 6만 4,000단어 처리 가능), MMLU(대규모 다중작업 언어 이해) 번역 테스트에서 세계 26개 언어 중 한국어 포함 24개 언어 이해, 사용자가 이미지를 입력하고 관련 질문을 입력하면 이미지를 분석하여 대답, 안정성 향상(‘헐루시네이션(hallucination, 환각) 현상과 위험하고 편향적인 답변 감소) ➌ (DALL-E) 2021년 1월 공개한 이미지 생성 AI로 사전 학습된 모델에 텍스트(Prompt)를 이미지로 변환할 수 있는 AI 시스템 - (특징) 텍스트-이미지(text-to-image) 생성 모델 ➍ (DALL-E2) 2022년 4월 공개한 이미지 생성 AI로 DALL-E 보다 4배 높은 해상도로 사실적이고 정확한 이미지 생성 - (특징) Image-to-image 생성 가능 모델 ➎ (Point-E) 포인트 클라우드 방식의 3차원(3D) 이미지 생성기 - (특징) 텍스트(Prompt)를 이미지로 변환, DALL-E2는 2차원(2D) 이미지를 생성한 반면 3D를 생성, 단일 Nvidia V100 GPU에서 1~2분 안에 3D 모델을 생성, 오픈 소스로 제공 ㅇ (구글 , 미국) ➊ (IMAGEN) 텍스트 입력 기반의 이미지 생성 AI, 텍스트를 이해하는 대형 변환기(Transformer) 언어 모델과 이미지를 생성하는 확산 모델 (Diffusion Model) 결합 - 구글의 Imagen과 VQ-GAN+CLIP, Latent Diffusion Models, DALLE-E2 간 DrawBench 비교 결과 Imagen을 선호 ➋ (PARTI, Pathways Autoregressive Text-to-Image) Vit-VQGAN 방식의 이미지 데이터 압축하여 표현, 트랜스포머 Encoder-Decoder 학습 Text-to-Image 모델 구조(최대 200억 개 매개변수로 확장)의 이미지 AI ➌ (바드, Bard) 구글의 LaMDA(Language Model for Dialogue Application) 기반 대화형 AI - (특징) 1370억개의 매개변수, 30억개 문서로 훈련, 말풍선 형태로 질문과 답변을 주고받도록 설계 ㅇ (MS, 미국) ➊ (M365 코파일럿, Copilot) 업무용 소프트웨어에 인공지능 기술을 적용한 ’마이크로소프트 365 코파일럿 공개 - (특징) 오피스 앱에 AI 기능 제공(워드 코파일럿, 파워포인트 코파일럿, 엑셀 코파일럿 등), 오픈AI의 GPT-4 기술 사용하는 것으로 추정 ➊ (GauGAN2) 2021년 11월 24일 출시된 풍경화를 만드는데 특화된 그림 인공지능 - (특징) 간단한 문구나 문장을 사실적인 그림으로 바꾸어주는 딥러닝 모델, 서너 단어 지시어로 1천 단어 분량으로 설명할 그림 표현 가능, 최초로 텍스트, 분할, 스케치 및 스타일을 단일 GAN으로 결합하여 수정 가능 - 세계 10대 슈퍼컴퓨터 중 하나인 Nvidia DGX SuperPOD 시스템인 NVidia Selene Supercomputer를 사용하여 1천만 개의 고품질 풍경 이미지에 대해 훈련 ➋ (NeMo Megatron) 대규모 언어 모델 AI 플랫폼으로 220억에서 1조 파라미터에 이르는 크기의 GPT-3 모델 훈련속도를 30% 향상 - (특징) 1,024개의 엔비디아 A100 GPU를 사용해 1,750억 개의 파라미터 모델에 대한 훈련을 24일 만에 수행, 결과 도출 시간을 10일 또는 GPU 컴퓨팅 시간으로 약 250,000 시간 단축 ➌ (GET3D, Generate Explicit Textured 3D) 메타버스용 3D 이미지 생성 AI, 메타버스를 채울 건물, 차량, 캐릭터 등 다양한 객체의 3D 이미지를 생성 - 한 개의 2D 이미지 입력으로 모든 토폴로지와 고품질 3D 폴리곤 메쉬를 합성 할 수 있는 3D 생성 모델 - (특징) 2단계 생성 프로세스로 구성 (1) 생성자 ▲ 지오메트리(geometry) 분기 (토폴로지 폴리곤 메쉬 생성)와 텍스처 분기(폴리곤 메쉬의 표면 지점에서 색상이나 재질을 나타내는 텍스처 필드 생성) (2) 판별자 ▲ 3D 모델의 합성 사진을 기반으로 출력 품질 평가 및 최적화 ㅇ (미드저니 , 미국) - (Midjourney) 텍스트로된 설명문 또는 설명구로부터 이미지를 생성하는 인공지능연구소에서 개발한 인공지능 프로그램 - 현재 미드저니 버전5(midjourney v5) 모델 알파 릴리스 발표(2023. 3월) - 구글 클라우드의 AI 슈퍼클러스터에서 구글의 TPU v4를 기반으로 훈련, 수정된 신경망 구조와 새로운 미적 기법 사용, 개발기간은 약 5개월 - (특징) ▲넓어진 스타일 범위 ▲프롬프트에 대한 빠른 반응성 ▲더 상세한 이미지 ▲이전 버전보다 두 배의 이미지 해상도 지원 등 ㅇ (어도비, 미국) - (파이어플라이, Firefly) 텍스트 프롬프트 기반 그림(이미지)과 문자 그림(텍스트 아트) 생성 AI 출시(2023. 3. 22) * 어도비는 스테이블 디퓨전을 포토샵 플러그인을 사용할 수 있도록 하는 알파카 (alpaca)를 2022년에 서비스하므로 사람의 기술과 AI 생성 능력을 결합시킴 - (특징) 저작권 침해 없는 이미지 생성 AI, 타인 또는 타사 브랜드의 지적 재산 기반한 콘텐츠 생성을 막고 자사에서 제공하는 포트폴리오와 사용이 허가된 이미지로만 이미지 생성 - (학습 데이터) 어도비 스톡 라이브러리(Adobe Stock Library), 퍼블릭 도메인 데이터셋 ㅇ (스태빌리티 AI, 영국) - (스테이블 디퓨전, Stable Diffusion) 스태빌리티 AI에서 오픈 소스 라이선스로 배포한 이미지 생성(Text-to-image) AI 시스템(2022. 8. 출시) - 스테이블 디퓨전 2.0은 지적재산권(저작권침해) 보호를 위해 일부 예술가의 그림체와 성인용 콘텐츠 제작을 지원하지 않음 - (스테이블 디퓨전 리이매진, Stable Diffusion Reimagine) 텍스트 없이 이미지만으로 이미지를 만들어주는 이미지 생성 AI, Image-to-Image(2023. 3) - 스테이블 디퓨전 리이매진은 원본 이미지를 재현하는 것이 아닌 새로운 이미지를 생성, 편향된 결과를 제공하는 문제 있음 ㅇ (베이징인공지능연구원(BAAI), 중국) - (우다오2.0) 1조7,500억개의 파라미터를 갖춘 딥러닝 모델, 가상인간 ‘화즈빙’ 구현(2021년 6월) - 화즈빙은 중국 전통 문체로 시를 지을 수 있으며, 그림을 그리거나 작곡도 가능 ㅇ (바이두 , 중국) - (어니봇, Ernie Bot) 중국 자체 생성형 AI 챗봇으로 2023. 3. 27일 정식 출시 예정 - 바이두 검색 엔진과 통합 예정 (2) 국내 ㅇ 네이버, 카카오 양대 인터넷 기업부터 KT, SK텔레콤 등 통신사까지 국내 주요 기술 기업의 2세대 인공지능(AI) 출시 ㅇ (LG) 국내 초거대 AI 시장에서 선두를 달리며 3,000억개 파라미터 규모의 멀티모달 ‘엑사원’을 공개, 이미지를 텍스트로 설명, 의료, 교육, 교통, 법률 등 다양한 산업 분야의 ‘초개대 AI 생태계’ 조성 구상 ㅇ (네이버) 2,040억개 파라미터로 구성된 언어 모델 하이퍼클로바 공개, 하이퍼클로바는 23년치 네이버 뉴스와 19년치의 네이버 블로그를 학습, AI스피커에 하이퍼클러를 적용한 ‘똑똑사전’ 기능 추가 ㅇ (카카오) 이미지 생성 모델 민달리의 상향 버전인 RQ-트랜스포머를 오픈소스 커뮤니티 깃허브에 공개, 1,400만장의 텍스트와 이미지 학습, 멀티모달 기능(텍스트 기반 질문 시 이미지 형태로 답을 제시, 단 이미지를 텍스트로 설명하지는 못함), 삽화 또는 교육 자료 제작 등에 활용 예정 ㅇ (KT) 초거대 AI ‘믿음’ 개발 중, 인간 감성을 이해하고 공감하는 AI 목표, AI 전문상담, AI 감성케어 제공 (AI 전문상담) 전문 영역에 대해 방대한 지식을 학습하고, AI 형상화 및 개인화 문자음성전환 (TTS; Text to Speech) 기술로 전문 상담을 제공 ㅇ (SK텔레콤) GPT-3(영어 기반 GPT-3를 한국어 중심)가 적용된 에이탓 개발, ‘장기기억’ 기술을 적용하여 이용자가 오래전에 대화한 내용 가운데 중요한 정보를 별도의 메모리에 저장해 놓고 대화 중에 활용하는 서비스 ㅇ (LG유플러스) LG AI연구원 등과 협업하여 ChatGPT 등 새로운 모델 활용 검토 중, 고객센터 ‘콜봇’ 서비스 예정 * (콜봇) 고객센터에 전화하면 AI엔진이 음성을 텍스트로 변환, 텍스트를 통해 고객의 문의 의도 분석 뒤 음성으로 답변하는 서비스 VI. 시장 동향 ㅇ 생성형 AI 시장 규모 ➊ 프레지던스 리서치(Precedence Research, 2023)는 전 세계 생성형 AI 시장 규모는 2022년 107억 9천만 달러에서 2032년 1,180억 6천만 달러에 달할 것으로 예상, 2023년부터 2032년까지 예측기간 동안 연평균 27.02% 성장할 것으로 예상 - 텍스트에서 이미지로, 텍스트에서 비디오로의 변환과 같은 기술 사용한 생성 AI의 수요 증가, 미디어 및 엔터테인머트 부문은 2022년 매출의 34% 이상을 차지, 비즈니스 및 금융 서비스 부문에서 2023년부터 2032년까지 36.4%로 가장 빠른 속도로 성장 예상 ➋ KBV 리서치에서 발표한 보고서에 따르면 글로벌 생성 AI 시장 규모는 2028년까지 539억 달러(CAGR 32.2%) 이를 것으로 예상, 트랜스포머(Transformer) 부분이 2021년 생성 AI 시장에서 최대 수익 점유율을 획득하여 2028년까지 224억 달러의 시장 가치를 달성 - 생성형 AI 시장 경쟁 구도를 살펴보면, 마이크로소프트와 구글을 선두로 하여 IBM, 어도비, 아마존 등이 주요 기업으로 부상되고 있음 - 아시아태평양 지역에서 중국 시장이 2021년 생성 AI 시장을 지배, 2022년~2028년까지 40억 4,960만 달러 성장을 예상, 일본 시장은 연평균(CAGR) 32.3%, 인도 시장은 33.9% 성장할 것이라 추정 ㅇ 생성형 AI 기업 동향 ➊ CBINSIGHTS에 따르면 2022년은 생성형 AI 스타트업에 대한 투자가 기록적인 한해였고 생성 AI 유니콘 기업 중 OpenAI를 포함한 6개 기업은 10억 달러 이상의 가치가 있는 것으로 조사됨 ➋ 글로벌 시장조사기관 CB인사이트 발표(2023년 2월)에 따르면, 글로벌 생성 AI 스타트업 250개 기업 중 한국 스타트업은 3곳(딥브레인AI, 디오비스튜디오, 클레온)에 그치는 것으로 조사됨 ㅇ 글로벌 시장조사기관 리포트링커는 글로벌 AI 텍스트 생성기 시장 규모는 2028년까지 10억 달러에 이르며, 예측 기간 동안 연평균 성장률 (CAGR) 17.8% 기록할 것으로 예측, 그랜드 뷰 리서치는 2021년 시장 규모가 3억 3510만달러(약 4200억원)이고 2030년까지 14억달러(1조 7600억원), 연평균 성장률 17.3%를 예측함 ㅇ 시장조사업체 스태디스타에 따르면 빙의 글로벌 검색시장 점유율은 8.95%로 1위 구글(84.08%)에 크게 뒤처졌으나 2023년 1월 세계경제 포럼(WEF․다보스 포럼)에서 마이크로소프트 CEO(사티아 나델라)는 “모든 MS 제품에 AI 기능을 넣을 계획이라 밝힘, 즉 오픈 AI의 ‘ChatGPT’, 코드 생성 AI 모델 ‘코덱스’, 이미지 생성 AI 모델 ‘달리2’가 MS 클라우드 플랫폼 애저에 탑재” 할 것이라함 VII. 국내외 정책 현황 (1) 국외 ㅇ(미국) ➊ 데이터혁신센터(CFDI) ‘AI 혁신을 위한 10대 규제 원칙 발표’(‘23.2) ➋ (미국 저작권청, USCO) AI에 의해 생성된 자료를 포함하는 저작물 등록에 대한 가이드라인 발표 - (목적) AI를 사용해 생성된 자료를 포함하는 저작물을 심사하고 등록하는 과정을 명확히 하기 위함 - (내용) AI로 생성한 결과물도 기존 저작물과 동등하게 저작권 심사를 받을 수 있는 기회를 제공하나 핵심 요소인 사람의 창의성이 드러나야 한다는 전제 - (전통적인 요소 의미) AI가 만든 생성물을 새로운 방식으로 배열 하거나 수정하는 등의 사람의 직접적인 참여를 통해 창의적인 결과를 만들어 내야 한다는 뜻 - (저작권 신청 검증 단계) ▴작품을 만드는 과정에서 AI가 어떻게 사용되었으며, ▴자신은 무슨 활동을 했는지 설명 필요, ▴정보를 정확하게 공개하지 않거나 AI에 의해 생성된 내용을 숨기려 하면 등록 인증서를 취소하고 해당 저작물은 저작권법의 보호를 받지 못함 ㅇ (중국) ’인터넷정보서비스 심층종합관리규정‘ 발표(2023년 1월 10일 시행) - ’22년 12월 중국 국가인터넷정보원과 공업정보화부, 공안부는 AI를 활용해 만드는 딥페이크나 합성 이미지에 대한 지침을 발표 - (주요 내용) ▴ AI를 사용해 만드는 이미지는 중국 법률과 행정 법규에 의해 금지되는 활동에 사용해서는 안됨 ▴ AI 생성 이미지에 게임이나 영화, 만화 등 콘텐츠 산업 전반적으로 선정적이거나 미신적이고 반국가적인 표현을 엄격히 금지 ▴ 사람 얼굴이 등장하거나 사실적인 사진이나 영상, 음성 등을 만들 때는 ‘이 그림은 AI에 의해 생성되었 습니다’라고 알리는 마크(워터마크, Watermark) 달아야 함 ▴ AI 이미지 생성 서비스 관리자로 하여금 사용자의 신원 정보 확인하도록 강제 ▴ AI로 생성된 콘텐츠가 법률을 위반하거나 정보보안위험으로 분류 될 경우 서비스 제공자는 해당 사용자의 계정 정지 ㅇ (유럽연합) EU 인공지능법(Artificial Intelligence Act, AIA, AI Act) - ‘인공지능을 훈련하기 위한 데이터 이용과 저작권’ 및 ‘인공지능에 의해 생성된 자산(Assets)에 대한 지식 재산 보호’를 주요 내용으로 하는 ‘지식 재산과 인공지능’ 보고서를 발표 (2019년 12월 17일, 유럽연합집행위원회 산하 공동연구센터) - (주요 내용) 2021년 4월 초안 마련, AI를 위험도에 따라 3단계로 분류 ▴ (매우 위험한 AI) 인권침해 우려 해당 ▴ (고위험 AI) 안전과 인권에 영향 ▴ (제한된 위험의 AI) 투명성 확보 - 유럽위원회는 GPAI를 '일반적으로 적용 가능한 기능을 갖고 있으며, 여러 상황에서 사용될 수 있는 AI'라고 정의(자연어 처리 AI 모델 'GPT-3'도 여기에 해당) 반면, 미국 브루킹스 연구소는 AIA가 오픈 소스 AI 시스템에 대한 법적 책임을 생성해 개발을 저해할 것이라고 주장 ㅇ (캐나다) ’디지털 헌장(Digital Charter)’ 이행을 위한 ‘디지털 헌장 이행 법안(Digital Charter Implementation Act, Bill C-27)’ 발의 - (목적) 인공지능 시스템의 설계·개발·이용 등에 관한 공통 기준을 설정하여 인공지능 시스템의 통상·무역을 규제하고, 심각한 피해를 야기할 수 있는 인공지능 시스템의 특정 행위를 금지 - (규제 대상) ▴ 인공지능 시스템의 설계·개발·활용 목적으로 인간 활동과 관련한 데이터를 처리하는 경우, ▴ 인공지능 시스템의 설계·개발·활용·관리 - (적용 예외) ▴ 주(州) 정부 기관, 정부 소유 기업 및 자회사, ▴ 국방부 장관, 정보국장 및 통신안보국장의 지시·관리하에 있는 상품·서비스·활동, ▴ 연방·주 정부 기관의 책임자와 총독이 법령으로 정하는 자 또는 기관 (2) 국내 ㅇ (과학기술정보통신부) 국가 인공지능 경쟁력 강화를 위한 ‘인공지능 최고위 전략대화(AI Stratege Summit)’를 출범(‘21.9) - ’23년 3월, 3차 회의를 통해 ’ChatGPT 대응을 위한 초거대 AI 정책방향‘ 관련 의견수렴 - (주요내용) 글로벌 생성형 인공지능(AI) 개발 경쟁에 뒤처지지 않기 위해 반드시 필요한 준비물로 ’양질의 데이터‘를 꼽음 - (문제점) ▴ AI 허브에 초거대 언어모델이 학습할 수 있는 데이터 부족 ▴ AI에 데이터를 학습시키는 과정에서 발생하는 저작권 문제 ▴ AI 서비스와 관련해 출판 콘텐츠를 제공할 때는 사용 목적이나 분량, 범위, 기간 등을 분명하게 설정, ‘문어 말뭉치’ 사태와 같은 저작물 무단 이용에 따른 저작권 침해 방지 ▴ AI 학습 데이터 저작권에 대한 새로운 법적 기준 시급 ㅇ (문화체육관광부) ChatGPT로 대표되는 생성형 인공지능(AI) 기술 변화에 필요한 문화적․제도적․산업적 기반 마련을 위해 3개의 워킹그룹 발족(’23.2) ➀저작권 제도의 개선, ➁‘한국어 잘하는 AI’를 위한 한국어 말뭉치 학습, ➂콘텐츠 창작과 산업에서의 AI 활용 - (주요 내용) ▴ 한국형 ChatGPT가 빠르게 개발될 수 있도록 25종, 약 1억 2000만 어절의 고품질 한국어 말뭉치 구축․배포 ▴ AI 기술 발전에 따른 저작권 제도개선 ▴ 현행 저작권법 내에서 활용될 수 있는 (가칭) ‘저작권 관점에서의 AI 산출물 활용 가이드(안)’ 마련 ㅇ (서울특별시의회) ‘한국형 ChatGPT 산업 현황과 전망에 대한 정책토론회’ 개최(‘23. 3. 6) - (목적) ChatGPT 신드롬으로 인한 전 세계 인공지능 산업 트렌드와 국내 산업에 끼칠 영향을 분석, 한국형 ChatGPT 발굴 - (문제점) 국내 대기업들이 다양한 서비스를 준비 중이나 정작 생성형 AI 보다는 대형 언어 모델에만 집중하는 분위기, 이에 인공지능은 산업현장 외에도 데이터 기반 행정에 즉시 적용 및 서비스 본질에 좀 더 집중 필요 VIII. 생성형 AI 한계와 이슈 □ 생성형 AI의 문제점 ㅇ 할루시네이션(hallucination․환각) 진실 여부에 대한 출처가 확인되지 않는 수많은 데이터를 바탕으로 생성한 ChatGPT의 답변은 겉보기에는 논리적이고 그럴싸해 보이나, 사실은 잘못된 정보이거나 큰 내용이 없는 무의미한 답변일 수 있다는 것, 즉 인공지능 환각은 인공지능(AI) 모델의 고유한 편향, 실제 이해 부족 또는 훈련 데이터 제한에서 발생 ▴ 산수와 관련한 추론 계산에 취약 ▴ 물리적 세계에 대한 추론 ▴ 인간 사고 과정에 대한 추론 ▴ 역사 문제 오류 ▴ 성 차별과 인종 차별 등 ▴ 악의적인 내용 생성 ☞ (ChatGPT 환각률) ‘Got It AI’의 공동창업자 피터 리란(Peter Relan)은 ‘ChatGPT의 환각률은 대략 15%~20% 정도’라고 진단 ☞ (GPT-4) 인간 같은 인지력으로 이전 모델보다 환각 오류를 상당 부분 개선하였으나 완전하지는 않음 ㅇ (데이터 편향성) 대규모 데이터 세트에서 훈련 시, 해당 데이터가 편향적이거나 부적절한 경우 생성된 결과물도 그와 같은 편향성을 반영할 가능성이 큼(인종 편향, 성별 편향, 지역 편향, 선택 편향 등) ㅇ (내재적 불확실성) 생성 AI가 만들어 내는 결과물이 예측 불가능한 경우, 예를 들어 생성된 결과물이 혐오 발언이나 성적 수치심을 유발하는 등의 부정적인 영향 ㅇ (데이터 부족 문제) 생성 AI는 대부분 대규모 데이터 세트에서 훈련되므로 데이터가 부족한 경우 모델 성능의 저하 ㅇ (사람의 개입 필요성) 생성 AI 모델이 만든 결과물을 평가하고 수정하는 작업에는 사람의 개입이 여전히 필요 ㅇ (논리적 일관성 부족) 사람처럼 논리적인 일관성을 유지하지 않을 수 있으며 이전에 생성된 내용과 일관성이 없거나, 상반된 내용을 연속적으로 생성하는 등의 문제 유발 ㅇ (가짜 뉴스 및 정보 생성) 잘못된 의학적 진단을 내리며 가짜 논문을 근거로 제시하는 등의 문제 ㅇ (저작권 침해 문제) 데이터 학습 시 저작권자의 동의 없이 인터넷 등에 공개된 저작물을 무단으로 사용하는 문제 ㅇ (표절) 노엄 촘스키가 뉴욕타임스에 기고글에 ’기본적으로 현재의 생성 AI는 하이테크 표절의 시스템이고 배움을 회피하게 한다‘고 주장, 다수의 전문가와 교육 현장에서 우려가 있음 IX. 산업별 활용사례 ㅇ 메타버스 및 게임 산업 ➊ (로블록스 ) 로블록스는 자연어(텍스트 명령어) 프롬프트를 기반으로 로블록스 월드 내에 가상 개체를 구현할 수 있는 생성 AI 도구머터리얼 제너레이터와 텍스트 기반 코드를 생성할 수 있는 생성형 AI 도구코드 어시스터를 로블록스 스튜디오에 출시 (머터리얼 제너레이터) AI가 스스로 게임 아이템과 배경을 더욱 사실적으로 묘사해 주는 도구 * (코드 어시스트) 이용자가 원하는 코드를 한 문장의 요구만으로 자동 생성 * (로블록스 스튜디오) 창작자가 몰입감 높은 3D 체험을 구축할 수 있도록 엔드투엔드(End-to-End) 도구와 서비스를 무료 제공하는 플랫폼 - 개발자는 별도의 코딩 없이 텍스트만으로 로블록스 내 가상 세계에서 물체나 건물을 생성하고 움직일 수 있으며, 비를 내리는 등 기상 조건도 변경할 수 있음 * 창작 지원 도구에 생성형 AI 기술을 접목, 창작자 의도를 파악하고 다양한 디지털 편집 기능과 콘텐츠 제작 지원 및 빠른 반복 허용 등 기능을 지원 * 코딩 능력은 있지만 고성능 3D 모델링 경험이 적은 창작자도 로블록스에서는 빠르고 쾌적하게 상상력을 실현할 수 있음 ➋ (게임 완성도․게임 제작 비용․디자인 생산성․3D 모델링 시간 단축) - 게임 내 플레이어 외 캐릭터 행동 패턴 다양화, 캐릭터 움직임 보다 사실적으로 만드는 데 인공지능(머신러닝, 자연어 처리) 기술 활용 - 게임 개발 전체 과정에 활용 ➀ (언어 모델) 기획 단계에서 필요한 게임 스토리라인 작성 ➁ (이미지 생성 모델) 디자인에 필요한 캐릭터, 배경 개발에 이용 ➂ (프로그래밍) 기초 코드 생성, 코드 오류 검토 - 2D 이미지로 3D 폴리곤 생성, 텍스트로 3D 모션 생성 ㅇ 인공지능 작가(AI 작가) ➊ (노벨 AI, NovelAI) 인공지능 개발사인 알라탄(Anlatan)사에서 GPT-3 기술을 기반으로 한 인공지능 작가 프로그램으로 AI 스토리텔러 기능 중심의 플랫폼 - 텍스트로 입력한 특징에 따라 이미지를 그려주기도 하고 사진이나 간단한 스케치를 기반으로 새로운 캐릭터를 그려줌 - 월 구독 방식의 유료 서비스, 구독 시 ‘Anlas’라는 토큰 제공 받음 - (주요 기능) 작품 생성, 이야기 진행, 문장 수정, 번역, 글쓰기 조언, 자동 요약, 기존 작품 분석, 블로그 글 작성, 키워드 추천, 문서 분류, 이미지 간 변환 등 기능 제공 - (학습 데이터) Danbooru라는 사이트 내 일러스트 그림을 이용하여 학습 ➋ (어린이과학동아 별별과학백과) ➀‘ChatGPT’를 이용해 스토리 구성․편집, ➁GAN 기반 이미지 생성 AI ‘미드저니’ 이용해 배경 그림 * (ChatGPT 명령어) ‘냄새 도둑에 대해 간략하게 동화를 만들어 줘’ * (미드저니 명령어 키워드) ‘만화 스타일, 동화 나라, 언덕 위의 꽃, 향기’ - 정해진 구도와 색감만을 반복한다는 한계를 갖고 있기는 하지만 작가가 일주일 넘게 그렸을 그림을 단 1분만에 결과물을 생성해냄 ㅇ 건축디자인 ➊ (신세틱 아키텍처 드림 프로젝트) 디자이너 시스 드루라와 예술가 및 건축가들이 참여하여 진행하고 있는 신세틱 아키텍처 드림(Synthetic Archtecture Dream) 프로젝트를 통해 AI 이미지 생성 도구 ‘미드저니’ 이용하여 건축 디자인을 진행 - 프로젝트 참여자들은 초현실적이고 공생적인 도시와 정면에서 식물이 돋아나는 건물, 역동적으로 유동적인 입면과 미래형 재료가 적용된 건축물들을 형상화함 - 시드 드루라는 AI 이미지 생성에 대해 “당분간은 완성된 프로젝트를 기대하기 보다는 영감을 얻기 위해 해보는 작업 과정 중 스케치 정도로 활용하는 것이 최선일 것”이라고 함 ㅇ 인공지능 라디오 방송 서비스 ➊ (라디오GPT, RadioGPT) 미국 미디어 기업 퓨처리는 AI로 작동하는 라디오 방송국 ’RadioGPT’ 서비스를 베타버전으로 출시, RadioGPT는 방송에 필요한 정보 수집부터 대본 작성을 AI로 하고, AI가 교통 정보나 일기예보 등을 웹에서 검색해 수집, 이를 바탕으로 대본을 작성, AI에 탑재된 음성 기술은 이를 읽는 식으로 방송 - 오픈AI 언어 모델 GPT-3와 퓨처리의 자체 AI 기술인 토픽펄스 시스템을 라디오GPT에 탑재 - (토픽펄스 시스템) ➀페이스북이나 인스타그램을 포함해 25만개 넘는 사이트에서 지역 뉴스, 교통정보, 날씨 등을 검색 ➁정보가 충분히 수집되면 GPT-3가 이를 바탕으로 방송용 대본 작성 ➂방송은 대본 읽는 AI 음성을 통해 이루어짐 ㅇ 신수익 사업 모델 출현 ➊ (프롬프트 마켓 ChatX) 생성 AI로 좋은 글이나 그림을 얻을 수 있는 명령어를 사고파는 ‘프롬프트 마켓(AI Prompt Marketplace)’ - 테크크런치는 2022년 7월 1개에 불과하던 온라인 프롬프트 마켓 플레이스가 최근 14개 늘어났고 매달 증가하는 추세라고 보도 - (대표적 마켓) 챗X(ChatX), 뉴트론필드(NeutronField), 프로프트시 (PromptSea), 프롬프트베이스 등으로 ‘달리’, ‘미드저니’, ‘스태이 블디퓨전’ 등 이미지 생성에 필요한 프롬프트, ‘ChatGPT’에서 좋은 글을 도출해낼 수 있는 프롬프트를 거래 - (수익 구조) 챗X의 건당 판매 가격 1.1달러(약 1460원) 정도, 자체 테스트 통과 마켓에 등록한 프롬프트 작성자 39캐나다달러(약 3만7000원) 지급, 판매가 되면 마켓은 수수료 10%를 가져감 - (문제점) GPT-3과 같은 방대한 양의 공개 데이터로 훈련된 언어 시스템은 특정 프롬프트가 표시될 때 이름과 주소를 포함한 개인 정보 유출, DALL-E 2에 ‘포켓몬의 3D 모델’을 생성하도록 지시하는 것과 같은 일부 프롬프트의 저작권 침해 문제 X. 생성형 AI의 예상 기술 변화 ㅇ (AI 기술 트렌드) 영국의 미래학자 버나드 마르는 2023년에 주목할 다섯 가지 AI 기술 트렌드로 ➊(AI의 지속적인 민주화) 앱의 기술 수준에 관계 없이 누구나 AI 기능을 사용하고 AI 소프트웨어 엔지니어 부족 때문에 발생하는 기술 격차 문제의 극복을 통해 모든 사람에게 다가감 ➋(생성(Generative) AI) ’디지털이 아닌 세계에는 존재하지 않는 완전히 새로운 콘텐츠를 생성하는 데 사용하는 것’ 으로 정의, 합성 데이터를 생성하는데 생성AI 기술을 더 많이 사용 ➌(윤리적이고 설명 가능한 AI) 조직이 자동화된 의사결정 시스템에서 편견과 불공정을 제거하는 데 어려움을 겪으면서 AI 윤리의 역할도 점점 더 중요 ➍(증강현실과 결합되는 AI) 특별히 설계된 로봇 및 스마트 기계와 함께 일하고, 데이터 및 분석 기능에 즉시 액세스할 수 있는 증강현실(AR) 헤드셋의 형태 ➎(지속가능한 AI) 지속가능한 AI 제공을 위해 녹색 및 재생 가능 에너지 기반의 인프라를 구현하기 위해 노력 ㅇ (생성 AI 콘텐츠 증가) 영국 생성 AI 분석가이자 작가인 니나 시크는 생성 AI 기술과 콘텐츠의 증가율이 기하급수적으로 늘어나 2년 뒤인 ▴2025년에는 인터넷에 돌아다니는 콘텐츠 90% 이상이 AI가 만든 작품이고 ▴생성 AI는 인터넷에서 텍스트, 오디오, 사진 등 모든 콘텐츠를 인간보다 더 빠르게 만들 수 있을 것, ▴ 2023년 많은 산업에 걸쳐 AI를 적용한 콘텐츠 응용 프로그램 증가할 것이라 밝힘 ㅇ (CEO가 본 AI 미래) ▴“(MS 빌 게이츠)일하고, 배우고, 여행하고, 건강관리하고, 소통하는 모든 일상이 AI를 중심으로 바뀔 것임”, ▴“(구글 선다 피차이)머지않아 사람들은 검색과 함께 가장 새롭고 강력한 언어 모델과 실험적이고 혁신적인 방식으로 AI와 직접 상호작용하게 될 것임”, ▴“(어도비 샨타누 나라옌)생성형 AI가 놀라운 창조성을 기반으로 삶의 경험을 재정의할 것임”, ▴“(엔비디아 젠슨 황)앞으로 생성형 AI가 모든 산업을 재창조할 것임”, ▴“(오픈AI 공동창업자 일론 머스크)AI의 발전이 조금 느려지더라도 규제가 필요하며 AI는 자동차, 비행기, 의약품 보다 실제로 더 큰 위험을 초래할 수 있음”

이전글 다음글
이전글	2023년 제1호-[중국] 항저우인터넷법원, 온라인 게임과 영화 간 저작권 분쟁에서 유사성 불인정(백지연)
다음글	2023년 제2호-[미국] 미국 음악 공정성 법(American Music Fairness Act), 美 하원 법제사법위원회 통과(이나라)

담당자 : 손휘용
담당부서 : 국제통상협력팀
전화번호 : 0557920089