GPT-3란 무엇인가

2021. 4. 11. 16:35캐리의 데이터 세상/캐리의 데이터 공부 기록

반응형

최근 SKT에서 GPT-3 수준 한국어 AI 모델 개발에 나서겠다고 발표, 네이버 또한 지난해 하반기부터 자체적으로 한국어, 일본어판 GPT-3 개발에 들어갔다고 한다. GPT-3가 그럼 도대체 무엇인지 알기 위해, 2020년 6월 OpenAI가 공개한 GPT-3(Generative Pre-Trained Transformer 3) 관련 자료들을 아래와 같이 정리.

1. GPT-3 개요
  • GPT-3는 핵심어만 몇 개 넣으면 알아서 문장으로 만들어주는 기술인데, 500자 중문에서 일반 성인과 비슷한 수준으로 글을 만들어낸다. GPT-3은 기존 GPT–2의 개량 모델로 방대한 양의 데이터셋(3000억 개의 토큰)과 매개변수(1750억 개)를 갖춘 자연어 모델 기반의 딥러닝 시스템
  • GPT-3는 문자 데이터 내에서 목적에 맞는 데이터를 특정 패턴과 순서에 맞게 골라 가공하는 데이터 파싱(parsing) 능력을 보유. 그래서 맥락에 맞되 보다 과장된 표현을 쓰라는 명령을 GPT-3에 하면 단순히 기존 단어를 재배열하는 수준을 넘어 각종 단어를 바꾼 다음 완전히 새로운 문장을 만들 수도 있다고 한다. 이런 기능을 활용해 GPT-3는 이력서 등 용도에 적합한 문서를 작성하는 모습도 보여줌 (관련 기사 링크)

2. GPT-3 논문

OpenAI 연구팀(31명의 공동 저자)은 74페이지의 연구 논문(Language Models are Few-Shot Learners)을 통해 이 모델에 대한 여러 기능과 실험에 대해 설명했습니다. 

▼ 논문 링크

Sources : Link    

 

 

 

Total Compute

 

 

 

▲ Total Compute used during training. 

 

 

 

 

GPT-3 Datasets 

 

 

 

▲ GPT-3 학습에 사용된 Datasets


논문을 바로 접하기엔 아직 너무 어렵기에 아래 리뷰 영상으로 조금 감을 잡고 들여다 보고 있습니다:)

허민석 님 - 논문 리뷰 유튜브 영상

youtu.be/p24JUVgDkQk

- GPT 3의 가장 큰 핵심은 fine-tuning을 제거하는 것
- 이미 많은 데이터로 잘 훈련된 NLP 모델에 few-shot learning을 적용해서 sub task가 이미 준비된 모델을 제공

#논문 이해를 위해 알아둬야 할 주요 용어 :
Language model, Autoregressive Language model, zero shot learning,  few-shot learning



3. GPT-3 관련 영상

인공지능 GPT-3의 지능은 어느 정도일까? 진행자와 티키타카가 아주 자연스러운 인터뷰 영상 한번 보세요! 위키피디아를 비롯해 방대한 양의 책과 웹 텍스트를 공부한 인공지능이 내놓는 답변들. 일반 지식을 퀴즈 형식으로 답하는 수준이 아니라 의견을 내놓는 정도에까지 이르렀는데요, 문맥이 약간 부자연스러울 때도 있지만 이런 기술의 발전을 볼 때마다 사고하는 역량을 더 키워야겠다는 생각과 함께  변화에 적응하지 못하면 없어질 직업군들이 참 많겠다는 생각이 듭니다:) 

이런 성능의 모델을 API로 공개하여 집단지성의 힘이 모아지는 이 생태계가 신기하기도 하면서 참 매력적:)

 

youtu.be/PqbB07n_uQ4

 

조코딩 님의 유튜브 영상- GPT-3 API 활용 사례 영상

youtu.be/I7sZVrwM6_Q

질문 한문장에 sql 쿼리까지 작성하기도ㄷㄷ


GPT-3 인터뷰(한글 번역본)

youtu.be/8onkTVazdcs

 

반응형