자연어 처리 공부자료 업데이트

2021. 12. 22. 15:07캐리의 데이터 세상/캐리의 데이터 공부 기록

반응형

12월에 출간된 따끈따끈한 Do it 시리즈 신간 <Bert와 GPT로 배우는 자연어 처리>를 내 돈 내산 직접 구입해서 따라 해 보면서 챕터별로 저자가 소개해 둔 자료들 링크와 함께 정리해봅니다. 오렐리 nlp 시리즈 책들도 가지고 있지만 손을 못 대고 있던 와중에 한국어 말뭉치로 흐름을 따라잡기 쉽게 설명된 얇은 책이라 실행 코드를 코랩으로 모두 돌려볼 수 있도록 QR 코드로 잘 안내되어 있으니 입문용으로 괜찮아 보입니다.

 

자연어처리-신간
자연어 처리 신간

 

자연어 처리 관련 참고자료 모음

책에 수록된 코드 실습에는 파이토치 지식이 없어도 무방하다고는 하나 알고 있으면 더 수월, 파이토치 자료를 아래와 같이 소개해둠.

 

 

 

모두를 위한 딥러닝 시즌2 - PyTorch

파이토치 한국어 공식 튜토리얼

 

토큰화 관련 학습 자료

허깅페이스 토크나이저는 바이트 페어 인코딩, 워드피스 등 각종 서브워드 토큰화 기법은 물론 유니코드 정규화, 프리토크나이즈, 토큰화 후처리 등 다양한 기능을 제공함

 

허깅페이스 토크 나이저 공식 문서

논문 1 : Netural Machine Translation of Rare Words with Subword Units

- 바이트 페어 인코딩을 자연어 처리에 처음 도입해 본 논문

논문 2 : Japanese and Korean Voice Search

- 워드피스 기법을 제안한 논문

 

 

 

트랜스포머 관련 논문

구글 연구팀이 2017년 발표, Pre-train 없이 모델을 처음부터 학습했는데도 당시 최고 성능을 기록해 주목받았던 연구. 이후 BERT, GPT 등 요즘 널리 쓰이는 모델 아키텍처가 전부 트랜스포머임.

논문 1 : Attention is All You Need

 

트랜스포머의 모델 구조를 파이토치 코드로 해설한 블로그

글 :  The Annotated Transformer

 

트랜스포머 계산 과정을 그림, 애니메이션, 동영상으로 시각화한 글. 내부 동작 원리를 직관적으로 이해해 볼 수 있음

글 : The Illustrated Transformer

 

계속 업데이트...

 

 

반응형