티스토리 뷰

AI

BERT

damti 2022. 7. 12. 11:09

: NLP 플젝 진행 -> data 전처리에서 분석, 논문으로 넘어갔다. 분석 모델 정리해서 모르는 거 여쭤봐야겠다. 

 

 

 

BERT -> 양방향, OpenAI GPT -> 단반향, ELMo -> 양방향(논문 캡쳐)

 

1. chr

1) 전이학습 모델 

unlabeled data -> Language Model learning -> 문서 분류, 질의응답, 번역 -> 신경망 추가

2) 사전 학습 모델

상대적으로 적은 자원 -> nlp 수행

 

2. structure

1) input representation

- 세 가지 임베딩 값의 합으로 구성됨 

(1) Token Embeddings

- Word piece 임베딩 방식

- 가장 긴 길이의 sub-word을 하나의 단위로 만듬

  -> rare word -> 더 작은 sub-word로 쪼개어짐.

      => OOV(Out-of-vocabulary)로 처리 -> 모델링 성능 저하 문제 해결

- [CLS] 토큰(special classification token) -> 모델의 전체 계층 다 거침 -> 토크 시퀀스의 결합된 의미 가짐

(2) Segment Embeddings

- 토큰으로 나누어진 단어들 -> 다시 하나의 문장으로 만듬

- 첫 번째 [SEP] 토큰까지는 0, 

  그 이후 [SEP] 토큰까지는 1 값 -> 마스크를 만듬

  => 각 문장들을 구분

(3) Position Embeddings

- 토큰의 순서 인코딩

 

=> 앞서 언급한 각 임베딩들의 토큰 별로 모두 더함 

     -> BERT의 입력 벡터로 사용함

 

2) Pre-training / Fine-Tuning

 

- nlp 2단계

- encoder -> 입력 문장 임베딩 -> 언어 모델링하는 pre-training

  => fine-tuning -> nlp task 수행

 

3. OpenAI GPT, ELMo / BERT 구조 비교

 

- ELMo -> left-to-right, right-to-left -> right-to-left 문맥 -> 독립적으로 계산하여 접합한 형태

- OpenAI GPT -> left-to-right로만-우left-to-right 계산하는데

  => 양방향 문맥 보지 못함 -> 충분히 언어 표현을 하지 못하는 단점

- BERT -> 사전 학습을 위해 두 가지 방법 (Masked Language Model(MLM), Next Sentence Prediction(NSP)) 사용

  => 양방향으로 학습 -> 문맥 더 잘 파악함

 

4. Transformer기반의 BERT

- MLM, NSP -> Transformer을 기반으로 구성됨

- 인코더만 사용함

1) MLM(Masked Language Model)

- 일련의 단어가 주어지면 해당 단어 예측

- 모든 다음 토큰을 예측 x, 무작위 몇 개 토큰 마스킹 -> 주변 맥락

  -> 문맥을 파악하는 능력 길러냄

2) NSP(Next Sentence Prediction) 

- 두 번째 문장 -> 첫 번째 문장의 바로 다음에 오는 문장인지 예측

- 질문 답변과 같은 작업 가능

5. BERT-base model / BERT-large model

L = 트랜스포머 블록

H =  히든 레이어 차원 수

A = self-attentionhead 수

 

BERT-base model 하이퍼 파라미터 -> L = 12, H =768, A = 12

BERT-large model -> L= 24, H = 1024, A= 16

 

+ 심플하게 본질만 파고들도록 해야겠다.

불필요한 서술들은 목적을 흐리게 만들수도..

+ 딥러닝 -> 인간 사고 능력 flow랑 비슷함으로 이해하면 편함

 

참고 출처 : 

https://happy-obok.tistory.com/23

http://www.aitimes.kr/news/articleView.html?idxno=13117

'BERT: 언어 이해를 위한 양방향 트랜스포머 사전 학습(BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding)' 논문
BERT Google-research의 GitHub

http://Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

http://Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.

'AI' 카테고리의 다른 글

Deep learning> Speech Recognition Training Data  (0) 2022.06.27