금융 데이터 분석가/text-analysis

BERT 설명과 파생 모델 종류

리치즈 2023. 10. 21. 05:04
728x90

BERT(Bidirectional Encoder Representations from Transformers)는 2018년에 구글에서 발표한 모델입니다.

NLP 분야에서 혁신적인 모델 중 하나로 사전 훈련된(pre-trained) 언어 모델의 개념을 크게 발전시켰습니다.

다양한 자연어 처리에 사용될 수 있습니다. 특히 텍스트 분류, 질의 응답, 기계 번역, 문장 분류과 같은 분야에서 뛰어난 성능을 보입니다.

 


BERT 주요 특징

1. 양방향 문맥 이해

BERT는 이전 NLP 모델과 달리 양방향 언어 이해를 수행합니다. 즉 문장 내에서 각 단의 주변 문맥을 고려해서 단어 임베딩을 학습한다는 것을 의미합니다.

이전 모델은 주로 한 방향(왼쪽에서 오른쪽, 오른쪽에서 왼쪽)으로 텍스트를 처리했지만, BERT는 양쪽 방향 모두를 고려합니다.

 

2. 사전 훈련과 전이 학습

BERT는 대규모 텍스트 말뭉치를 사용하여 사전 훈련합니다.

다양한 자연어 처리 작업에 대해 사전 훈련된 모델을 기반으로 전이 학습을 할 수 있습니다. 

사전 훈련과 전이 학습이 BERT가 다른 NLP 모델에 비해 효율적이고 뛰어난 성능을 보이는 이유 중 하나입니다.

 

3. Transformer

BERT는 Transformer 아키텍처를 기반으로 합니다.

Transformer는 self-attention 메커니즘을 사용하여 텍스트 문맥을 파악하며, layer를 쌓아 깊게 텍스트를 처리합니다.

 

 


BERT 종류

 

BERT-Large(2018)

더 많은 파라미터를 학습하여 모델의 크기와 성능을 높였습니다.

 

 

BERT-Multilingual

다국어 확장 버전으로 다양한 언어에 대한 언어 표현을 학습하며 다국어 자연어 처리 작업에 유용합니다.

 

 

DistilBERT(2019)

BERT를 더 작고 경량화된 버전으로 압축한 모델입니다.

더 적은 매개 변수를 가지며 실행 시간 및 메모리 사용량을 줄이면서 상당한 성능을 유지합니다.

 

 

RoBERTa(2019)

RoBERTa는 더 큰 데이터셋과 훈련 과정을 사용하여 더 나은 성능을 달성했습니다.

기존 BERT와 달리 마스킹된 단어를 예측하지 않고 그대로 두고 양방향 문맥을 더 잘 이해하도록 학습합니다.

특히 문장 분류 작업에서 더 좋은 성능을 보입니다.

 

 

ALBERT(2019)

더 효율적으로 만드는데 중점을 둔 모델입니다.

더 큰 모델 크기와 더 많은 파라미터를 효율적으로 관리하여 대규모 모델을 구축하는 데 도움이 됩니다.

 

 

Reformer(2019)

긴 텍스트 문서를 처리하고 메모리 사용량을 효과적으로 관리하기 위한 목적으로 개발되었습니다.

Reformer는 마스크 전략 대신 데이터 절단과 혼돈 전략을 사용하여 모델을 훈련합니다.

 

 

ELECTRA(2020)

BERT는 마스킹된 언어 모델링(Masked Language Modeling, MLM)을 사용하여 사전 훈련됩니다. BERT는 입력 문장에서 일부 단어를 랜덤하게 마스킹하고 이를 복원하는 과정을 학습하여 언어 이해를 개선합니다.

반면 ELECTRA는 대체 언어 모델링(Replaced Token Detection, RTD)을 사용하여 사전 훈련됩니다. 입력 문장에서 일부 단어를 다른 단어로 대체하고, 이 대체된 단어를 식별하는 과정을 학습하여 모델을 훈련합니다.

MLM 학습 방식은 많은 계산을 필요로 하여 모델의 크기가 커질수록 훈련 시간이 증가합니다. 반면 RTD는 이진 분류 작업으로 효율적으로 훈련할 수 있으며 더 큰 모델에 대한 확장이 효율적입니다.

BERT는 base와 Large 모델만 제공하는 반면, ELECTRA는 Small부터 Large까지 다양한 크기의 모델을 제공합니다.

 

 

BigBird(2021)

Local-Global Attention Mechanism을 도입하여, 긴 텍스트 문서 처리에 특화되어 있는 모델입니다.

분산 컴퓨팅을 활용한 훈련과 추론 속도를 높이는데 효과적인 방법을 사용합니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90
LIST