BERT
본 서비스가 제공하는 내용 및 자료가 사실임을 보증하지 않습니다. 시스템은 언제나 실수를 할 수 있습니다. 중요한 의사결정 및 법리적 해석, 금전적 의사결정에 사용하지 마십시오.
BERT(Bidirectional Encoder Representations from Transformers)는 2018년 10월 구글 연구진이 발표한 자연어 처리 모델이다. 트랜스포머 아키텍처의 인코더 구조만을 사용하며, 텍스트의 문맥을 모든 층에서 양방향으로 동시에 학습하여 언어 이해 능력을 획기적으로 개선했다. 발표 당시 GLUE, SQuAD, SWAG 등 여러 자연어 이해 과제에서 최고 성능을 기록하며 현대 언어 모델 연구의 중요한 기준점이 되었다.
개요
BERT는 제이콥 데블린(Jacob Devlin), 명휘 창(Ming-Wei Chang), 켄턴 리(Kenton Lee), 크리스티나 투타노바(Kristina Toutanova)가 구글에서 개발한 딥러닝 언어 모델이다. 기존의 언어 모델들이 텍스트를 한 방향으로만 읽거나 얕은 수준의 결합을 시도했던 것과 달리, BERT는 모든 층에서 왼쪽과 오른쪽 문맥을 동시에 고려하는 깊은 양방향 표현을 사전 학습하도록 설계되었다. 이 모델은 개념적으로 단순하면서도 실증적으로 강력하여, 추가 출력층 하나만으로 다양한 자연어 처리 작업에 미세 조정될 수 있다.
기술적 특징
BERT는 트랜스포머의 인코더 구조만을 사용하며, 텍스트를 벡터 시퀀스로 변환하여 처리한다. 주요 특징은 다음과 같다.
- 양방향성: 문장 내 특정 단어의 의미를 파악할 때 앞뒤 문맥을 모두 참조한다. 이는 기존의 단방향 모델(예: GPT)과 차별화된다.
- 사전 학습과 미세 조정: 대규모의 레이블 없는 데이터를 통해 언어의 일반적인 구조를 먼저 학습(Pre-training)한 뒤, 특정 작업에 맞춰 적은 데이터로 미세 조정(Fine-tuning)하여 최적의 성능을 낸다.
- 범용성: 사전 학습된 모델에 하나의 출력층만 추가하면 질문 응답, 언어 추론, 감성 분석 등 다양한 자연어 처리 작업에 즉시 적용할 수 있다.
- 모델 크기: BERT는 두 가지 크기로 제공된다. BERTBASE는 12개의 인코더 층과 12개의 양방향 자기 주의 헤드로 구성되며 총 1억 1천만 개의 파라미터를 가진다. BERTLARGE는 24개의 인코더 층과 16개의 양방향 자기 주의 헤드로 구성되며 총 3억 4천만 개의 파라미터를 가진다.
학습 방법
BERT는 자기지도 학습(Self-supervised Learning)을 위해 두 가지 주요 과제를 수행하며 훈련된다.
- 마스크 언어 모델(Masked Language Model, MLM): 입력 문장에서 임의의 단어를 가리고(Masking), 주변 문맥을 통해 가려진 단어가 무엇인지 예측한다. 이를 통해 모델은 양방향 문맥을 이해하게 된다.
- 다음 문장 예측(Next Sentence Prediction, NSP): 두 문장이 주어졌을 때, 두 번째 문장이 첫 번째 문장 뒤에 오는 실제 문장인지 여부를 예측한다. 이는 문장 간의 관계를 파악하는 능력을 길러준다.
사전 학습 데이터로는 Toronto BookCorpus(약 8억 개 단어)와 영어 위키백과(약 25억 개 단어)가 사용되었다.
성능
BERT는 발표 당시 다양한 자연어 이해 작업에서 최첨단 성능을 달성했다.
- GLUE(General Language Understanding Evaluation) 벤치마크: 9개 과제로 구성된 GLUE 점수에서 80.5%를 기록하여 기존 최고 성능 대비 7.7% 포인트 절대 개선을 이루었다.
- MultiNLI(Multi-Genre Natural Language Inference): 정확도 86.7%로 4.6% 포인트 개선.
- SQuAD(Stanford Question Answering Dataset) v1.1: F1 점수 93.2로 1.5% 포인트 개선.
- SQuAD v2.0: F1 점수 83.1로 5.1% 포인트 개선.
- SWAG(Situations With Adversarial Generations): 최고 성능 달성.
이러한 성과는 BERT가 단일 모델로 여러 과제에서 동시에 뛰어난 성능을 낼 수 있음을 입증했다.
영향 및 응용
BERT는 발표 이후 자연어 처리 분야의 표준적인 베이스라인 모델로 자리 잡았다. 2020년 문헌 조사에 따르면, 1년이 조금 넘는 기간 동안 BERT는 모델을 분석하고 개선하는 150개 이상의 연구 간행물을 포함하는 NLP 실험의 유비쿼터스 기준선이 되었다. 상호 참조 해결, 다의어 해소 등 복잡한 언어 이해 작업에서 뛰어난 성능을 보였으며, 이후 BERT의 작동 원리를 분석하는 'BERTology'라는 연구 분야가 형성되기도 했다.
실제 응용 분야로는 다음과 같은 사례가 있다.
- 생물 의학 텍스트 마이닝
- 특허 분류
- 금융 분야의 감성 분석
- 과학 도메인의 하위 작업 수행
BERT는 ELMo와 GPT-2와 같은 이전 모델을 개선했으며, 이후 등장한 RoBERTa, ALBERT, DistilBERT 등 다양한 변형 모델의 기반이 되었다.