BERT(Bidirectional Encoder Representations from Transformers)는 2018년 10월 구글 연구진이 발표한 자연어 처리 모델이다. 트랜스포머 아키텍처의 인코더 구조만을 사용하며, 텍스트의 문맥을 모든 층에서 양방향으로 동시에 학습하여 언어 이해 능력을 획기적으로 개선했다. 발표 당시 GLUE, SQuAD, SWAG 등 여러 자연어 이해 과제에서 최고 성능을 기록하며 현대 언어 모델 연구의 중요한 기준점이 되었다.

배너 광고

개요

BERT는 제이콥 데블린(Jacob Devlin), 명휘 창(Ming-Wei Chang), 켄턴 리(Kenton Lee), 크리스티나 투타노바(Kristina Toutanova)가 구글에서 개발한 딥러닝 언어 모델이다. 기존의 언어 모델들이 텍스트를 한 방향으로만 읽거나 얕은 수준의 결합을 시도했던 것과 달리, BERT는 모든 층에서 왼쪽과 오른쪽 문맥을 동시에 고려하는 깊은 양방향 표현을 사전 학습하도록 설계되었다. 이 모델은 개념적으로 단순하면서도 실증적으로 강력하여, 추가 출력층 하나만으로 다양한 자연어 처리 작업에 미세 조정될 수 있다.

기술적 특징

BERT는 트랜스포머의 인코더 구조만을 사용하며, 텍스트를 벡터 시퀀스로 변환하여 처리한다. 주요 특징은 다음과 같다.

  • 양방향성: 문장 내 특정 단어의 의미를 파악할 때 앞뒤 문맥을 모두 참조한다. 이는 기존의 단방향 모델(예: GPT)과 차별화된다.
  • 사전 학습과 미세 조정: 대규모의 레이블 없는 데이터를 통해 언어의 일반적인 구조를 먼저 학습(Pre-training)한 뒤, 특정 작업에 맞춰 적은 데이터로 미세 조정(Fine-tuning)하여 최적의 성능을 낸다.
  • 범용성: 사전 학습된 모델에 하나의 출력층만 추가하면 질문 응답, 언어 추론, 감성 분석 등 다양한 자연어 처리 작업에 즉시 적용할 수 있다.
  • 모델 크기: BERT는 두 가지 크기로 제공된다. BERTBASE는 12개의 인코더 층과 12개의 양방향 자기 주의 헤드로 구성되며 총 1억 1천만 개의 파라미터를 가진다. BERTLARGE는 24개의 인코더 층과 16개의 양방향 자기 주의 헤드로 구성되며 총 3억 4천만 개의 파라미터를 가진다.

학습 방법

BERT는 자기지도 학습(Self-supervised Learning)을 위해 두 가지 주요 과제를 수행하며 훈련된다.

  1. 마스크 언어 모델(Masked Language Model, MLM): 입력 문장에서 임의의 단어를 가리고(Masking), 주변 문맥을 통해 가려진 단어가 무엇인지 예측한다. 이를 통해 모델은 양방향 문맥을 이해하게 된다.
  2. 다음 문장 예측(Next Sentence Prediction, NSP): 두 문장이 주어졌을 때, 두 번째 문장이 첫 번째 문장 뒤에 오는 실제 문장인지 여부를 예측한다. 이는 문장 간의 관계를 파악하는 능력을 길러준다.

사전 학습 데이터로는 Toronto BookCorpus(약 8억 개 단어)와 영어 위키백과(약 25억 개 단어)가 사용되었다.

성능

BERT는 발표 당시 다양한 자연어 이해 작업에서 최첨단 성능을 달성했다.

  • GLUE(General Language Understanding Evaluation) 벤치마크: 9개 과제로 구성된 GLUE 점수에서 80.5%를 기록하여 기존 최고 성능 대비 7.7% 포인트 절대 개선을 이루었다.
  • MultiNLI(Multi-Genre Natural Language Inference): 정확도 86.7%로 4.6% 포인트 개선.
  • SQuAD(Stanford Question Answering Dataset) v1.1: F1 점수 93.2로 1.5% 포인트 개선.
  • SQuAD v2.0: F1 점수 83.1로 5.1% 포인트 개선.
  • SWAG(Situations With Adversarial Generations): 최고 성능 달성.

이러한 성과는 BERT가 단일 모델로 여러 과제에서 동시에 뛰어난 성능을 낼 수 있음을 입증했다.

영향 및 응용

BERT는 발표 이후 자연어 처리 분야의 표준적인 베이스라인 모델로 자리 잡았다. 2020년 문헌 조사에 따르면, 1년이 조금 넘는 기간 동안 BERT는 모델을 분석하고 개선하는 150개 이상의 연구 간행물을 포함하는 NLP 실험의 유비쿼터스 기준선이 되었다. 상호 참조 해결, 다의어 해소 등 복잡한 언어 이해 작업에서 뛰어난 성능을 보였으며, 이후 BERT의 작동 원리를 분석하는 'BERTology'라는 연구 분야가 형성되기도 했다.

실제 응용 분야로는 다음과 같은 사례가 있다.

  • 생물 의학 텍스트 마이닝
  • 특허 분류
  • 금융 분야의 감성 분석
  • 과학 도메인의 하위 작업 수행

BERT는 ELMo와 GPT-2와 같은 이전 모델을 개선했으며, 이후 등장한 RoBERTa, ALBERT, DistilBERT 등 다양한 변형 모델의 기반이 되었다.

참고 자료

6
[1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding # Computer Science > Computation and Language arXiv:1810.04805 (cs) [Submitted on 11…https://export.arxiv.org/abs/1810.04805BERT · Hugging Face# BERT[[BERT]] ## 개요[[Overview]] BERT 모델은 Jacob Devlin. Ming-Wei Chang, Kenton Lee, Kristina Touranova가 제안한 논문 BERT: Pre-training of Deep Bidirectional Transformers for Language U…https://huggingface.co/docs/transformers/v5.4.0/ko/model_doc/bertBERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding # BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Mi…https://research.google/pubs/bert-pre-training-of-deep-bidirectional-transformers-for-language-understanding/BERT (language model)BERT (language model) Bidirectional encoder representations from transformers (BERT) is a language model introduced in October 2018 by researchers at Google. It learns to represen…https://en.wikipedia.org/wiki/BERT_(language_model)BERT (언어 모델)BERT (언어 모델) BERT(Bidirectional Encoder Representations from Transformers)는 구글 연구원이 2018년에 도입한 마스킹된 언어 모델 제품군이다. 2020년 문헌 조사에서는 "1년이 조금 넘는 기간 동안 BERT는 모델을 분석하고 개선하는 150개 이상의 연구 간행…https://ko.wikipedia.org/wiki/BERT_(%EC%96%B8%EC%96%B4_%EB%AA%A8%EB%8D%B8)BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding원본 논문 (arXiv)https://arxiv.org/abs/1810.04805

관련 문서