BERT(Bidirectional Encoder Representations from Transformers)는 2018년 10월 구글 연구진이 발표한 자연어 처리(NLP) 모델이다. 트랜스포머 아키텍처의 인코더 구조를 기반으로 하며, 텍스트의 문맥을 양방향에서 동시에 학습하여 언어 이해 능력을 획기적으로 개선했다. 발표 당시 여러 자연어 처리 과제에서 최고 성능을 기록하며 현대 언어 모델 연구의 중요한 기준점이 되었다.

배너 광고

개요

BERT는 제이콥 데블린(Jacob Devlin), 명휘 창(Ming-Wei Chang) 등 구글 연구진이 개발한 딥러닝 언어 모델이다. 기존의 언어 모델들이 텍스트를 한 방향으로만 읽거나 얕은 수준의 결합을 시도했던 것과 달리, BERT는 모든 층에서 왼쪽과 오른쪽 문맥을 동시에 고려하는 깊은 양방향 표현을 사전 학습하도록 설계되었다. 이 모델은 개념적으로 단순하면서도 실증적으로 강력하여, 추가 출력층 하나만으로 다양한 자연어 처리 작업에 미세 조정될 수 있다.

기술적 특징

BERT는 트랜스포머의 인코더 구조만을 사용하며, 텍스트를 벡터 시퀀스로 변환하여 처리한다. 주요 특징은 다음과 같다.

  • 양방향성: 문장 내 특정 단어의 의미를 파악할 때 앞뒤 문맥을 모두 참조한다. 이는 기존의 단방향 모델과 차별화되는 지점이다.
  • 사전 학습과 미세 조정: 대규모의 레이블 없는 데이터를 통해 언어의 일반적인 구조를 먼저 학습(Pre-training)한 뒤, 특정 작업에 맞춰 적은 데이터로 미세 조정(Fine-tuning)하여 최적의 성능을 낸다.
  • 범용성: 사전 학습된 모델에 하나의 출력층만 추가하면 질문 응답, 언어 추론, 감성 분석 등 다양한 작업에 즉시 적용할 수 있다.

모델 구성

BERT는 주로 두 가지 크기의 모델로 제공된다. 각 모델의 사양은 다음과 같다.

구분BERT-BaseBERT-Large
레이어 수 (L)1224
히든 크기 (H)7681024
어텐션 헤드 (A)1216
총 파라미터 수1.1억 개3.4억 개

BERT-Base는 기존의 OpenAI GPT와 비교를 위해 동일한 규모로 설계되었으며, BERT-Large는 더 깊은 층을 통해 성능을 극대화한 모델이다.

학습 방법

BERT는 자기지도 학습을 위해 두 가지 주요 과제를 수행하며 훈련된다.

  1. 마스크 언어 모델 (Masked Language Model, MLM): 입력 문장에서 임의의 단어 약 15%를 가리고(Masking), 주변 문맥을 통해 가려진 단어가 무엇인지 예측한다. 이를 통해 모델은 양방향 문맥을 이해하게 된다.
  2. 다음 문장 예측 (Next Sentence Prediction, NSP): 두 문장이 주어졌을 때, 두 번째 문장이 첫 번째 문장 뒤에 오는 실제 문장인지 여부를 예측한다. 이는 문장 간의 관계를 파악하는 능력을 길러준다.

사전 학습 데이터로는 약 8억 개의 단어로 구성된 토론토 북코퍼스(Toronto BookCorpus)와 약 25억 개의 단어로 구성된 영어 위키백과가 사용되었다.

성능 및 영향

BERT는 발표 당시 GLUE(General Language Understanding Evaluation) 벤치마크에서 80.5%를 기록하며 기존 최고 성능 대비 7.7% 포인트의 개선을 이루었다. 또한 SQuAD v1.1에서 F1 점수 93.2를 기록하는 등 11개의 자연어 처리 과제에서 새로운 최고 성능을 달성했다.

이후 BERT는 자연어 처리 연구의 표준적인 베이스라인이 되었으며, 모델의 작동 원리를 분석하는 'BERTology'라는 연구 분야를 탄생시켰다. RoBERTa, ALBERT, DistilBERT 등 수많은 변형 모델이 BERT를 기반으로 개발되었다.

참고 자료

7
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding # BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Mi…https://research.google/pubs/pub47751/BERT · Hugging Face# BERT[[BERT]] ## 개요[[Overview]] BERT 모델은 Jacob Devlin. Ming-Wei Chang, Kenton Lee, Kristina Touranova가 제안한 논문 BERT: Pre-training of Deep Bidirectional Transformers for Language U…https://huggingface.co/docs/transformers/ko/model_doc/bertBERT (언어 모델)BERT (언어 모델) BERT(Bidirectional Encoder Representations from Transformers)는 구글 연구원이 2018년에 도입한 마스킹된 언어 모델 제품군이다. 2020년 문헌 조사에서는 "1년이 조금 넘는 기간 동안 BERT는 모델을 분석하고 개선하는 150개 이상의 연구 간행…https://ko.wikipedia.org/wiki/BERT_(%EC%96%B8%EC%96%B4_%EB%AA%A8%EB%8D%B8)BERT (language model)BERT (language model) Bidirectional encoder representations from transformers (BERT) is a language model introduced in October 2018 by researchers at Google. It learns to represen…https://en.wikipedia.org/wiki/BERT_(language_model)[1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding # Computer Science > Computation and Language arXiv:1810.04805 (cs) [Submitted on 11…http://arxiv.org/abs/arXiv:1810.04805BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT 원본 논문https://arxiv.org/abs/1810.04805Hugging Face BERT DocumentationBERT 모델 구현 및 사용 가이드https://huggingface.co/docs/transformers/model_doc/bert

관련 문서