트랜스포머(Transformer)는 2017년 구글 연구팀이 발표한 논문 'Attention Is All You Need'에서 처음 제안된 딥러닝 아키텍처이다. 기존의 순환 신경망(RNN)이나 장단기 메모리(LSTM)가 가진 순차적 처리의 한계를 극복하기 위해 어텐션(Attention) 메커니즘을 전면적으로 도입하였다. 문장 내 단어들 사이의 관계를 병렬적으로 처리하여 맥락을 파악하는 능력이 뛰어나며, 대규모 언어 모델(LLM)의 근간이 되었다.

배너 광고

개요

트랜스포머는 순차적인 데이터를 처리하는 데 특화된 신경망 구조이다. 텍스트를 토큰(Token)이라는 수치 단위로 변환하고, 각 토큰을 워드 임베딩 테이블에서 조회를 통해 벡터로 표현하여 처리한다. 데이터 시퀀스의 각 부분이 서로 어떻게 영향을 미치고 상호 연관되는지 복잡하게 파악하는 능력을 갖추고 있다.

핵심 구조

표준 트랜스포머 아키텍처는 크게 인코더(Encoder)와 디코더(Decoder)로 구성된다.

  • 인코더: 입력 텍스트를 수치적 표현으로 변환하여 문맥 정보를 추출한다.
  • 디코더: 인코더에서 생성된 정보와 이전 단계의 출력을 바탕으로 결과 데이터를 생성한다.
  • 어텐션 메커니즘: 셀프 어텐션(Self-attention)이라 불리는 수학적 기법을 통해 문장 내에서 서로 떨어져 있는 데이터 요소들의 관계를 감지한다. 여러 개의 어텐션을 동시에 사용하는 멀티 헤드 어텐션이 핵심적인 역할을 한다.

또한, 레이어 정규화 방식에 따라 2017년 당시의 Post-LN 컨벤션과 이후에 널리 사용되는 Pre-LN 컨벤션 등으로 구분되기도 한다.

기존 모델과의 차이

기존의 순환 신경망(RNN)이나 LSTM은 데이터를 순서대로 하나씩 처리해야 했기 때문에 병렬 처리가 어렵고 긴 문장에서 정보를 소실하는 문제가 있었다. 반면 트랜스포머는 전체 데이터를 동시에 처리할 수 있어 학습 속도가 빠르며, 훨씬 더 많은 파라미터를 포함하고 방대한 문맥을 수집할 수 있다. 이는 N-gram 언어 모델이나 기존 순환 모델보다 훨씬 뛰어난 예측 성능을 제공하는 원동력이 된다.

주요 응용 모델

트랜스포머 아키텍처는 현대 생성형 AI 시대를 이끄는 다양한 모델의 기반이 되었다.

모델명특징
BERT2019년 구글이 발표한 인코더 전용 모델로, 검색 엔진과 워드 임베딩 애플리케이션의 기반이 된다.
GPTOpenAI가 발표한 오토리그레시브 디코더 전용 모델로, 텍스트 생성과 챗봇 서비스에 최적화되어 있다.

영향력 및 활용 분야

트랜스포머는 인공지능의 패러다임을 바꾼 '파운데이션 모델(Foundation Model)'로 평가받는다. 초기에는 기계 번역과 같은 자연어 처리(NLP) 분야에서 혁신을 일으켰으나, 현재는 다양한 영역으로 확장되었다.

  • 컴퓨터 비전 및 음성 인식: 이미지 분석(비전 트랜스포머)과 실시간 음성 번역 지원
  • 생명 과학: DNA 유전자 사슬과 단백질 아미노산 구조 이해를 통한 신약 디자인 가속화
  • 산업 및 금융: 이상 징후 감지, 제조 공정 간소화, 온라인 추천 시스템, 부정 방지
파운데이션 모델의 개념도
다양한 데이터를 학습한 파운데이션 모델이 여러 하위 작업으로 적응되는 과정트랜스포머 모델이란 무엇인가? (1) | NVIDIA Blog

참고 자료

5
<지식 사전> 트랜스포머(Transformer)가 뭔데? AI 혁명의 핵심 모델, 알기 쉽게 들여다보기<지식 사전> 트랜스포머(Transformer)가 뭔데? AI 혁명의 핵심 모델, 알기 쉽게 들여다보기 본문 바로가기 - <현장 스케치> 🔐카카오 주요 계열사를 위한 클라우드 보안 세미나 - <제품 소식> 더 빠르고 직관적인, 새 카카오클라우드 콘솔 오픈 🎉 클라우드 콘솔은 단순한 관리 도구를 넘어, 매일 인프라를…https://blog.kakaocloud.com/91트랜스포머 모델이란 무엇인가요? | IBM트랜스포머 모델이란 무엇인가요? | IBM # 트랜스포머 모델이란 무엇인가요? ## 작성자 Staff Editor, AI Models IBM Think Senior Staff Writer, AI Models IBM Think ## 트랜스포머 모델이란 무엇인가요? 트랜스포머 모델은 순차적 데이터를 처리하는 데 탁월한 신경…https://www.ibm.com/kr-ko/think/topics/transformer-model트랜스포머 (기계 학습)트랜스포머 (기계 학습) 왼쪽에는 인코더, 오른쪽에는 디코더가 있는 표준 트랜스포머 아키텍처. 참고: 원래 2017년 트랜스포머에서 사용된 Post-LN 컨벤션과는 다른 Pre-LN 컨벤션을 사용한다. 트랜스포머(transformer)는 멀티 헤드어텐션메커니즘을 기반으로 하는딥 러닝아키텍처이며, 텍스트가토큰이라는 수치…https://ko.wikipedia.org/wiki/%ED%8A%B8%EB%9E%9C%EC%8A%A4%ED%8F%AC%EB%A8%B8_(%EA%B8%B0%EA%B3%84_%ED%95%99%EC%8A%B5)LLM: 대규모 언어 모델이란 무엇인가요? | Machine Learning | Google for Developers# LLMs: What's a large language model? A newer technology, large language models (LLMs) predict a token or sequence of tokens, sometimes many paragraphs worth of predicted tokens.…https://developers.google.com/machine-learning/crash-course/llm/transformers?hl=ko트랜스포머 모델이란 무엇인가? (1) | NVIDIA Blog트랜스포머 모델이란 무엇인가? (1) | NVIDIA Blog Share - Email1 AI 분야의 혁신에 함께하고 싶다면 트랜스포머(transformer)에 주목하세요. 여기서 말하는 트랜스포머는 TV 위의 변신 로봇 장난감이나 전신주에 달린 쓰레기통 크기의 통을 의미하는 것은 아닙니다. ## 트랜스포머 모델이란?…https://blogs.nvidia.co.kr/blog/what-is-a-transformer-model/

관련 문서