대규모 언어 모델(Large Language Model, LLM)은 수십억 개 이상의 파라미터를 보유한 인공 신경망으로 구성된 언어 모델이다. 자기 지도 학습이나 반자기지도학습을 통해 레이블링되지 않은 방대한 양의 텍스트 데이터를 훈련하며, 이를 통해 자연어의 맥락과 패턴을 파악한다. 2018년경부터 본격적으로 등장하였으며, 텍스트 생성, 번역, 요약, 추론 등 광범위한 자연어 처리 작업을 수행하는 생성형 인공지능의 핵심 기술로 자리 잡았다.

배너 광고

개요

대규모 언어 모델은 인공지능 챗봇 기술을 가능하게 하는 핵심 요소이다. 기존의 특정 작업에 특화된 지도 학습 모델과 달리, 방대한 데이터 세트에서 학습된 여러 신경망 계층으로 구성된 파운데이션 모델의 성격을 띤다. 딥 러닝 기술을 사용하여 자연어 처리(NLP) 및 자연어 이해(NLU) 작업을 수행하며, 인간이 기술과 상호 작용하는 방식에 큰 변화를 가져왔다.

연도별 대규모 AI 모델의 학습 연산량 변화 그래프
시간 경과에 따른 주요 대규모 언어 모델들의 학습 연산량(FLOP) 증가 추이대형 언어 모델

기술적 원리

대규모 언어 모델의 작동 방식은 크게 토큰화, 트랜스포머 모델, 프롬프트 처리로 나뉜다.

  • 토큰화(Tokenization): 인간의 언어를 기계 시스템이 이해할 수 있는 숫자 시퀀스로 변환하는 작업이다. 단어, 부분 단어, 또는 단일 문자 단위로 토큰을 생성하여 인코딩한다.
  • 트랜스포머(Transformer): 2017년 구글이 소개한 신경망 아키텍처로, 순차적 데이터 내의 관계를 추적하여 맥락을 학습한다. 인코더와 디코더 구조를 가질 수 있으며, 위치 인코딩과 셀프 어텐션 기술이 핵심이다.
  • 셀프 어텐션(Self-attention): 입력 데이터의 각 부분에 가중치를 할당하여 중요한 정보에 집중하는 기술이다. 이를 통해 모델은 문장 내 단어 간의 복잡한 관계를 파악한다.
트랜스포머 모델의 인코더와 디코더 구조도
트랜스포머 아키텍처의 기본 구성 요소인 멀티 헤드 어텐션과 피드 포워드 네트워크 구조대형 언어 모델

학습 및 작동 방식

LLM은 거대한 통계 예측 기계로 작동한다. 학습 과정에서 시퀀스의 다음 단어를 반복적으로 예측하며 텍스트의 패턴을 습득한다. 위치 인코딩 기술 덕분에 단어를 순차적으로 입력하지 않아도 문장 내 위치 정보를 파악할 수 있어 대규모 병렬 처리가 가능하다. 학습이 완료된 모델은 기사 요약, 코드 디버깅, 법률 조항 초안 작성 등 다양한 응용 분야에 적응할 수 있다.

주요 활용 및 진화

초기에는 텍스트 생성과 번역에 집중했으나, 최근에는 에이전틱 AI 기능과 추론 능력을 포함하는 방향으로 발전하고 있다. 특정 목적에 맞게 조정된 모델들도 등장하고 있으며, 주요 활용 사례는 다음과 같다.

분야주요 작업
콘텐츠 생성기사 작성, 요약, 감정 분석
프로그래밍코드 생성 및 디버깅
비즈니스법률 초안 작성, 고객 응대 챗봇
언어 서비스기계 번역, 자연어 이해

참고 자료

5
대형 언어 모델대형 언어 모델 대형 언어 모델(영어: large language model, LLM) 또는 거대 언어 모델(巨大言語 - )은 수많은 파라미터(보통 수십억 웨이트 이상)를 보유한 인공 신경망으로 구성되는 언어 모델이다. 자기 지도 학습이나 반자기지도학습을 사용하여 레이블링되지 않은 상당한 양의 텍스트로 훈련된다. LLM…https://ko.wikipedia.org/wiki/%EB%8C%80%ED%98%95_%EC%96%B8%EC%96%B4_%EB%AA%A8%EB%8D%B8대규모 언어 모델 목록 | IBM대규모 언어 모델 목록 | IBM 태그 # 대규모 언어 모델 목록 ## 작성자 Staff Writer IBM Think Staff Editor, AI Models IBM Think ## 대규모 언어 모델 목록 생성형 AI(gen AI) 붐이 일면서 그 원동력인 대규모 언어 모델(LLM)이 주목받고 있습니다. 이미 수십…https://www.ibm.com/kr-ko/think/topics/large-language-models-list대규모 언어 모델(LLM)이란 무엇인가요? | IBM대규모 언어 모델(LLM)이란 무엇인가요? | IBM # 대규모 언어 모델(LLM)이란 무엇인가요? ## 작성자 Staff Editor, AI Models IBM Think ## LLM이란 무엇인가요? 대규모 언어 모델(LLM)은 방대한 양의 데이터를 학습하여 자연어 및 기타 유형의 콘텐츠를 이해하고 생성하여 광범위한…https://www.ibm.com/kr-ko/think/topics/large-language-modelsLLM: 대규모 언어 모델이란 무엇인가요? | Machine Learning | Google for Developers# LLMs: What's a large language model? A newer technology, large language models (LLMs) predict a token or sequence of tokens, sometimes many paragraphs worth of predicted tokens.…https://developers.google.com/machine-learning/crash-course/llm/transformers?hl=ko거대 언어 모델(LLM)이란?거대 언어 모델(LLM)이란? # 거대 언어 모델 거대 언어 모델(LLM)은 엄청난 규모의 데이터 세트를 사용하여 콘텐츠를 인식, 요약, 번역, 예측 및 생성할 수 있는 딥 러닝 알고리즘입니다. ## 거대 언어 모델이란? 거대 언어 모델은 트랜스포머 네트워크라 불리는 딥 러닝 아키텍처 범주를 주로 의미합니다. 트랜스포머…https://www.nvidia.com/ko-kr/glossary/large-language-models/

관련 문서