대형 언어 모델(Large Language Model, LLM)은 수많은 파라미터를 보유한 인공 신경망으로 구성되는 언어 모델이다. 일반적으로 수십억 개 이상의 웨이트를 가지며, 레이블링되지 않은 방대한 양의 텍스트 데이터를 자기 지도 학습이나 반자기지도학습 방식으로 훈련한다. 2018년경부터 본격적으로 등장하였으며, 특정 작업에 특화된 기존의 지도 학습 패러다임에서 벗어나 자연어 처리 연구의 중심축이 되었다. 생성형 인공지능과 AI 챗봇 기술을 가능하게 하는 핵심 요소로 평가받는다.

배너 광고

개요 및 특징

대형 언어 모델은 딥러닝 기술을 활용하여 방대한 데이터 세트에서 학습된 여러 신경망 계층으로 구성된다. 이 모델들은 기존의 N-gram 언어 모델이나 순환 신경망(RNN)보다 훨씬 더 많은 파라미터를 포함하며, 이를 통해 더 넓은 문맥을 파악할 수 있다. 인공지능이 문장 내에서 다음에 올 토큰이나 토큰의 시퀀스를 예측하는 방식으로 작동하며, 여기서 토큰은 단어, 하위 단어, 또는 단일 문자가 될 수 있다.

기술적 구조

LLM 구축에 가장 널리 사용되는 최첨단 아키텍처는 **트랜스포머(Transformer)**이다. 트랜스포머 구조는 번역을 비롯한 다양한 언어 모델 응용 분야에서 뛰어난 성능을 발휘한다. 모델은 학습 과정에서 텍스트의 통계적 패턴을 파악하여 문단 단위의 긴 텍스트까지 예측하고 생성할 수 있는 능력을 갖춘다.

트랜스포머 아키텍처 구조도
LLM의 핵심 구조인 트랜스포머의 인코더-디코더 신경망 구성대형 언어 모델

주요 모델 사례

다양한 기업과 연구소에서 대형 언어 모델을 개발하여 공개하고 있다.

  • GPT-3: 1,750억 개의 파라미터를 포함하는 모델로, 초기 LLM 열풍을 주도하였다.
  • LLaMA: 메타 AI가 2023년 발표한 모델로, 70억에서 650억 개의 파라미터 규모를 가진다. 연구 커뮤니티에 모델 가중치를 공개하여 접근성을 높였다.
  • 제미나이(Gemini): 구글의 최고급 AI 모델 시리즈이다.
  • 젬마(Gemma): 구글이 공개한 개방형 경량 AI 모델이다. 젬마4의 경우 매개변수 규모에 따라 20억·40억 개의 소형 버전과 260억·310억 개의 대형 버전으로 나뉜다.
연도별 대형 언어 모델의 학습 연산량 변화 그래프
주요 AI 모델들의 출시 시기 및 학습 연산량(FLOP) 추이대형 언어 모델

산업적 영향

LLM은 생성형 AI 붐의 원동력이 되었으며, 자동차 산업의 제조사들이 다양한 모델을 보유하듯 인공지능 분야에서도 소비자 요구에 맞춘 다양한 모델이 출시되고 있다. 특히 오픈소스 라이선스를 채택한 모델들은 상업적 이용이 자유로워 AI 에이전트 시장 선점을 위한 도구로 활용되기도 한다.

참고 자료

5
대형 언어 모델대형 언어 모델 대형 언어 모델([영어](https://ko.wikipedia.org/wiki/%EC%98%81%EC%96%B4): large language model, LLM) 또는 거대 언어 모델(巨大言語 - )은 수많은 파라미터(보통 수십억 웨이트 이상)를 보유한 [인공 신경망](https://ko.wikiped…https://ko.wikipedia.org/wiki/%EB%8C%80%ED%98%95_%EC%96%B8%EC%96%B4_%EB%AA%A8%EB%8D%B8구글, 개방형 AI 새 모델 '젬마4' 공개…에이전트 시장선점 포석 | 연합뉴스구글, 개방형 AI 새 모델 '젬마4' 공개…에이전트 시장선점 포석 | 연합뉴스 [연합뉴스](https://www.yna.co.kr/)본문 바로가기 메뉴 바로가기 [마이페이지](https://www.yna.co.kr/my-page/index)검색창 열기 메뉴 열기 구글, 개방형 AI 새 모델 '젬마4' 공개…에이전트 시…https://www.yna.co.kr/view/AKR20260403018800091?section=international%2FallLLM: 대규모 언어 모델이란 무엇인가요? | Machine Learning | Google for Developers# LLMs: What's a large language model? A newer technology, [large language models (LLMs)](https://developers.google.com/machine-learning/glossary#large-language-model) predict a t…https://developers.google.com/machine-learning/crash-course/llm/transformers?hl=ko대규모 언어 모델 목록 | IBM대규모 언어 모델 목록 | IBM 태그 # 대규모 언어 모델 목록 ## 작성자 Staff Writer IBM Think Staff Editor, AI Models IBM Think ## 대규모 언어 모델 목록 [생성형 AI](https://www.ibm.com/kr-ko/think/topics/generative-ai)…https://www.ibm.com/kr-ko/think/topics/large-language-models-listLLaMALLaMA LLaMA(Large Language Model Meta AI→대형 언어 모델 메타 AI)는 Meta AI가 2023년 2월에 출시한 대규모 언어 모델(LLM)이다. 70억에서 650억 파라미터에 이르는 다양한 모델 크기가 학습되었다. LLaMA의 개발자들은 대부분의 NLP 벤치마크에서 130억 파라미터 모델…https://ko.wikipedia.org/wiki/LLaMA

관련 문서