GUI 에이전트(GUI Agent)는 컴퓨터의 그래픽 사용자 인터페이스(GUI)를 시각적으로 인지하고, 마우스 클릭이나 키보드 입력 등을 통해 직접 조작하여 주어진 작업을 수행하는 인공지능(AI) 시스템이다. 단순한 텍스트 처리를 넘어 실제 소프트웨어 환경에서 인간과 유사한 방식으로 애플리케이션을 탐색하고 복잡한 업무를 자율적으로 처리한다. 사용자가 자연어 명령만으로 다단계 작업을 실행할 수 있게 하여 인간-컴퓨터 상호작용의 패러다임 전환을 이끄는 기술로 주목받는다.

배너 광고

개요

GUI 에이전트는 인간이 컴퓨터를 사용하는 방식과 유사하게 화면을 보고 인터페이스를 제어하는 AI를 의미한다. 사용자가 자연어로 명령을 내리면 에이전트는 화면상의 버튼을 클릭하거나 양식을 작성하고 애플리케이션 사이를 이동하며 다단계 작업을 수행한다. 이는 별도의 코딩이나 API 연결 없이도 기존 소프트웨어를 그대로 활용할 수 있다는 점에서 기존의 자동화 도구와 차별화된다. 마이크로소프트 리서치 아시아는 이러한 에이전트가 인간과 소프트웨어의 상호작용 방식을 근본적으로 변화시킬 잠재력이 있다고 분석했다.

작동 프로세스

GUI 에이전트의 작동 과정은 일반적으로 다음과 같은 단계로 구분된다.

  1. 인지(Perception): 화면의 시각적 정보를 픽셀 단위로 분석하여 아이콘, 텍스트, 버튼 등의 요소를 식별한다.
  2. 이해(Understanding): 현재 화면의 상태와 각 UI 요소의 기능을 파악한다.
  3. 계획(Planning): 목표 달성을 위해 필요한 작업 순서를 설계한다.
  4. 행동(Action): 마우스 이동, 클릭, 키보드 입력 등 실제 조작을 실행한다.
  5. 검증(Verification): 실행 결과가 의도대로 이루어졌는지 확인하고 다음 단계를 결정한다.

최근 연구에서는 이 과정에 **추론(Reasoning)**과 반성(Reflection) 단계를 추가하여 오류 발생 시 스스로 수정하는 능력을 강화하고 있다. 예를 들어 InfiGUIAgent는 계층적 추론과 기대-반성 추론을 통합하여 성능을 높였다.

기술적 특징

최근의 GUI 에이전트는 대형언어모델(LLM) 및 멀티모달 모델과 결합하여 고도화되고 있다.

  • GUI 그라운딩(Grounding): 화면상의 시각적 요소와 텍스트 명령을 정확히 매칭하는 핵심 기술이다.
  • 퓨어 비전(Pure Vision): 운영체제나 애플리케이션의 내부 코드에 의존하지 않고 순수 시각 정보만을 활용하여 범용적인 조작을 가능하게 한다.
  • 듀얼 에이전트 프레임워크: 마이크로소프트의 UFO와 같이 여러 애플리케이션을 넘나드는 작업을 수행하기 위해 GUI와 제어 정보를 분리하여 분석하는 구조를 사용하기도 한다.
  • 로컬 추론: Mano-P와 같은 모델은 엣지 디바이스에서 로컬 추론을 지원하여 데이터가 기기를 떠나지 않도록 프라이버시를 보호한다.

주요 모델 및 프레임워크

다양한 연구 기관과 기업에서 GUI 에이전트 모델을 개발하고 있다.

모델개발 기관주요 특징
UFO마이크로소프트 리서치Windows OS 특화, 듀얼 에이전트, GPT-Vision 활용
Mano-PMininglamp Technology엣지 디바이스 로컬 추론, OSWorld 1위(58.2%), 퓨어 비전
InfiGUIAgent-네이티브 추론·반성, 2단계 지도 미세조정 학습
Mobile-Agent-v3-모바일 및 데스크톱 환경 범용 지원
ScaleCUA-멀티플랫폼(Windows, macOS, Android) 오픈소스

앤트로픽의 '컴퓨터 유즈(Computer Use)'는 GUI 에이전트의 초기 상용화 사례로 꼽히며, 사용자의 컴퓨터를 직접 조작하는 기능을 제공한다.

평가 벤치마크

GUI 에이전트의 성능을 평가하기 위해 다양한 벤치마크가 활용된다. OSWorld는 데스크톱 환경에서의 다단계 작업 수행 능력을 측정하는 대표적인 지표이다. Mano-P는 OSWorld specialized 부문에서 58.2%의 점수를 기록하며 우수한 성능을 입증했다. 그 외에도 GUI 그라운딩과 질의응답 능력을 평가하는 GUI-Owl, AITW 등이 사용된다. 현재까지 순수 시각 기반 모델이 범용성 면에서 우수하지만, 복잡한 추론이 필요한 작업에서는 여전히 개선의 여지가 남아 있다.

전망

GUI 에이전트는 사용자가 복잡한 소프트웨어 사용법을 익히지 않아도 대화형 명령만으로 업무를 완수할 수 있게 함으로써 생산성을 획기적으로 높일 것으로 예상된다. 향후 엣지 디바이스에서의 로컬 추론 기술 발전과 프라이버시 보호 강화, 그리고 멀티모달 추론 능력의 향상이 주요한 발전 방향이 될 것이다.

참고 자료

6
Mininglamp-AI/Mano-P# Repository: Mininglamp-AI/Mano-P Mano-P: Open-source GUI-VLA agent for edge devices. #1 on OSWorld (specialized, 58.2%). Runs locally on Apple M4 Mac mini/MacBook — no data leav…https://github.com/Mininglamp-AI/Mano-PUFO: A UI-Focused Agent for Windows OS Interaction – Microsoft ResearchUFO: A UI-Focused Agent for Windows OS Interaction – Microsoft Research - English (US) # UFO: A UI-Focused Agent for Windows OS Interaction - Chaoyun Zhang , - Liqun Li, - Shilin…https://www.microsoft.com/en-us/research/publication/ufo-a-ui-focused-agent-for-windows-os-interaction/?lang=ko-krLarge Language Model-Brained GUI Agents: A SurveyLarge Language Model-Brained GUI Agents: A Survey # Large Language Model-Brained GUI Agents: A Survey Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Mi…https://arxiv.org/pdf/2411.18279Mano Technical ReportMano Technical Report # Mano Technical Report Tianyu Fu &Anyang Su ∗ &Chenxu Zhao ∗ &Hanning Wang ∗ &Minghui Wu ∗ &Zhe Yu &Fei Hu &Mingjia Shi &Wei Dong &Jiayao Wang &Yuyang Chen…https://arxiv.org/html/2509.17336v1MS "사용자 대신 컴퓨터 사용하는 'GUI 에이전트', 인간 상호작용에 큰 영향 미칠 것" < 산업일반 < AI산업 < 기사본문 - AI타임스MS "사용자 대신 컴퓨터 사용하는 'GUI 에이전트', 인간 상호작용에 큰 영향 미칠 것" < 산업일반 < AI산업 < 기사본문 - AI타임스 www.aitimes.com 발행일: 2026-05-05 22:48 (화) 한국어KR 영어EN 일본어JP 중국어CH 이전 기사보기 다음 기사보기 MS "사용자 대신 컴퓨터 사용…https://www.aitimes.com/news/articleView.html?idxno=165843UFO: A UI-Focused Agent for Windows OS Interaction – Microsoft Researchhttps://www.microsoft.com/en-us/research/publication/ufo-a-ui-focused-agent-for-windows-os-interaction/

관련 문서