GUI 에이전트(GUI Agent)는 컴퓨터의 그래픽 사용자 인터페이스(GUI)를 시각적으로 인지하고, 마우스 클릭이나 키보드 입력 등을 통해 직접 조작하여 주어진 작업을 수행하는 인공지능 시스템이다. 단순한 텍스트 처리를 넘어 실제 소프트웨어 환경에서 인간과 유사한 방식으로 애플리케이션을 탐색하고 복잡한 업무를 자율적으로 처리한다. 사용자가 자연어 명령만으로 다단계 작업을 실행할 수 있게 하여 인간-컴퓨터 상호작용의 패러다임 전환을 이끌 것으로 기대된다.

배너 광고

개요

GUI 에이전트는 인간이 컴퓨터를 사용하는 방식과 유사하게 화면을 보고 인터페이스를 제어하는 AI를 의미한다. 사용자가 자연어로 명령을 내리면, 에이전트는 화면상의 버튼을 클릭하거나 양식을 작성하고 애플리케이션 사이를 이동하며 다단계 작업을 수행한다. 이는 별도의 코딩이나 API 연결 없이도 기존 소프트웨어를 그대로 활용할 수 있다는 점에서 기존의 자동화 도구와 차별화된다. 마이크로소프트 리서치 아시아는 2026년 논문에서 GUI 에이전트가 인간과 소프트웨어의 상호작용 방식을 변화시킬 잠재력이 있다고 분석했다.

주요 기능 및 프로세스

GUI 에이전트의 작동 과정은 크게 다섯 단계로 구분된다.

  1. 인지(Perception): 화면의 시각적 정보를 픽셀 단위로 분석하여 아이콘, 텍스트, 버튼 등의 요소를 식별한다.
  2. 이해(Understanding): 현재 화면의 상태와 각 UI 요소의 기능을 파악한다.
  3. 계획(Planning): 목표 달성을 위해 필요한 작업 순서를 설계한다.
  4. 행동(Action): 마우스 이동, 클릭, 키보드 입력 등 실제 조작을 실행한다.
  5. 검증(Verification): 실행 결과가 의도대로 이루어졌는지 확인하고 다음 단계를 결정한다.

최근 연구에서는 이 과정에 **추론(Reasoning)**과 반성(Reflection) 단계를 추가하여 오류 발생 시 스스로 수정하는 능력을 강화하고 있다. InfiGUIAgent는 계층적 추론과 기대-반성 추론을 네이티브로 통합한 사례이다.

기술적 특징

최근의 GUI 에이전트는 대형언어모델(LLM) 및 멀티모달 모델과 결합하여 고도화되고 있다. 특히 GUI 그라운딩(Grounding) 기술은 화면상의 시각적 요소와 텍스트 명령을 정확히 매칭하는 데 핵심적인 역할을 한다. 일부 모델은 순수 시각 정보만을 활용하는 '퓨어 비전(Pure Vision)' 방식을 채택하여 운영체제나 애플리케이션의 내부 코드에 의존하지 않고도 범용적인 조작이 가능하다.

마이크로소프트의 UFO는 듀얼 에이전트 프레임워크를 사용하여 Windows 애플리케이션의 GUI와 제어 정보를 관찰·분석하고, 여러 애플리케이션을 넘나드는 작업을 수행한다. Mano-P는 엣지 디바이스에서 로컬 추론을 지원하며, 데이터가 기기를 떠나지 않는 프라이버시 보호 기능을 갖추고 있다. InfiGUIAgent는 2단계 지도 미세조정 파이프라인을 통해 GUI 이해와 그라운딩, 추론 능력을 순차적으로 학습한다.

주요 모델 및 프레임워크

다양한 연구 기관과 기업에서 GUI 에이전트 모델을 개발하고 있다.

모델개발 기관주요 특징
UFO마이크로소프트 리서치Windows OS 특화, 듀얼 에이전트, GPT-Vision 활용
Mano-PMininglamp Technology엣지 디바이스 로컬 추론, OSWorld 1위(58.2%), 퓨어 비전
InfiGUIAgent-네이티브 추론·반성, 2단계 학습, 멀티모달
Mobile-Agent-v3-모바일 및 데스크톱 범용 지원
ScaleCUA-Windows, macOS, Android 멀티플랫폼 오픈소스

Mano-P는 'Mano'가 스페인어로 '손'을 의미하며, 'P'는 Person과 Party의 이중 의미를 가진다. 개인과 조직이 각자의 Private AI를 만들 수 있다는 비전을 담고 있다.

평가 벤치마크

GUI 에이전트의 성능을 평가하기 위해 여러 벤치마크가 사용된다. OSWorld는 데스크톱 환경에서의 다단계 작업 수행 능력을 측정하는 대표적인 벤치마크이다. Mano-P는 OSWorld specialized 부문에서 58.2%의 점수로 1위를 기록했다. 그 외에 GUI-Owl, AITW 등이 GUI 그라운딩과 질의응답 능력을 평가하는 데 활용된다.

벤치마크 결과는 모델의 시각 인지 능력, 계획 수립 능력, 오류 복구 능력 등을 종합적으로 반영한다. 현재까지 순수 시각 기반 모델이 텍스트 기반 모델보다 범용성에서 우수하지만, 복잡한 추론이 필요한 작업에서는 여전히 한계를 보인다.

영향 및 전망

GUI 에이전트는 인간과 컴퓨터의 상호작용 방식을 근본적으로 변화시킬 잠재력을 지닌다. 사용자가 복잡한 소프트웨어 사용법을 익히지 않아도 대화형 명령만으로 업무를 완수할 수 있게 함으로써 생산성을 높인다. 마이크로소프트와 앤트로픽 등 주요 AI 기업들은 이를 차세대 AI의 핵심 형태로 주목하고 있다.

앤트로픽의 '컴퓨터 유즈(Computer Use)'는 GUI 에이전트의 초기 상용화 사례로 꼽힌다. 마이크로소프트 리서치는 GUI 에이전트가 패러다임 전환을 나타내며, 사용자가 간단한 대화형 명령을 통해 복잡하고 여러 단계로 구성된 작업을 수행할 수 있도록 한다고 정의했다. 향후 엣지 디바이스에서의 로컬 추론, 프라이버시 보호, 멀티모달 추론 능력 향상이 주요 발전 방향으로 예상된다.

참고 자료

7
UFO: A UI-Focused Agent for Windows OS Interaction - Microsoft ResearchUFO: A UI-Focused Agent for Windows OS Interaction - Microsoft Research - English (US) # UFO: A UI-Focused Agent for Windows OS Interaction - Chaoyun Zhang , - Liqun Li, - Shilin…https://www.microsoft.com/en-us/research/publication/ufo-a-ui-focused-agent-for-windows-os-interaction/?lang=ko-krMano Technical ReportMano Technical Report # Mano Technical Report Tianyu Fu &Anyang Su ∗ &Chenxu Zhao ∗ &Hanning Wang ∗ &Minghui Wu ∗ &Zhe Yu &Fei Hu &Mingjia Shi &Wei Dong &Jiayao Wang &Yuyang Chen…https://arxiv.org/html/2509.17336v1InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection - ACL AnthologyInfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection - ACL Anthology --- ##### Abstract Graphical User Interface (GUI) Agents, powered by multimoda…https://anthology.aclweb.org/2026.eacl-long.45/MS "사용자 대신 컴퓨터 사용하는 'GUI 에이전트', 인간 상호작용에 큰 영향 미칠 것" < 산업일반 < AI산업 < 기사본문 - AI타임스MS "사용자 대신 컴퓨터 사용하는 'GUI 에이전트', 인간 상호작용에 큰 영향 미칠 것" < 산업일반 < AI산업 < 기사본문 - AI타임스 www.aitimes.com 발행일: 2026-04-29 19:14 (수) 한국어KR 영어EN 일본어JP 중국어CH 이전 기사보기 다음 기사보기 MS "사용자 대신 컴퓨터 사용…https://www.aitimes.com/news/articleView.html?idxno=165843GitHub - Mininglamp-AI/Mano-P: Mano-P: Open-source GUI-VLA agent for edge devices. #1 on OSWorld (specialized, 58.2%). Runs locally on Apple M4 Mac mini/MacBook — no data leaves your device.Mano-P 是一个开源 GUI-VLA 项目,支持在 Mac mini/MacBook 上或通过算力棒本地运行推理,实现纯视觉驱动的跨平台 GUI 自动化操作。数据完全本地处理,支持复杂多步骤任务规划与执行。 · GitHubGitHub - Mininglamp-AI/Mano-P: Mano-P: Open-source GUI-VLA agent for edge devices. #1 on OSWorld (specialized, 58.2%). Runs locally on Apple M4 Mac mini/MacBook — no data leaves y…https://github.com/Mininglamp-AI/Mano-P/tree/mainUFO: A UI-Focused Agent for Windows OS Interaction - Microsoft Research마이크로소프트 리서치의 UFO 논문, NAACL 2025 발표https://www.microsoft.com/en-us/research/publication/ufo-a-ui-focused-agent-for-windows-os-interaction/Mano-P GitHub 저장소Mano-P 오픈소스 GUI-VLA 에이전트 프로젝트https://github.com/Mininglamp-AI/Mano-P

관련 문서