ARC-AGI-2(Abstraction and Reasoning Corpus for Artificial General Intelligence v2)는 인공지능의 추상화 및 추론 능력을 평가하기 위해 설계된 벤치마크 데이터셋이다. 2019년 공개된 ARC-AGI-1의 후속 버전으로, 단순한 데이터 학습이나 모델 규모의 확장을 넘어선 고도의 인지적 복잡성을 요구한다. 인공 일반 지능(AGI)으로 향하는 진전 상황을 측정하고 연구자들에게 새로운 알고리즘 개발을 독려하는 것을 목적으로 한다.

배너 광고

개요

ARC-AGI-2는 최첨단 인공지능 추론 시스템의 능력을 한계까지 시험하기 위해 설계된 벤치마크이다. 2025년 5월 20일 공식 기술 보고서가 발표되었으며, 기존 ARC-AGI-1보다 더 높은 수준의 인지적 복잡성을 평가하는 데 중점을 둔다. 이 벤치마크는 인간 수준의 유동적 지능을 모방하려는 인공지능 시스템을 주요 대상으로 한다.

개발 배경

2019년 ARC-AGI-1이 도입된 이후 대규모 언어 모델(LLM)의 규모는 약 5만 배 이상 확장되었으나, 2024년 말 테스트 시간 적응(Test-time adaptation) 방식이 도입되기 전까지 추론 능력의 진전은 미미했다. 이에 따라 단순한 로그-선형 스케일링(Log-linear scaling)만으로는 해결할 수 없는 새로운 도전 과제로서 ARC-AGI-2가 제안되었다.

데이터 구조 및 특징

ARC-AGI-2의 과제 구조는 이전 버전과 동일한 형식을 공유한다.

  • 과제 구성: 각 과제는 3개에서 5개의 입력 및 출력 예시 세트와 출력이 생략된 최종 테스트 입력으로 구성된다.
  • 데이터 형식: 데이터는 기본적으로 정수 리스트 형태의 JSON 파일이며, 시각적으로는 다양한 색상의 그리드로 표현된다.
  • 추론 방식: 시스템은 최소한의 사전 지식만을 바탕으로 주어진 예시에서 규칙을 추상화하여 정답을 도출해야 한다.
ARC-AGI-2의 추론 과제 예시
입력과 출력 예시를 통해 규칙을 찾아내어 테스트 입력의 정답을 도출하는 ARC-AGI-2의 과제 구조ARC-AGI-2 A New Challenge for Frontier AI Reasoning Systems | ARC Prize

평가 및 경진대회

ARC Prize 2026 경진대회를 통해 ARC-AGI-2에 대한 평가가 이루어진다. 참가자들의 목표는 비공개 평가 데이터셋에서 85%의 정확도를 달성하는 것이다. 총 상금 규모는 70만 달러이며, 세부 항목은 다음과 같다.

항목금액
진행 상금 (Progress Prizes)$275,000
대상 (Grand Prize)$275,000
보너스 상금 (Bonus Prize)$150,000

기술적 요구사항

ARC-AGI-2를 해결하기 위해서는 기존의 정적인 학습 방식을 넘어선 새로운 알고리즘이 필요하다. 특히 테스트 시간 적응 알고리즘이나 인간과 유사한 유동적 지능을 모방할 수 있는 혁신적인 인공지능 시스템의 구축이 요구된다. 이는 단순히 모델의 크기를 키우는 것보다 효율적인 추론 메커니즘을 개발하는 데 초점을 맞춘다.

참고 자료

5

관련 문서