문서 검색

로컬 지식 베이스를 검색한 뒤, 정확한 주제 경로를 열어 없는 문서를 새로 작성할 수 있습니다.

유의사항

본 서비스가 제공하는 내용 및 자료가 사실임을 보증하지 않습니다. 시스템은 언제나 실수를 할 수 있습니다. 중요한 의사결정 및 법리적 해석, 금전적 의사결정에 사용하지 마십시오.

검색 결과

"벤치마크"에 대한 결과 21건

정확히 일치하는 문서가 없습니다.

이 주제의 표준 경로를 열면 시스템이 먼저 생성 타당성을 검토하고, 필요하면 더 적절한 위키 제목을 정한 뒤 새 한국어 문서를 초안 작성합니다.

"벤치마크" 생성

슈퍼컴퓨터

슈퍼컴퓨터는 당대의 컴퓨터들 중에서 가장 빠른 계산 성능을 갖는 컴퓨터를 가리킨다. 이 정의는 상대적이어서 기술 발전에 따라 과거의 슈퍼컴퓨터가 일반 컴퓨터로 분류되기도 한다. 세계 슈퍼컴퓨터 순위는 TOP500 프로젝트에서 매년 두 차례 발표하며, LINPACK 벤치마크로 성능을 측정한다. 슈퍼컴퓨터는 수많은 컴퓨팅 노드가 상호 연결되어 협업하며, 기상 예측, 입자물리, 생명공학, 국방,…

ARC-AGI-2

ARC-AGI-2(Abstraction and Reasoning Corpus for Artificial General Intelligence v2)는 인공지능의 추상화 및 추론 능력을 평가하기 위해 설계된 벤치마크 데이터셋이다. 2019년 공개된 ARC-AGI-1의 후속 버전으로, 단순한 데이터 학습이나 모델 규모의 확장을 넘어선 고도의 인지적 복잡성을 요구한다. 인공 일반 지능(AGI)으…

브렌트유

브렌트유는 북서유럽 북해 지역에서 생산되는 원유를 총칭하며, 국제 석유 시장에서 가격 결정의 기준이 되는 주요 벤치마크 유종이다. 런던의 인터컨티넨탈 거래소(ICE)에서 주로 선물로 거래되며, 전 세계 원유 거래량의 약 80%가 브렌트유 가격을 기준으로 삼는다. 황 함량이 적고 밀도가 낮은 경질 저유황유에 해당하여 품질이 우수하며, 유럽과 아프리카 지역 원유 가격의 결정적인 기준이 된다.

10년 만기 미국 국채

10년 만기 미국 국채(10-Year US Treasury Note)는 미국 정부가 발행하는 채권 중 만기가 10년인 중기 국채이다. 세계 금융 시장에서 대출 금리와 자산 가격을 결정하는 핵심적인 벤치마크 역할을 수행하며, 가장 안전한 자산 중 하나로 간주된다. 수익률은 시장의 인플레이션 기대치, 연방준비제도의 통화 정책, 국제적인 지정학적 상황 등에 따라 실시간으로 변동한다.

긱벤치

긱벤치(Geekbench)는 프라이메이트 랩스(Primate Labs)가 개발한 크로스 플랫폼 벤치마크 소프트웨어이다. 실제 사용 시나리오를 시뮬레이션하는 부하를 이용하여 중앙처리장치(CPU)와 그래픽처리장치(GPU)의 성능을 측정하며, 싱글 코어와 멀티 코어 성능을 점수 시스템으로 판별한다. 윈도우, 맥OS, 리눅스, 안드로이드, iOS 등 다양한 운영 체제를 지원하여 서로 다른 플랫폼…

미국 국채 수익률

미국 국채 수익률은 미국 정부가 발행한 국채를 보유했을 때 얻을 수 있는 수익의 비율을 의미한다. 이는 전 세계 금융 시장에서 무위험 자산의 수익률로 간주되며, 특히 10년 만기 국채 수익률은 주택 담보 대출 금리나 기업 대출 금리 등 다양한 금융 상품의 벤치마크 역할을 한다. 수익률은 시장의 인플레이션 기대치, 연방준비제도의 통화 정책, 지정학적 상황 등에 따라 변동한다.

GUI 에이전트

GUI 에이전트의 성능을 평가하기 위해 여러 벤치마크가 사용된다. OSWorld는 데스크톱 환경에서의 다단계 작업 수행 능력을 측정하는 대표적인 벤치마크이다. Mano-P는 OSWorld specialized 부문에서 58.2%의 점수로 1위를 기록했다. 그 외에 GUI-Owl, AITW 등이 GUI 그라운딩과 질의응답 능력을 평가하는 데 활용된다. 벤치마크 결과는 모델의 시각 인지 능력,…

딥시크-R1

딥시크-R1은 여러 벤치마크에서 오픈AI o1과 대등하거나 일부 분야에서 더 나은 성능을 보였다. 수학 경시대회 문제를 평가하는 AIME에서 79.8%, MATH-500에서 97.3%, 소프트웨어 문제 해결 벤치마크 SWE Verified에서 49.2%를 기록하여 o1을 근소하게 앞질렀다. 반면 코딩 능력 평가 코드포스(Codeforces), 박사 수준 과학 추론 GPQA 다이아몬드, 상식…

딥시크 (기업)

딥시크의 주요 모델은 DeepSeek-V3와 DeepSeek-R1이다. V3는 6,710억 개의 매개변수를 가진 초대형 언어 모델로, 메타의 Llama 3.1보다 약 1.5배 크며 오픈소스로 제공된다. 벤치마크 테스트에서 GPT-4, Claude 3.5, Gemini 등과 대등하거나 능가하는 성능을 기록하였다. R1은 추론에 특화된 모델로, MIT 허가서로 공개되었다. 두 모델 모두 전문가…

DeepSeek V4

DeepSeek-V4-Pro는 에이전트 코딩(Agentic Coding) 벤치마크에서 오픈소스 모델 중 최고 수준의 성능을 기록하였다. 세계 지식(World Knowledge) 부문에서는 현재 공개된 모든 오픈 모델 중 선두를 차지하며, Gemini-3.1-Pro에 이어 두 번째로 높은 점수를 보였다. 추론(Reasoning) 능력에서도 세계 최고 수준으로 평가된다. DeepSeek-V4-…

BERT

BERT는 발표 당시 다양한 자연어 이해 작업에서 최첨단 성능을 달성했다. GLUE(General Language Understanding Evaluation) 벤치마크: 9개 과제로 구성된 GLUE 점수에서 80.5%를 기록하여 기존 최고 성능 대비 7.7% 포인트 절대 개선을 이루었다. MultiNLI(Multi-Genre Natural Language Inference): 정확도 86…

KVzip

KVzip은 다양한 LLM과 벤치마크에서 평가되었다. 주요 결과는 다음과 같다: 모델 메모리 감소 지연 시간 감소 Qwen3 34× 2× Qwen2.5 34× 2× Gemma3 34× 2× LLaMA3 34× 2× 또한 KVzip은 질의-무관 특성 덕분에 압축된 캐시를 다양한 다운스트림 태스크에 재사용할 수 있어 실용성이 높다.