문서 검색
로컬 지식 베이스를 검색한 뒤, 정확한 주제 경로를 열어 없는 문서를 새로 작성할 수 있습니다.
유의사항
본 서비스가 제공하는 내용 및 자료가 사실임을 보증하지 않습니다. 시스템은 언제나 실수를 할 수 있습니다. 중요한 의사결정 및 법리적 해석, 금전적 의사결정에 사용하지 마십시오.
검색 결과
"멀티모달"에 대한 결과 18건
정확히 일치하는 문서가 없습니다.
"멀티모달" 생성이 주제의 표준 경로를 열면 시스템이 먼저 생성 타당성을 검토하고, 필요하면 더 적절한 위키 제목을 정한 뒤 새 한국어 문서를 초안 작성합니다.
멀티모달 인공지능
멀티모달 인공지능(Multimodal AI)은 텍스트, 이미지, 오디오, 비디오 등 여러 유형의 데이터를 단일 시스템 내에서 결합하여 처리하고 정보를 생성하는 기술이다. 단일 양식의 데이터만을 처리하던 기존 인공지능 모델과 달리, 다양한 소스의 정보를 동시에 분석하고 통합함으로써 실제 세계의 복합적인 상황을 더 정확하게 추론하고 반응한다. 이는 기계가 인간처럼 시각, 청각 등 다양한 감각…
10조 파라미터 모델
10조 파라미터 모델은 인공지능의 지능을 결정하는 매개변수(Parameter)의 총합이 10조 개에 이르는 초거대 모델을 의미한다. 2020년대 중반 기술 기업들이 1조 파라미터 규모의 모델을 잇달아 공개함에 따라, 10조 규모는 인공지능 성능 고도화의 다음 단계이자 인간 수준의 추론 능력을 갖추기 위한 기술적 목표로 평가받는다. 이러한 모델은 방대한 데이터를 학습하여 텍스트, 이미지, 비…
제미나이
제미나이(Gemini)는 구글 딥마인드(Google DeepMind)가 개발한 멀티모달 대형 언어 모델(LLM)이자 이를 기반으로 하는 인공지능 서비스의 명칭이다. 텍스트, 이미지, 오디오, 비디오, 컴퓨터 코드를 동시에 처리하고 생성할 수 있는 능력을 갖추었으며, 기존의 구글 AI 서비스인 바드(Bard)와 듀엣 AI(Duet AI)를 통합하여 구글 생태계의 핵심 AI 브랜드로 자리 잡았…
챗GPT
챗GPT(ChatGPT)는 미국의 인공지능 연구소 오픈AI(OpenAI)가 개발하여 2022년 11월 30일에 출시한 생성형 인공지능 챗봇이다. 대형 언어 모델(LLM)과 멀티모달 모델을 기반으로 하며, 사용자와의 자연스러운 대화를 통해 질문 답변, 아이디어 탐색, 코딩 지원 등 다양한 생산성 작업을 수행한다.
GigaTIME
GigaTIME은 마이크로소프트 연구소(Microsoft Research)가 개발한 암 연구용 인공지능(AI) 도구이다. 멀티모달 AI 기술을 활용하여 종양 미세환경(Tumor Microenvironment, TME)을 대규모로 모델링하고 가상 인구(Virtual Population)를 생성함으로써, 암의 진행 양상 예측과 환자별 최적의 치료법 탐색을 돕는다.
오픈AI
오픈AI는 강화 학습, 생성형 AI, 멀티모달 모델 등 다양한 분야에서 연구를 수행한다. 주요 연구 성과로는 GPT 시리즈, CLIP, DALL·E 등이 있다. 2026년 현재 추론 모델의 사고 과정 제어, 프런티어 LLM의 명령 계층 구조 개선 등 최신 연구를 발표하고 있다. 회사는 AGI 개발을 최종 목표로 삼고 있으며, 안전하고 책임 있는 AI 배포를 위한 원칙을 준수한다.
GUI 에이전트
최근의 GUI 에이전트는 대형언어모델(LLM) 및 멀티모달 모델과 결합하여 고도화되고 있다. 특히 GUI 그라운딩(Grounding) 기술은 화면상의 시각적 요소와 텍스트 명령을 정확히 매칭하는 데 핵심적인 역할을 한다. 일부 모델은 순수 시각 정보만을 활용하는 '퓨어 비전(Pure Vision)' 방식을 채택하여 운영체제나 애플리케이션의 내부 코드에 의존하지 않고도 범용적인 조작이 가능하…
오픈소스 인공지능
인기 있는 오픈소스 인공지능 프로젝트 범주에는 대형 언어 모델, 기계 번역 도구 및 챗봇이 포함된다. Meta는 LLaMA 시리즈를 오픈소스로 공개하여 누구나 AI 모델을 사용하고 맞춤 설정할 수 있게 했다. OpenAI는 GPT-OSS 모델을 1,200억 파라미터와 200억 파라미터로 제공하며, 추론, 코딩, 에이전트 작업을 지원한다. NVIDIA는 Nemotron 제품군을 통해 개방형…
AI 에이전트
AI 에이전트의 핵심은 대규모 언어 모델(LLM)이다. LLM은 에이전트의 두뇌 역할을 하며, 고급 이성과 멀티모달 상호작용 능력을 제공한다. 에이전트는 LLM의 지식 한계를 극복하기 위해 백엔드에서 실시간 정보를 검색하거나 특정 API를 호출하는 방식을 취한다. 이러한 도구 호출은 사람의 개입 없이 이루어질 수 있으며, AI 시스템의 실제 적용 가능성을 넓힌다. 최근에는 시각 중심의 캔버…
딥페이크
딥페이크를 이용한 조작 미디어의 확산을 막기 위해 탐지 솔루션인 'AI 디텍터'가 개발되어 사용된다. 멀티모달 분석: 영상, 음성, 이미지를 통합적으로 분석하여 딥페이크 여부를 식별한다. 세그먼트 분석: 영상 내에서 조작이 의심되는 구간을 타임라인별로 분리하여 시각화한다. 근거 제시: 변조 징후, 메타데이터, 프로비넌스(출처 정보) 등 객관적인 근거를 바탕으로 진위를 판별한다. 정확도: 최…
생성형 인공지능
생성형 인공지능은 다양한 영역에서 활용된다. 콘텐츠 제작: 텍스트 초안 작성, 이미지 및 시각적 애셋 생성. 요약: 긴 문서, 회의록, 웹 페이지를 간결하고 실행 가능한 요약본으로 변환. 코드 생성: 소프트웨어 코드를 작성하거나 기존 코드를 리팩터링하여 개발 생산성 향상. 멀티모달 이해: 텍스트뿐만 아니라 이미지, 오디오 등 다양한 형태의 데이터를 동시에 처리하고 생성.
영상 생성 AI
최신 영상 생성 모델들은 단순한 시각적 구현을 넘어 고도화된 기술적 요소를 포함한다. 1. 현실적인 물리 법칙: 물체의 움직임이나 상호작용을 실제 물리 현상과 유사하게 재현한다. 2. 멀티모달 입력: 텍스트뿐만 아니라 이미지, 비디오, 오디오 등 여러 유형의 파일을 동시에 레퍼런스로 활용하여 정밀한 제어가 가능하다. 3. 오디오 동기화: 영상의 내용에 어울리는 사운드 이펙트나 배경 음악을…