문서 검색

로컬 지식 베이스를 검색한 뒤, 정확한 주제 경로를 열어 없는 문서를 새로 작성할 수 있습니다.

유의사항

본 서비스가 제공하는 내용 및 자료가 사실임을 보증하지 않습니다. 시스템은 언제나 실수를 할 수 있습니다. 중요한 의사결정 및 법리적 해석, 금전적 의사결정에 사용하지 마십시오.

검색 결과

"멀티모달"에 대한 결과 2.5천건

정확히 일치하는 문서가 없습니다.

이 주제의 표준 경로를 열면 시스템이 먼저 생성 타당성을 검토하고, 필요하면 더 적절한 위키 제목을 정한 뒤 새 한국어 문서를 초안 작성합니다.

"멀티모달" 생성

멀티모달 인공지능

멀티모달 인공지능(Multimodal AI)은 텍스트, 이미지, 오디오, 비디오 등 여러 유형의 데이터 양식(Modality)을 단일 시스템 내에서 결합하여 처리하고 정보를 생성하는 기술이다. 단일 양식의 데이터만을 처리하던 기존 인공지능 모델과 달리, 다양한 소스의 정보를 동시에 분석하고 통합함으로써 실제 세계의 복합적인 상황을 더 정확하게 추론하고 반응한다. 이는 기계가 인간처럼 시각,…

10조 파라미터 모델

10조 파라미터 모델은 인공지능의 지능을 결정하는 매개변수(Parameter)의 총합이 10조 개($10^{13}$)에 이르는 초거대 모델을 의미한다. 2020년대 중반 기술 기업들이 1조 파라미터 규모의 모델을 잇달아 공개함에 따라, 10조 규모는 인공지능 성능 고도화의 다음 단계이자 인간 수준의 추론 능력을 갖추기 위한 기술적 목표로 평가받는다. 이러한 모델은 방대한 데이터를 학습하여…

챗GPT

챗GPT(ChatGPT)는 미국의 인공지능 연구소 오픈AI(OpenAI)가 개발하여 2022년 11월 30일에 출시한 생성형 인공지능 챗봇이다. 대형 언어 모델(LLM)과 멀티모달 모델을 기반으로 하며, 사용자와의 자연스러운 대화를 통해 질문 답변, 아이디어 탐색, 코딩 지원 등 다양한 생산성 작업을 수행한다. 출시 두 달 만에 사용자 1억 명을 돌파하며 역사상 가장 빠르게 성장한 소비자…

제미나이

제미나이(Gemini)는 구글 딥마인드(Google DeepMind)가 개발한 멀티모달 대형 언어 모델(LLM)이자 이를 기반으로 하는 인공지능 서비스의 명칭이다. 텍스트, 이미지, 오디오, 비디오, 컴퓨터 코드를 동시에 처리하고 생성할 수 있는 능력을 갖추었으며, 기존의 구글 AI 서비스인 바드(Bard)와 듀엣 AI(Duet AI)를 통합하여 구글 생태계의 핵심 AI 브랜드로 자리 잡았…

제미나이 (인공지능)

제미나이(Gemini)는 구글 딥마인드가 개발한 멀티모달 대형 언어 모델(LLM)이자 이를 기반으로 하는 인공지능 서비스의 명칭이다. 2023년 12월 6일에 처음 발표되었으며, 기존의 LaMDA와 PaLM 2 모델을 계승한다. 텍스트, 이미지, 오디오, 비디오, 컴퓨터 코드 등 다양한 유형의 데이터를 동시에 처리하고 생성할 수 있는 능력을 갖추고 있다.

GigaTIME

GigaTIME은 마이크로소프트 연구소(Microsoft Research)가 프로비던스(Providence) 및 워싱턴 대학교와 협력하여 개발한 멀티모달 인공지능(AI) 모델이다. 일상적인 H&E 염색 병리 슬라이드를 입력받아 가상의 다중 면역형광(mIF) 이미지를 생성하며, 이를 통해 종양 미세환경(TME)을 대규모로 모델링하고 가상 인구를 생성한다. 2025년 12월 학술지 《셀(Cel…

대형 언어 모델

다양한 기업과 연구소에서 대형 언어 모델을 개발하여 공개하고 있다. 모델명 개발사 특징 GPT-3 오픈AI 1,750억 개의 매개변수를 보유하여 초기 LLM 열풍을 주도함 LLaMA 메타 AI 연구 커뮤니티에 모델 가중치를 공개하여 접근성을 높임 제미나이(Gemini) 구글 멀티모달 능력을 갖춘 인공지능 모델 시리즈 젬마(Gemma) 구글 매개변수 규모에 따라 다양한 버전으로 나뉘는 개방형…

AI 에이전트

AI 에이전트의 핵심은 대규모 언어 모델(LLM)이다. LLM은 에이전트의 두뇌 역할을 하며 고급 이성과 멀티모달 상호작용 능력을 제공한다. 에이전트는 LLM의 지식 한계를 극복하기 위해 백엔드에서 실시간 정보를 검색하거나 특정 API를 호출하는 방식을 취한다. 이러한 도구 호출은 사람의 개입 없이 이루어질 수 있으며, AI 시스템의 실제 적용 가능성을 넓힌다. 최근에는 시각 중심의 캔버스…

딥페이크

딥페이크의 부작용을 막기 위해 조작 여부를 판별하는 탐지 기술이 개발되고 있다. AI 디텍터: 영상의 픽셀 단위 변조 흔적이나 메타데이터를 분석하여 진위를 판별하며, 약 90% 이상의 정확도를 목표로 한다. 멀티모달 분석: 영상의 시각적 정보와 음성 데이터의 일치 여부를 통합적으로 분석하여 부자연스러운 부분을 찾아낸다. 법적 규제: 각국 정부는 딥페이크를 이용한 명예훼손이나 성범죄에 대해…

트랜스포머 (인공 신경망)

트랜스포머는 인공지능의 패러다임을 바꾼 파운데이션 모델로 평가받는다. 초기에는 기계 번역과 같은 자연어 처리(NLP) 분야에서 혁신을 일으켰으나, 현재는 다양한 영역으로 확장되었다. 컴퓨터 비전: 이미지를 패치 단위로 나누어 처리하는 비전 트랜스포머(ViT)를 통해 이미지 분류 및 분석에 활용된다. 생명 과학: DNA 유전자 사슬 분석이나 단백질 아미노산 구조 이해를 통한 신약 개발 가속화…

영상 생성 AI

최신 영상 생성 모델들은 단순한 이미지의 나열을 넘어 고도의 기술적 요소를 갖추고 있다. 1. 물리 법칙 시뮬레이션: 물체의 움직임, 조명, 중력 등 실제 물리 현상을 정확하게 이해하고 재현하여 사실적인 영상을 만든다. 2. 시간적 일관성: 영상이 진행되는 동안 인물이나 배경의 형태가 어색하게 변하지 않도록 시각적 일관성을 유지한다. 3. 멀티모달 입력 및 제어: 텍스트뿐만 아니라 이미지,…

의료 AI 가이드라인

의료 AI 규제는 국가 간 경계 없이 국제적으로 공조되는 추세이다. IMDRF 협력: 대한민국 식약처는 국제의료기기규제당국자포럼(IMDRF)의 인공지능 실무그룹 의장국으로 활동하며 2022년 '인공지능 기반 의료기기 국제 공통 가이드라인'의 공식 승인을 주도했다. WHO 지침: 세계보건기구(WHO)는 2024년 보건의료 분야의 인공지능 윤리와 거버넌스를 위해 대규모 멀티모달 모델(LMM)에…