문서 검색
로컬 지식 베이스를 검색한 뒤, 정확한 주제 경로를 열어 없는 문서를 새로 작성할 수 있습니다.
유의사항
본 서비스가 제공하는 내용 및 자료가 사실임을 보증하지 않습니다. 시스템은 언제나 실수를 할 수 있습니다. 중요한 의사결정 및 법리적 해석, 금전적 의사결정에 사용하지 마십시오.
검색 결과
"DeepSeek"에 대한 결과 15건
딥시크 (기업)
딥시크(DeepSeek)는 중국 저장성 항저우시에 본사를 둔 인공지능 기업이다. 중국 헤지펀드 하이플라이어가 소유하고 자금을 지원하며, 2023년 7월 하이플라이어의 공동 창립자 량원펑이 설립하였다. 딥시크는 대형 언어 모델(LLM)을 개발하며, 2025년 1월 딥시크-R1 챗봇을 출시하여 오픈AI의 GPT-4o 등과 경쟁하는 성능을 저렴한 비용으로 구현해 주목받았다. MIT 허가서로 공개…
딥시크
딥시크(DeepSeek)는 중국의 인공지능(AI) 기술 개발 기업이다. 2023년 7월 중국 헤지펀드 하이플라이어(High-Flyer)의 공동 창립자 량원펑에 의해 설립되었다. 대규모 언어 모델(LLM) 분야에서 기존 경쟁사 대비 현저히 낮은 비용으로 고성능 모델을 구현하여 시장에 큰 충격을 주었으며, 주요 모델의 가중치를 공개하는 오픈 웨이트 방식을 채택하고 있다.
DeepSeek V4
DeepSeek V4는 중국의 인공지능 기업 딥시크(DeepSeek)가 2026년 4월 22일 프리뷰(preview) 버전으로 공개한 4세대 대규모 언어 모델이다. Mixture-of-Experts(MoE) 아키텍처를 기반으로 하며, 100만 토큰의 컨텍스트 길이를 지원하는 것이 핵심 특징이다. 두 가지 변형 모델인 DeepSeek-V4-Pro와 DeepSeek-V4-Flash로 구성되며,…
딥시크-R1
딥시크-R1(DeepSeek-R1)은 중국 인공지능 스타트업 딥시크가 2025년 1월 20일에 출시한 고성능 추론 모델이다. MIT 라이선스로 공개된 오픈 소스 모델이며, 수학·코딩·과학 추론에서 오픈AI의 o1과 유사한 성능을 보였다. 개발 비용은 약 557만 6천 달러로 경쟁 모델 대비 매우 낮았고, 엔비디아 H800 GPU 2,048개로 훈련되었다. 출시 직후 딥시크-R1 기반 챗봇은…
mHC (딥러닝)
mHC(Manifold-Constrained Hyper-Connections)는 중국 AI 연구소 딥시크(DeepSeek)가 개발한 대규모 언어 모델(LLM) 학습을 위한 새로운 아키텍처 프레임워크이다. 기존 딥 트랜스포머 모델이 깊어질수록 겪는 정보 흐름 저하와 불안정성을 해결하기 위해 설계되었다. mHC는 하이퍼커넥션(Hyper-Connections) 구조에 다양체 제약(Manifold…
Native Sparse Attention
Native Sparse Attention(NSA)은 DeepSeek-AI 연구진이 2025년에 발표한 희소 어텐션 메커니즘이다. 기존 표준 어텐션의 높은 계산 비용을 줄이기 위해 설계되었으며, 동적 계층적 희소 전략을 통해 전역 문맥 인식과 지역 정밀도를 동시에 유지한다. 하드웨어 정렬 최적화를 적용하여 실질적인 속도 향상을 달성하고, 학습 가능한 구조로 설계되어 사전 학습부터 추론까지…
10조 파라미터 모델
조 단위 이상의 파라미터를 효율적으로 운용하기 위해 다양한 최적화 기술이 적용된다. 혼합 전문가(MoE, Mixture of Experts): 전체 파라미터 중 특정 연산에 필요한 일부 전문가 모델만 활성화하는 방식이다. 예를 들어 딥시크(DeepSeek) V4는 1조 개의 파라미터를 보유하면서도 추론 시에는 약 370억 개의 활성 파라미터만 사용하여 효율성을 높인다. 스파스 아키텍처(Sp…
Ollama
다양한 최신 오픈 소스 모델을 지원하며, 지속적으로 새로운 모델이 추가되고 있다. 모델 시리즈 주요 특징 Llama / Gemma 메타와 구글에서 공개한 범용 모델 DeepSeek / Qwen 추론 및 코딩 능력이 강화된 모델 GLM / MiniMax 에이전트 워크플로우 및 코딩 특화 모델 Mistral / Kimi 효율적인 성능을 제공하는 오픈 모델
미중 기술 전쟁
글로벌 AI 시장은 미국의 단일 지배 체제에서 미·중 양강 대치 국면으로 재편되었다. 양국은 AI 모델의 성능과 반도체 공급망 확보를 두고 치열하게 경쟁하고 있다. 미국의 기술 봉쇄: 미국은 중국의 첨단 기술 접근을 차단하기 위해 반도체 장비 수출 제한 조치를 도입하였다. 특히 극자외선 리소그래피(EUV) 장비와 같은 첨단 생산 기술의 중국 유입을 막아 중국의 반도체 미세 공정 발전을 견제…
증류 (인공지능)
인공지능 분야에서 증류는 대규모 모델의 학습 결과를 압축하여 소형 모델에 이식하는 기법을 의미한다. 대형 언어 모델(LLM)과 같이 파라미터 수가 많은 모델은 높은 정확도를 보이지만, 추론 시 많은 비용과 시간이 소요된다. 증류는 이러한 대형 모델을 '교사(Teacher)'로 삼아 '학생(Student)' 모델이 그 출력 특성을 학습하게 함으로써, 실용적인 배포가 가능한 수준으로 모델을 경…
애플 뉴럴 엔진
애플은 생성형 AI 시대를 맞아 뉴럴 엔진의 활용 범위를 대형 언어 모델(LLM)로 확장하고 있다. 2024년 출시된 M4 칩은 AI 기능을 담당하는 NPU 성능 확대에 주력하여 설계되었다. 또한, 소프트웨어 생태계 확장을 위해 오픈소스 프로젝트인 ANEMLL이 공개되었다. ANEMLL은 허깅페이스(Hugging Face)의 모델을 뉴럴 엔진에 최적화된 CoreML 포맷으로 변환하고 배포할…
ANEMLL
다양한 최신 대규모 언어 모델을 지원하며, 주요 목록은 다음과 같다. 모델군 세부 모델 및 규모 Gemma 3 270M 4B LLaMA 3.1/3.2 1B 8B Qwen 3 / 2.5 0.6B 1.7B DeepSeek R1 Distill 버전 DeepHermes Distill 버전