ANEMLL(Artificial Neural Engine Machine Learning Library)은 애플 실리콘(Apple Silicon)의 뉴럴 엔진(Apple Neural Engine, ANE)을 활용하여 대규모 언어 모델(LLM)을 온디바이스(On-device) 환경에서 실행할 수 있도록 지원하는 오픈 소스 라이브러리이자 파이프라인이다. '애니멀(animal)'로 발음하며, 허깅페이스(HuggingFace)의 모델 가중치를 CoreML 형식으로 변환하여 iOS, macOS, visionOS 기기에서 저전력으로 개인정보를 보호하며 AI를 구동하는 것을 목적으로 한다.

배너 광고

개요

ANEMLL은 애플 기기에 탑재된 하드웨어 가속기인 뉴럴 엔진(ANE)을 최대한 활용하여 인공지능 모델의 추론 성능을 극대화하는 도구이다. 클라우드 서버에 의존하지 않고 기기 자체에서 모델을 실행하는 온디바이스 AI 구현을 돕는다. 이를 통해 데이터 유출 위험을 줄이고 인터넷 연결 없이도 빠른 AI 서비스를 제공할 수 있다.

주요 기능

ANEMLL은 모델 변환부터 실행까지의 전 과정을 지원하는 파이프라인을 제공한다.

  • 모델 변환: 허깅페이스의 모델 가중치를 ANE 텐서 처리에 최적화된 CoreML 형식으로 직접 변환한다.
  • 추론 엔진: Swift와 Python 기반의 추론 코드를 포함하여 다양한 개발 환경에서 사용할 수 있다.
  • 참조 앱: 음성 입력, 에어드롭(AirDrop)을 통한 모델 공유, 로컬 모델 가져오기 기능을 갖춘 iOS, macOS, visionOS용 샘플 앱을 제공한다.
  • 최적화: 저전력 구동과 완전한 개인정보 보호를 지향하는 온디바이스 AI 환경에 맞추어 설계되었다.

지원 모델

다양한 최신 대규모 언어 모델을 지원하며, 주요 목록은 다음과 같다.

모델군세부 모델 및 규모
Gemma 3270M ~ 4B
LLaMA 3.1/3.21B ~ 8B
Qwen 3 / 2.50.6B ~ 1.7B
DeepSeek R1Distill 버전
DeepHermesDistill 버전

기술적 특징

애플 기기의 하드웨어 제약을 극복하기 위해 다음과 같은 기술을 적용한다.

  1. 모델 분할(Model Splitting): 기기별 메모리 제한에 맞춰 모델을 나눈다. iOS는 약 1GB, macOS는 약 2GB 단위로 최적화하여 분할한다.
  2. ANE 전용 연산: RMS Normalization과 같은 연산을 ANE에서 효율적으로 처리하기 위해 독자적인 최적화 기법을 사용한다.
  3. 저전력 설계: CPU나 GPU 대신 ANE를 주력으로 사용하여 배터리 소모를 최소화한다.

참고 자료

5

관련 문서

최근 관련 뉴스