AI 가속기 시리즈 - Gaudi (1)
AI 가속기 시리즈 : Intel Gaudi
현재 LLM의 고도화로 다양한 AI 어플리케이션이 등장하고 있습니다. 대부분은 ChatGPT, Claude 같은 LLM 전문 기업의 API를 활용하지만, 개인정보 보호, 비용 절감, 독립적인 시스템 운영을 원하는 기업들은 자체 서버에서 구동되는 Local LLM을 도입하는 추세입니다.
Local LLM은 기업 내부 데이터와 연동한 맞춤형 서비스, 빠른 응답 속도, 클라우드 의존도 감소 등의 장점이 있습니다. 특히 금융, 의료, 법률 분야처럼 데이터 보안이 중요한 곳에서는 도입이 필수적이기도 합니다.
이와 함께 GPU의 높은 비용과 에너지 소비 문제로 인해 NPU(Neural Processing Unit) 가 주목받고 있습니다. NPU는 AI 연산에 최적화된 전용 하드웨어로, 연산 효율과 전력 소비 측면에서 GPU보다 유리한 경우가 많습니다. 클라우드뿐 아니라 엣지 컴퓨팅 환경에서도 네트워크 지연 없이 실시간 처리가 가능하다는 점도 장점입니다.
앞으로 여러 포스팅을 통해 NPU와 그 사용법에 대해 다루어 보겠습니다.
1. Intel Gaudi 시리즈
인텔은 하바나랩스(Habana Labs)를 인수한 이후 Gaudi 시리즈를 출시하고 있습니다. 대표적인 Gaudi2와 Gaudi3의 특징을 살펴보겠습니다.
Gaudi2
인텔 Gaudi2는 7nm 공정 기반으로 제작되었으며 주요 사양은 다음과 같습니다.
| 항목 | 사양 |
|---|---|
| 텐서 프로세서 코어 | 24개 |
| HBM2E 메모리 | 96GB |
| 내장 이더넷 채널 | 24개 (100GB) |
특정 AI 워크로드에서 NVIDIA H100보다 최대 55% 빠른 성능을 보여주며, MLPerf 트레이닝 결과 H100 대비 1달러당 약 4배 더 나은 성능을 제공하는 것으로 증명되었습니다. 일부 시나리오에서는 H100이 더 빠른 경우도 있지만, 전반적으로 비용 대비 강력한 성능을 바탕으로 NVIDIA H100의 매력적인 대체제로 주목받고 있습니다.
Gaudi3
인텔은 '인텔 비전 2024' 컨퍼런스에서 Gaudi3를 공개하며 NVIDIA에 본격적인 도전장을 내밀었습니다. 주요 성능 지표는 다음과 같습니다.
| 비교 항목 | 성능 |
|---|---|
| 훈련 속도 (vs H100) | 라마 2 7B/13B, GPT-3 175B에서 1.7배 빠름 |
| 추론 처리량 (vs H100) | 라마 7B/70B, 팰컨 180B에서 1.5배 높음 |
| 추론 처리량 (vs H200) | 1.3배 높음 |
| 전력 효율 (vs H100) | 평균 2.3배 향상 |
| AI 컴퓨팅 성능 (BF16, vs Gaudi2) | 4배 향상 |
| HBM 메모리 대역폭 (vs Gaudi2) | 1.5배 향상 |
하드웨어 구성은 2개의 다이 모듈에 분산된 64개의 TPC 코어, 8개의 MME 코어, 128GB 온보드 HBM2e 메모리로 이루어져 있습니다. TPC 코어는 다양한 계산 속도를 높이는 데, MME 코어는 이미지 인식의 컨볼루셔널 레이어 실행에 중점을 둡니다.
단일 서버에 8개의 Gaudi3 칩을 설치할 수 있으며, 각 칩은 인접 칩과 연결하는 21개의 이더넷 링크와 서버 외부와 연결하는 3개의 이더넷 링크를 내장하고 있습니다. 인피니밴드 중심의 NVIDIA와 달리 개방적인 이더넷 방식을 채택한 것이 특징입니다. 인텔은 이를 통해 NVIDIA의 폐쇄적인 CUDA 생태계와 차별화된 개방형 소프트웨어 생태계를 구축하고자 하며, 퀄컴·구글 등과 함께 '반 엔비디아 전선'을 형성하고 있습니다.
2. 그럼에도 왜 NVIDIA 칩을 사용하는가?
NVIDIA GPU가 여전히 선호되는 이유는 단순히 성능만이 아닙니다.
압도적인 연산 성능: H100의 BF8 매트릭스 성능은 3958 TFLOPS로, Gaudi3보다 약 2배 이상 빠릅니다.
CUDA 생태계: TensorFlow, PyTorch 같은 주요 딥러닝 프레임워크와의 긴밀한 통합으로 개발 편의성과 호환성이 높습니다.
확장성과 안정성: NVLink를 통해 다수의 GPU를 병렬 연결할 때 뛰어난 확장성과 안정성을 제공합니다. Gaudi3는 이더넷 기반으로 확장성을 갖추었지만 NVLink 수준의 최적화는 아직 검증이 필요합니다.
기존 인프라와의 호환성: 클라우드와 데이터센터 등 이미 구축된 인프라와의 호환으로 기술 전환 비용과 리스크를 최소화할 수 있습니다.
3. 그렇다면 Gaudi는 왜 사용해야 하는가?
Gaudi 시리즈는 단순한 연산 성능 비교만으로 평가하기 어려운 여러 강점이 있습니다.
특화된 아키텍처: 하드웨어 기반 디코더 등 특화 기능을 통해 CPU 부하를 줄이고, 일부 작업에서 H100보다 우수한 성능을 발휘합니다.
효율적인 메모리 활용: Gaudi2는 H100보다 낮은 메모리 대역폭(2450 GB/s)임에도 활용도가 높아, LLM 추론의 디코딩 단계에서 H100과 동등한 성능을 보입니다.
워크로드에 따른 성능 이점: 작은 입력과 큰 출력을 처리하는 작업(예: 긴 텍스트 생성)에서는 Gaudi3가 H100보다 빠릅니다.
가격 및 전력 효율: H100보다 낮은 가격으로 성능 대비 최대 2.5배의 비용 이점을 제공하며, 전력 효율도 H100 대비 평균 40% 향상됩니다.
정리: Gaudi를 선택해야 하는 순간
Intel Gaudi와 NVIDIA 고성능 칩은 1:1로 단순 비교하기 어렵습니다. LLM 학습(Training) 단계에서는 CUDA 생태계와 압도적인 연산 성능을 갖춘 NVIDIA가 여전히 유리합니다. 그러나 추론(Inference) 단계까지 고가의 NVIDIA 칩을 사용하기에는 구매와 유지 비용이 너무 큽니다. 이 지점에서 Gaudi는 충분히 경쟁력 있는 선택이 될 수 있습니다.
다음 포스팅에서는 Gaudi의 Habana Framework에 대해 소개해 보겠습니다.