DeepSeek R1 : 강화학습으로 세상을 뒤흔든 모델
AI/LLM 시리즈 : DeepSeek R1
며칠 전부터 세상이 DeepSeek 때문에 떠들썩합니다. DeepSeek에서 출시한 모델들이 오픈소스로 모두 공개되어 있으며, 특히 DeepSeek R1이 매우 뛰어난 성능을 보이고 있습니다. 최근 미국이 중국에 대한 반도체 규제를 강화하는 가운데 등장한 모델이라는 점에서 더욱 이슈가 되고 있습니다.
왜 DeepSeek R1이 주목받는가?
성능만의 문제가 아닙니다. 흔히 instruct라는 명칭이 붙는 모델들은 지도 미세 조정(SFT, Supervised Fine-Tuning) 을 통해 베이스 모델의 성능을 개선합니다. 그러나 R1은 강화학습을 통한 Post-Training 방식을 채택하여 엄청난 비용 절감을 이루어냈습니다. 이는 "과연 엔비디아의 초고가 고성능 칩들이 반드시 필요한가?"라는 의구심을 불러일으켰습니다. (이에 대해서는 이견이 많습니다.)
모델 기반: DeepSeek-V3
DeepSeek R1과 DeepSeek-R1-Zero는 기본적으로 DeepSeek이 이전에 발표한 DeepSeek-V3 모델을 기반으로 합니다. V3는 Claude 3.5 Sonnet 및 Gemini 1.5 Pro와 유사한 성능으로 알려진 모델입니다. 구조적으로는 6,710억 파라미터의 MoE(Mixture of Experts) 방식으로 구성되어 있으며, 하나의 토큰이 입력될 때 370억 개의 파라미터가 활성화됩니다. MoE는 GPT 등에 이미 적용되어 온 기술로, 특이한 방식은 아닙니다.
학습 방법론
1. 강화학습을 통한 Post-Training
R1 학습에서 가장 핵심적으로 사용된 기술입니다. 일반적인 강화학습에서 많이 쓰이는 critic model 대신, 비용 절감을 위해 GRPO(Group Relative Policy Optimization) 라는 기법을 도입했습니다. 이는 그룹 점수를 통해 기준선을 추정하는 방식입니다.
또한 모델이 생성한 응답에 대해 정확성, 형식 일관성, 논리적 타당성을 기준으로 점수를 부여하는 보상 함수를 설계하여 활용했습니다. 특히 DeepSeek-R1-Zero는 SFT 없이 RL만으로 학습된 모델입니다.
2. SFT 추가 적용
RL만으로 학습한 경우, 출력의 가독성이 떨어지고 언어 혼용 문제가 발생하는 한계가 있었습니다. 이를 보완하기 위해 SFT를 추가 적용하여 최종 R1 모델을 완성했습니다. 이 과정의 핵심은 다음과 같습니다.
- Rejection Sampling 기법으로 고품질 데이터 선별
- 긴 Chain-of-Thought(CoT) 예제와 사람이 정제한 데이터를 활용한 Cold Start 데이터로 초기 SFT 진행
- RL 모델에서 생성된 고품질 데이터를 선별하여 SFT에 재활용
- RL과 SFT를 반복적으로 진행하여 적은 데이터로 높은 성능 달성
이 방식을 통해 강화학습만 진행했을 때 발생하는 가독성 문제를 효과적으로 개선했습니다.
성능
DeepSeek R1은 수학적 추론과 코딩 작업에서 특히 두드러진 성능을 보였습니다.
| 벤치마크 | 성능 |
|---|---|
| MATH | 91.6% |
| AIME 2024 | 89.7% |
OpenAI의 독점 모델과 동등하거나 더 뛰어난 성능을 기록했으며, 특히 복잡한 논리적 문제를 Chain-of-Thought(CoT) 방식으로 단계적으로 해결하는 능력이 두드러졌습니다.
결론: AI 개발의 진입 장벽을 낮추다
DeepSeek R1은 강화학습 기반의 효율적인 학습 방식과 MoE 아키텍처를 결합하여 뛰어난 성능을 달성했습니다. 오픈소스로 공개된 모델이라는 점, 그리고 비용 효율성이 높다는 점은 더 많은 연구자와 기업이 혁신적인 AI 솔루션을 개발할 수 있는 가능성을 열어줍니다. 앞으로 DeepSeek R1이 다양한 산업 분야와 연구 커뮤니티에서 어떻게 활용될지 주목할 만합니다.