AI / Inference
Prefill-Decode 분리(PD Disaggregation): LLM 서빙의 새로운 표준5분
2025년 LLM 서빙의 표준이 된 Prefill-Decode 분리(PD Disaggregation)의 원리를 파헤칩니다. Prefill과 Decode가 왜 다른 자원을 필요로 하는지, TTFT와 TPOT를 동시에 잡는 방법, DistServe에서 NVIDIA Dynamo까지 정리합니다.
AILLM추론최적화서빙DistServePD분리TTFTTPOTvLLMSGLang