🐨코알라 오딧세이

코알라 오딧세이

새 글 알림 받기

© 2026 이다운

글 목록/태그

#SGLang

2개의 글

AI / Inference
Prefill-Decode 분리(PD Disaggregation): LLM 서빙의 새로운 표준
5분1개월 전
2025년 LLM 서빙의 표준이 된 Prefill-Decode 분리(PD Disaggregation)의 원리를 파헤칩니다. Prefill과 Decode가 왜 다른 자원을 필요로 하는지, TTFT와 TPOT를 동시에 잡는 방법, DistServe에서 NVIDIA Dynamo까지 정리합니다.
AILLM추론최적화서빙DistServePD분리TTFTTPOTvLLMSGLang
AI / Inference
RadixAttention: KV Cache 재사용을 자동화하는 기발한 아이디어
5분1개월 전
SGLang이 제안한 RadixAttention의 핵심 원리를 파헤칩니다. Radix Tree 자료구조로 KV Cache를 자동 재사용하는 방식, vLLM의 Prefix Caching과의 차이, 그리고 실제 성능까지 정리합니다.
AILLMRadixAttentionSGLangKV Cache추론최적화서빙자료구조