#vLLM
5개의 글
AI / Inference
AI 추론 비용 줄이기 — KV Cache 완전 정복6분LLM 추론의 핵심 병목인 KV Cache의 원리부터 최신 최적화 기법(MLA, GQA, Sliding Window, Prefix Caching)까지 한 번에 정리합니다. vLLM PagedAttention과도 연결해서 설명합니다.
AILLMKV Cache추론최적화vLLMGQAMLA서빙AI / Inference
Prefill-Decode 분리(PD Disaggregation): LLM 서빙의 새로운 표준5분2025년 LLM 서빙의 표준이 된 Prefill-Decode 분리(PD Disaggregation)의 원리를 파헤칩니다. Prefill과 Decode가 왜 다른 자원을 필요로 하는지, TTFT와 TPOT를 동시에 잡는 방법, DistServe에서 NVIDIA Dynamo까지 정리합니다.
AILLM추론최적화서빙DistServePD분리TTFTTPOTvLLMSGLangAI / Inference
Speculative Decoding: 작은 모델로 큰 모델을 빠르게 만들기5분LLM 추론의 자기회귀 병목을 해결하는 Speculative Decoding의 원리를 파헤칩니다. 드래프트 모델, 검증 메커니즘, 수용률, 그리고 Self-Speculative Decoding까지 한 번에 정리합니다.
AILLM추론최적화Speculative Decoding서빙vLLM속도AI / Inference
Efficient Memory Management for Large Language Model Serving with PagedAttention4분vLLM의 핵심 알고리즘 PagedAttention 논문 리뷰. KV cache를 OS의 가상 메모리처럼 관리해 기존 시스템 대비 2~4× 처리량 향상을 달성한 방법을 정리합니다.
AILLM논문리뷰vLLMPagedAttentionKV cache메모리관리서빙개발 / HW
AI 가속기 시리즈 - Intel Gaudi (2)2분Intel Gaudi2에서 vLLM-fork를 활용하여 LLM 추론 서버를 구축하는 방법을 소개합니다.
AIGaudivLLMIntelLLMAI가속기추론