글 목록/태그

#vLLM

5개의 글

AI / Inference
AI 추론 비용 줄이기 — KV Cache 완전 정복
6분1개월 전
LLM 추론의 핵심 병목인 KV Cache의 원리부터 최신 최적화 기법(MLA, GQA, Sliding Window, Prefix Caching)까지 한 번에 정리합니다. vLLM PagedAttention과도 연결해서 설명합니다.
AILLMKV Cache추론최적화vLLMGQAMLA서빙
AI / Inference
Prefill-Decode 분리(PD Disaggregation): LLM 서빙의 새로운 표준
5분1개월 전
2025년 LLM 서빙의 표준이 된 Prefill-Decode 분리(PD Disaggregation)의 원리를 파헤칩니다. Prefill과 Decode가 왜 다른 자원을 필요로 하는지, TTFT와 TPOT를 동시에 잡는 방법, DistServe에서 NVIDIA Dynamo까지 정리합니다.
AILLM추론최적화서빙DistServePD분리TTFTTPOTvLLMSGLang
AI / Inference
Speculative Decoding: 작은 모델로 큰 모델을 빠르게 만들기
5분1개월 전
LLM 추론의 자기회귀 병목을 해결하는 Speculative Decoding의 원리를 파헤칩니다. 드래프트 모델, 검증 메커니즘, 수용률, 그리고 Self-Speculative Decoding까지 한 번에 정리합니다.
AILLM추론최적화Speculative Decoding서빙vLLM속도
AI / Inference
Efficient Memory Management for Large Language Model Serving with PagedAttention
4분8개월 전
vLLM의 핵심 알고리즘 PagedAttention 논문 리뷰. KV cache를 OS의 가상 메모리처럼 관리해 기존 시스템 대비 2~4× 처리량 향상을 달성한 방법을 정리합니다.
AILLM논문리뷰vLLMPagedAttentionKV cache메모리관리서빙
개발 / HW
AI 가속기 시리즈 - Intel Gaudi (2)
2분2025년 3월 29일
Intel Gaudi2에서 vLLM-fork를 활용하여 LLM 추론 서버를 구축하는 방법을 소개합니다.
AIGaudivLLMIntelLLMAI가속기추론