🐨코알라 오딧세이

코알라 오딧세이

새 글 알림 받기

© 2026 이다운

글 목록/태그

#GQA

1개의 글

AI / Inference
AI 추론 비용 줄이기 — KV Cache 완전 정복
6분1개월 전
LLM 추론의 핵심 병목인 KV Cache의 원리부터 최신 최적화 기법(MLA, GQA, Sliding Window, Prefix Caching)까지 한 번에 정리합니다. vLLM PagedAttention과도 연결해서 설명합니다.
AILLMKV Cache추론최적화vLLMGQAMLA서빙