#AI
42개의 글
AI / AGENT
MCP(Model Context Protocol) 완전 정복 — AI와 도구를 연결하는 USB-C5분Anthropic이 제안한 MCP의 구조와 작동 원리를 깊이 파헤칩니다. Host, Client, Server의 역할 분리부터 직접 MCP 서버를 만드는 실습 코드까지 한 번에 정리합니다.
AIAgentMCPAnthropicLLM도구연결오픈소스프로토콜AI / Inference
AI 추론 비용 줄이기 — KV Cache 완전 정복6분LLM 추론의 핵심 병목인 KV Cache의 원리부터 최신 최적화 기법(MLA, GQA, Sliding Window, Prefix Caching)까지 한 번에 정리합니다. vLLM PagedAttention과도 연결해서 설명합니다.
AILLMKV Cache추론최적화vLLMGQAMLA서빙AI / Inference
Prefill-Decode 분리(PD Disaggregation): LLM 서빙의 새로운 표준5분2025년 LLM 서빙의 표준이 된 Prefill-Decode 분리(PD Disaggregation)의 원리를 파헤칩니다. Prefill과 Decode가 왜 다른 자원을 필요로 하는지, TTFT와 TPOT를 동시에 잡는 방법, DistServe에서 NVIDIA Dynamo까지 정리합니다.
AILLM추론최적화서빙DistServePD분리TTFTTPOTvLLMSGLangAI / Inference
RadixAttention: KV Cache 재사용을 자동화하는 기발한 아이디어5분SGLang이 제안한 RadixAttention의 핵심 원리를 파헤칩니다. Radix Tree 자료구조로 KV Cache를 자동 재사용하는 방식, vLLM의 Prefix Caching과의 차이, 그리고 실제 성능까지 정리합니다.
AILLMRadixAttentionSGLangKV Cache추론최적화서빙자료구조AI / Inference
Speculative Decoding: 작은 모델로 큰 모델을 빠르게 만들기5분LLM 추론의 자기회귀 병목을 해결하는 Speculative Decoding의 원리를 파헤칩니다. 드래프트 모델, 검증 메커니즘, 수용률, 그리고 Self-Speculative Decoding까지 한 번에 정리합니다.
AILLM추론최적화Speculative Decoding서빙vLLM속도AI / LLM
Transformer 없이 언어 모델 만들기 — Mamba(SSM) 완전 정복4분Attention의 O(T²) 병목을 없앤 상태 공간 모델(SSM) Mamba의 핵심 원리를 파헤칩니다. 선택적 상태 공간, 하드웨어 인식 병렬화, 그리고 Transformer와의 성능 비교까지 정리합니다.
AILLM논문리뷰MambaSSM상태공간모델아키텍처딥러닝AI / AGENT
KGGen: 텍스트에서 지식 그래프를 생성하는 새로운 방법2분평문(plain text)으로부터 자동으로 고품질 지식 그래프를 생성하는 KGGen 논문 리뷰. 동의어 군집화로 희소성을 줄이고 새로운 평가 기준 MINE을 제안한 접근법을 정리합니다.
AINLP논문리뷰지식그래프KGGenPythonLLMGraphRAGAI / LLM
Engram: LLM에 '기억의 서랍'을 달아주다6분DeepSeek-AI & Peking University가 발표한 Engram 논문 리뷰. N-gram 해싱 기반 조건부 메모리로 MoE의 '조건부 계산'을 보완하여 추론 능력까지 향상시키는 원리를 정리합니다.
AILLM논문리뷰DeepSeekMoE메모리스케일링아키텍처AI / AGENT
Anthropic Sandbox Runtime (srt): AI 에이전트를 안전하게 실행하는 샌드박스 도구5분Anthropic이 공개한 경량 샌드박싱 도구 Sandbox Runtime(srt)을 소개합니다. 네트워크/파일시스템 제한, MCP 서버 샌드박싱, 이중 격리 모델까지 실전 예제와 함께 정리합니다.
AIAgent보안AnthropicClaude샌드박스MCP오픈소스AI / AGENT
대규모 코드베이스를 정복하는 AI 코딩 에이전트: Confucius Code Agent 깊이 파헤치기6분Meta와 Harvard가 공동 발표한 Confucius Code Agent(CCA) 논문 리뷰. AX/UX/DX 분리, 계층적 컨텍스트 관리, Hindsight Notes, 메타 에이전트 등 핵심 메커니즘을 코드와 함께 정리합니다.
AIAgentLLM코딩에이전트SWEMetaHarvard논문리뷰AI / ASR
NVIDIA Nemotron Speech Streaming ASR5분NVIDIA가 개발한 캐시 인식 스트리밍 ASR 모델 Nemotron Speech를 소개합니다. FastConformer + RNN-T 아키텍처로 기존 대비 3배 효율성 향상, 재훈련 없는 런타임 지연 조정까지 상세히 정리합니다.
AIASR음성인식NVIDIANeMo스트리밍FastConformerRNN-TAI / AGENT
Effective harnesses for long-running agents2분Anthropic이 발표한 장시간 실행 AI 에이전트 문제 해결 방법. 초기화 에이전트와 코딩 에이전트의 역할 분리, git 기반 상태 관리, 테스팅 자동화까지 핵심 인사이트를 정리합니다.
AIAgentLLMAnthropicClaude멀티에이전트에이전트설계AI / DeepFakeDetection
DeepShield: Fortifying Deepfake Video Detection6분ICCV 2025에 발표된 DeepShield 논문 리뷰. 로컬 민감도(LPG)와 글로벌 일반화(GFD)를 동시에 해결하는 딥페이크 탐지 프레임워크를 PyTorch 구현 코드와 함께 정리합니다.
AI딥페이크논문리뷰ICCVCLIPViTPyTorch컴퓨터비전보안AI / DeepFakeDetection
Seeing Through Deepfakes: A Human-Inspired Framework for Multi-Face Detection6분ICCV 2025 딥페이크 탐지 논문 리뷰. 인간의 4가지 인지 단서를 AI에 적용한 HICOM 프레임워크를 소개하고, 다중 얼굴 시나리오에서의 탐지 방법을 Python 코드와 함께 정리합니다.
AI딥페이크논문리뷰ICCV컴퓨터비전멀티페이스보안PythonAI / AGENT
Apollo-1: The Neuro-Symbolic Foundation Model that Solves Task-Oriented Conversational AI4분AUI가 발표한 Apollo-1은 태스크 지향 대화형 AI를 위한 신경-상징 기반 모델입니다. LLM 에이전트의 한계를 넘어 결정론적 행동 보장을 구현한 새로운 아키텍처를 정리합니다.
AIAgentLLMApollo-1태스크지향AI신경상징추론대화AIAUIAI / ASR
Meta의 Omnilingual ASR: 1,600개 이상의 언어를 지원하는 혁신적인 음성 인식 기술4분Meta FAIR 팀이 발표한 Omnilingual ASR은 1,600개 이상의 언어를 지원하는 오픈소스 음성 인식 시스템입니다. Zero-shot 학습, Bring Your Own Language 기능, Whisper와의 비교까지 정리합니다.
AIASR음성인식Meta다국어오픈소스LLMwav2vecAI / DeepFakeDetection
Defending Deepfake4분딥페이크 방어 최신 논문 2가지(GuardDoor, Texture Feature Perturbation)를 요약하고, 핵심 아이디어를 Python 코드로 시연해봅니다.
AI딥페이크논문리뷰보안컴퓨터비전GuardDoor텍스처섭동PythonAI / DeepFakeDetection
Audiovisual Deepfake Detection: 주요 방법론과 실습 코드5분오디오-비주얼 딥페이크 탐지의 주요 방법론(Audio-Visual Sync, Multimodal Fusion, Temporal Analysis)과 PyTorch 실습 코드를 함께 정리합니다.
AI딥페이크PyTorch멀티모달컴퓨터비전딥러닝실습코드AI / LLM
LLM도 '브레인 롯(Brain Rot)'에 걸릴 수 있을까?3분저품질 웹 텍스트(정크 데이터)에 지속적으로 노출된 LLM의 인지 능력이 저하된다는 'LLM 브레인 롯 가설' 논문을 리뷰합니다. 추론 능력 저하, 안전성 문제, 성격 변화까지 충격적인 실험 결과를 정리합니다.
AILLM논문리뷰브레인롯데이터품질AI안전성사전학습AI / DeepFakeDetection
Understanding Audiovisual Deepfake Detection: Techniques, Challenges, Human Factors and Perceptual Insights3분오디오-비주얼 딥페이크 탐지에 관한 포괄적인 서베이 논문 리뷰. 딥페이크 유형, 탐지 방법, 주요 데이터셋, 인간 지각 연구, 현재 과제까지 총정리합니다.
AI딥페이크논문리뷰멀티모달보안딥러닝컴퓨터비전AI / AGENT
AI Models Need a Virtual Machine3분AI 모델을 위한 새로운 소프트웨어 실행 계층 MVM(Model Virtual Machine)의 필요성을 살펴봅니다. MCP, LangChain 등 기존 시도들과 함께 AI 실행 환경의 미래를 정리합니다.
AIAgentLLMMVMMCP실행환경보안아키텍처AI / Inference
Efficient Memory Management for Large Language Model Serving with PagedAttention4분vLLM의 핵심 알고리즘 PagedAttention 논문 리뷰. KV cache를 OS의 가상 메모리처럼 관리해 기존 시스템 대비 2~4× 처리량 향상을 달성한 방법을 정리합니다.
AILLM논문리뷰vLLMPagedAttentionKV cache메모리관리서빙프로젝트 / tour
프로젝트 3 - 관광 활성화를 위한 거대 언어 모델 및 RAG 파이프라인 연구 후기3분일본인 관광객을 위한 온디바이스 RAG 시스템 구축 연구 후기. Qwen3-4B 모델 선정부터 앙상블 RAG 파이프라인 설계까지, 연구지원 프로그램 우수상 수상 연구를 공유합니다.
AILLMRAGQwen온디바이스관광일본어프로젝트연구프로젝트 / tour
프로젝트 2 - 모델 선정(한국어, 일본어, 속도 비교)1분일본인 관광 안내 서비스를 위한 온디바이스 LLM 선정 과정. 5개 3~4B 모델의 한국어/일본어 MMLU 성능과 vLLM 속도를 비교하여 최적 모델을 선정합니다.
AILLM모델선정온디바이스Qwen한국어일본어프로젝트AI / AGENT
Agent란 무엇일까?3분AI Agent의 정의와 역사, 그리고 LangChain, AutoGPT, CrewAI 등 초기 에이전트 툴들의 등장과 한계, MCP와 A2A로 이어지는 에이전트 생태계의 발전을 정리합니다.
AIAgentLLMMCPA2A멀티에이전트LangChainAI / AGENT
구글 A2A(Agent to Agent) 발표2분구글이 발표한 에이전트 간 통신 표준 A2A 프로토콜을 소개합니다. MCP와의 관계, AgentCard 구조, 작업 상태 관리까지 정리합니다.
AIAgentA2AMCP구글멀티에이전트AI / LLM
Reasoning Models Don't Always Say What They Think4분추론 모델의 CoT가 실제 내부 추론을 충실히 반영하지 않을 수 있다는 Anthropic의 연구를 살펴봅니다.
AILLM논문리뷰CoTAI안전성추론모델AI / LLM
Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models4분동결된 언어 모델이 학습 데이터에 없던 미사용 도구까지 CoT 추론 과정에서 활용할 수 있도록 하는 Chain-of-Tools 방법론을 소개합니다.
AILLM논문리뷰CoTTool LearningCoTools개발 / HW
AI 가속기 시리즈 - Intel Gaudi (3)2분Intel Gaudi2에서 FP8 양자화 모델을 구동하고 fine-tuning하는 방법을 소개합니다.
AIGaudi양자화Fine-TuningIntelAI가속기AI / LLM
Overtrained Language Models Are Harder to Fine-Tune (과잉 훈련 재앙)3분사전 학습을 과도하게 진행하면 오히려 미세조정 성능이 저하된다는 '재앙적 과훈련' 현상을 다룬 논문을 살펴봅니다.
AILLM논문리뷰Fine-Tuning사전학습AI / AGENT
MCP 업데이트 : OAuth 2.1, 스트리머블 HTTP, 도구 주석2분Anthropic이 발표한 Model Context Protocol(MCP) 최신 업데이트 핵심 변경 사항을 정리합니다.
AIMCPAgentClaudeLLM개발 / HW
AI 가속기 시리즈 - Intel Gaudi (2)2분Intel Gaudi2에서 vLLM-fork를 활용하여 LLM 추론 서버를 구축하는 방법을 소개합니다.
AIGaudivLLMIntelLLMAI가속기추론AI / LLM
EXAONE-Deep : 국내 최초 Notable AI Models 등재 추론 모델3분LG AI 연구원이 공개한 오픈소스 추론 모델 EXAONE-Deep의 학습 방식과 사용법을 살펴봅니다.
AILLMEXAONE추론모델오픈소스논문리뷰AI / LLM
추론 모델을 구현해보자! (ft. S1, Budget Forcing)6분Test-Time Scaling 기법을 활용해 추론(Reasoning) 모델을 직접 구현해봅니다. CoT 프롬프팅부터 Budget Forcing, LoRA 파인튜닝까지.
AILLMReasoning추론모델EXAONES1LoRAFine-tuning개발 / HW
AI 가속기 시리즈 - Gaudi (1)3분Local LLM 시대의 대안 하드웨어, 인텔 Gaudi 시리즈의 특징과 NVIDIA GPU와의 비교를 살펴봅니다.
AIGaudiNPUIntelLLMAI가속기AI / LLM
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context3분고정된 문맥 길이 한계를 극복하고 장기 의존성 학습의 새로운 가능성을 연 Transformer-XL 논문을 살펴봅니다.
AITransformer논문리뷰LLMAI / LLM
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale4분텍스트 중심이었던 Transformer를 이미지 인식에 직접 적용한 Vision Transformer(ViT) 논문을 살펴봅니다.
AITransformerViT논문리뷰ComputerVisionAI / LLM
Improving Language Understanding by Generative Pre-Training : GPT의 시작4분현재 GPT 시대의 출발점이 된 GPT-1 논문을 살펴봅니다.
AIGPT논문리뷰LLMAI / LLM
DeepSeek R1 : 강화학습으로 세상을 뒤흔든 모델2분강화학습 기반 Post-Training으로 주목받은 DeepSeek R1의 학습 방식과 성능을 살펴봅니다.
AIDeepSeekLLM강화학습논문리뷰AI / LLM
Titans: Learning to Memorize at Test Time5분트랜스포머에 신경 기억 레이어를 추가하여 장단기 기억을 모두 효율적으로 처리하는 Google의 Titans 아키텍처를 살펴봅니다.
AITitansLLM논문리뷰MemoryAI / LLM
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding4분양방향 트랜스포머 기반의 언어 모델 BERT를 소개한 논문을 살펴봅니다.
AITransformer논문리뷰LLMBERTAI / LLM
Attention Is All You Need : AI 혁명의 시작4분현 시대 생성형 AI의 모태가 되는 Transformer 아키텍처를 제안한 논문을 살펴봅니다.
AITransformer논문리뷰LLM