⚡인사이트
RAG vs CAG: 더 빠르고 저렴한 AI 검색 방법
정적 데이터는 캐싱하고 동적 데이터만 검색하는 CAG로 RAG의 비용과 속도 문제를 해결하는 방법
↗ 원본 링크#RAG#CAG#프롬프트캐싱#LLM최적화
RAG의 문제점
RAG(Retrieval-Augmented Generation)는 AI가 외부 데이터를 검색해 답변하는 기술입니다.
하지만 큰 문제가 있습니다:
▸모든 질문마다 벡터 DB를 조회합니다
▸몇 달간 변하지 않은 정적 정보도 매번 검색합니다
▸이는 **비용이 많이 들고 느립니다**
CAG란?
Cache-Augmented Generation(CAG)는 이 문제를 해결합니다.
정적 정보를 모델의 KV 메모리에 한 번만 캐싱하여 매번 검색하지 않도록 합니다.
RAG + CAG 조합 전략
지식을 두 가지 레이어로 분리합니다:
📌 정적 데이터 (캐싱)
▸회사 정책, 문서화 자료
▸자주 변하지 않는 정보
▸모델의 KV 메모리에 한 번 저장
🔄 동적 데이터 (검색)
▸최근 업데이트
▸실시간 문서
▸RAG로 필요할 때마다 검색
장점
✅ 더 빠른 추론 속도
✅ 비용 절감
✅ 중복 제거
주의사항
⚠️ 모든 것을 캐싱하면 컨텍스트 한계에 도달합니다.
선택적으로 캐싱하세요:
▸정적이고 가치 있는 지식만
▸거의 변하지 않는 정보만
▸"콜드" 데이터와 "핫" 데이터를 구분
바로 시작하기
OpenAI와 Anthropic API에서 이미 프롬프트 캐싱을 지원합니다.
Claude의 경우 92% 캐시 히트율을 달성한 사례도 있습니다.
정리
RAG만 사용하면 → 모든 쿼리마다 DB 조회 (느리고 비쌈)
RAG + CAG 조합 → 정적 데이터는 캐싱, 동적 데이터만 검색 (빠르고 저렴)
프로덕션에서 CAG를 시도해보세요! 🚀