인사이트

RAG vs CAG: 더 빠르고 저렴한 AI 검색 방법

정적 데이터는 캐싱하고 동적 데이터만 검색하는 CAG로 RAG의 비용과 속도 문제를 해결하는 방법

원본 링크
#RAG#CAG#프롬프트캐싱#LLM최적화

RAG의 문제점

RAG(Retrieval-Augmented Generation)는 AI가 외부 데이터를 검색해 답변하는 기술입니다.

하지만 큰 문제가 있습니다:

모든 질문마다 벡터 DB를 조회합니다
몇 달간 변하지 않은 정적 정보도 매번 검색합니다
이는 **비용이 많이 들고 느립니다**

CAG란?

Cache-Augmented Generation(CAG)는 이 문제를 해결합니다.

정적 정보를 모델의 KV 메모리에 한 번만 캐싱하여 매번 검색하지 않도록 합니다.

RAG + CAG 조합 전략

지식을 두 가지 레이어로 분리합니다:

📌 정적 데이터 (캐싱)

회사 정책, 문서화 자료
자주 변하지 않는 정보
모델의 KV 메모리에 한 번 저장

🔄 동적 데이터 (검색)

최근 업데이트
실시간 문서
RAG로 필요할 때마다 검색

장점

더 빠른 추론 속도

비용 절감

중복 제거

주의사항

⚠️ 모든 것을 캐싱하면 컨텍스트 한계에 도달합니다.

선택적으로 캐싱하세요:

정적이고 가치 있는 지식만
거의 변하지 않는 정보만
"콜드" 데이터와 "핫" 데이터를 구분

바로 시작하기

OpenAI와 Anthropic API에서 이미 프롬프트 캐싱을 지원합니다.

Claude의 경우 92% 캐시 히트율을 달성한 사례도 있습니다.

정리

RAG만 사용하면 → 모든 쿼리마다 DB 조회 (느리고 비쌈)

RAG + CAG 조합 → 정적 데이터는 캐싱, 동적 데이터만 검색 (빠르고 저렴)

프로덕션에서 CAG를 시도해보세요! 🚀