⚡인사이트

RAG vs CAG: 더 빠르고 저렴한 AI 검색 방법

정적 데이터는 캐싱하고 동적 데이터만 검색하는 CAG로 RAG의 비용과 속도 문제를 해결하는 방법

#RAG#CAG#프롬프트캐싱#LLM최적화

RAG의 문제점

RAG(Retrieval-Augmented Generation)는 AI가 외부 데이터를 검색해 답변하는 기술입니다.

하지만 큰 문제가 있습니다:

▸모든 질문마다 벡터 DB를 조회합니다

▸몇 달간 변하지 않은 정적 정보도 매번 검색합니다

▸이는 **비용이 많이 들고 느립니다**

Cache-Augmented Generation(CAG)는 이 문제를 해결합니다.

정적 정보를 모델의 KV 메모리에 한 번만 캐싱하여 매번 검색하지 않도록 합니다.

지식을 두 가지 레이어로 분리합니다:

▸회사 정책, 문서화 자료

▸자주 변하지 않는 정보

▸모델의 KV 메모리에 한 번 저장

▸최근 업데이트

▸실시간 문서

▸RAG로 필요할 때마다 검색

✅ 더 빠른 추론 속도

✅ 비용 절감

✅ 중복 제거

⚠️ 모든 것을 캐싱하면 컨텍스트 한계에 도달합니다.

선택적으로 캐싱하세요:

▸정적이고 가치 있는 지식만

▸거의 변하지 않는 정보만

▸"콜드" 데이터와 "핫" 데이터를 구분

OpenAI와 Anthropic API에서 이미 프롬프트 캐싱을 지원합니다.

Claude의 경우 92% 캐시 히트율을 달성한 사례도 있습니다.

RAG만 사용하면 → 모든 쿼리마다 DB 조회 (느리고 비쌈)

RAG + CAG 조합 → 정적 데이터는 캐싱, 동적 데이터만 검색 (빠르고 저렴)

프로덕션에서 CAG를 시도해보세요! 🚀