🚀오픈소스
Google TurboQuant, MLX로 구현하여 KV 캐시 4.9배 압축 성공
Google의 TurboQuant를 MLX에 구현하여 정확도 손실 없이 KV 캐시를 최대 4.9배 압축한 실험 결과
↗ 원본 링크#TurboQuant#MLX#KV캐시#양자화
Google TurboQuant MLX 구현 성공
Google의 TurboQuant 알고리즘을 Apple의 MLX 프레임워크로 구현한 실험 결과가 공개되었습니다.
주요 실험 결과
테스트 환경
▸모델: Qwen3.5-35B-A3B
▸컨텍스트 길이: 8.5K, 32.7K, 64.2K
▸테스트: Needle-in-a-haystack (긴 문맥에서 정보 찾기)
성능 지표
▸✅ 모든 양자화 레벨에서 6/6 정확도 달성
▸🎯 TurboQuant 2.5-bit: KV 캐시 4.9배 압축
▸🎯 TurboQuant 3.5-bit: KV 캐시 3.8배 압축
▸⭐ **정확도 손실 제로**: 전체 KV 캐시와 동일한 성능
TurboQuant란?
Google Research가 개발한 LLM의 KV(Key-Value) 캐시 압축 알고리즘입니다. LLM이 긴 문맥을 처리할 때 메모리 사용량을 획기적으로 줄이면서도 성능은 그대로 유지합니다.
의미
이번 구현으로 Apple Silicon에서도 대규모 언어 모델을 더 효율적으로 실행할 수 있게 되었으며, 메모리 제약이 있는 환경에서도 긴 컨텍스트 처리가 가능해졌습니다.