🚀오픈소스

Google TurboQuant, MLX로 구현하여 KV 캐시 4.9배 압축 성공

Google의 TurboQuant를 MLX에 구현하여 정확도 손실 없이 KV 캐시를 최대 4.9배 압축한 실험 결과

#TurboQuant#MLX#KV캐시#양자화

Google TurboQuant MLX 구현 성공

Google의 TurboQuant 알고리즘을 Apple의 MLX 프레임워크로 구현한 실험 결과가 공개되었습니다.

테스트 환경

▸모델: Qwen3.5-35B-A3B

▸컨텍스트 길이: 8.5K, 32.7K, 64.2K

▸테스트: Needle-in-a-haystack (긴 문맥에서 정보 찾기)

성능 지표

▸✅ 모든 양자화 레벨에서 6/6 정확도 달성

▸🎯 TurboQuant 2.5-bit: KV 캐시 4.9배 압축

▸🎯 TurboQuant 3.5-bit: KV 캐시 3.8배 압축

▸⭐ **정확도 손실 제로**: 전체 KV 캐시와 동일한 성능

Google Research가 개발한 LLM의 KV(Key-Value) 캐시 압축 알고리즘입니다. LLM이 긴 문맥을 처리할 때 메모리 사용량을 획기적으로 줄이면서도 성능은 그대로 유지합니다.

이번 구현으로 Apple Silicon에서도 대규모 언어 모델을 더 효율적으로 실행할 수 있게 되었으며, 메모리 제약이 있는 환경에서도 긴 컨텍스트 처리가 가능해졌습니다.