🤖가이드
Mac에서 AI 로컬로 돌리기 - Ollama + Gemma 4 셋업
클라우드 API 비용 부담 없이 Mac Mini로 구글의 Gemma 4 AI 모델을 로컬에서 실행하는 완벽 가이드
↗ 원본 링크#Ollama#Gemma4#로컬AI#Mac#MoE
왜 로컬 AI인가?
클라우드 API 비용이 부담되거나 데이터 프라이버시가 중요하다면, 로컬 AI가 답입니다. 구글의 Gemma 4는 26B 파라미터지만 실제로는 3.8B만 활성화되는 MoE 구조로 Mac에서도 빠르게 돌아갑니다.
비용 비교
▸
클라우드 API: 월 $30~150+ (일 100회 기준)
▸
로컬 Ollama: 전기세만 월 $3~5
▸
데이터: 내 Mac에서 완결, 외부 전송 없음
▸
속도: 20~30 tok/s, 네트워크 지연 없음
10분 셋업 가이드
1. Ollama 설치
bash
brew install --cask ollama-app
open -a Ollama메뉴바에 아이콘이 뜨면 성공입니다.
2. Gemma 4 모델 다운로드
bash
ollama pull gemma4:26b약 18GB를 다운로드합니다 (5분 소요).
3. 테스트
bash
ollama run gemma4:26b "안녕하세요"응답이 오면 정상 작동입니다.
4. OpenAI 호환 API 사용
Ollama는 자동으로 localhost:11434에 API 서버를 띄웁니다. 기존 OpenAI API 코드에서 URL만 바꾸면 바로 사용 가능합니다.
python
import openai
client = openai.OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 더미 값
)
response = client.chat.completions.create(
model="gemma4:26b",
messages=[{"role": "user", "content": "안녕"}]
)하드웨어 요구사항
▸
26B 모델: 최소 32GB 통합 메모리 권장
▸
16GB Mac: `gemma4:e4b` (4.5B) 모델 사용
▸
메모리 사용량: 약 15~18GB (Q4_K_M 양자화)
Gemma 4가 특별한 이유
MoE(Mixture of Experts) 구조
▸총 26B 파라미터 중 3.8B만 활성화
▸128개 전문가 네트워크 중 필요한 것만 사용
▸26B 성능을 4B 속도로 실행
성능 지표
▸AIME 2026 수학: 88.3%
▸MMLU Pro: 82.6%
▸Arena AI 텍스트 리더보드: #6
▸컨텍스트 윈도우: 256K
라이선스
▸Apache 2.0 - 상업적 사용 가능
▸오픈 웨이트 모델
언제 사용하면 좋을까?
✅ 로컬 AI가 적합한 경우
▸민감한 데이터 처리
▸반복적인 자동화 작업
▸API 비용 절감이 필요한 프로토타이핑
▸오프라인 환경
❌ 클라우드 API가 나은 경우
▸최고 수준의 성능이 필요할 때
▸하드웨어 투자가 어려울 때
▸가끔씩만 사용할 때
자동 시작 설정 (선택)
시스템 부팅 시 Ollama가 자동으로 시작되도록 설정하려면:
1.시스템 설정 > 일반 > 로그인 항목
2.Ollama 앱 추가
모델을 항상 메모리에 로드해두려면:
bash
# ~/.zshrc 또는 ~/.bashrc에 추가
export OLLAMA_KEEP_ALIVE=-1마무리
10분 투자로 프라이버시는 지키고 비용은 줄이는 AI 환경을 구축할 수 있습니다. HN에서 322포인트를 받은 이유를 직접 확인해보세요.