🤖가이드

Mac에서 AI 로컬로 돌리기 - Ollama + Gemma 4 셋업

클라우드 API 비용 부담 없이 Mac Mini로 구글의 Gemma 4 AI 모델을 로컬에서 실행하는 완벽 가이드

원본 링크
#Ollama#Gemma4#로컬AI#Mac#MoE

왜 로컬 AI인가?

클라우드 API 비용이 부담되거나 데이터 프라이버시가 중요하다면, 로컬 AI가 답입니다. 구글의 Gemma 4는 26B 파라미터지만 실제로는 3.8B만 활성화되는 MoE 구조로 Mac에서도 빠르게 돌아갑니다.

비용 비교

클라우드 API: 월 $30~150+ (일 100회 기준)
로컬 Ollama: 전기세만 월 $3~5
데이터: 내 Mac에서 완결, 외부 전송 없음
속도: 20~30 tok/s, 네트워크 지연 없음

10분 셋업 가이드

1. Ollama 설치

bash
brew install --cask ollama-app
open -a Ollama

메뉴바에 아이콘이 뜨면 성공입니다.

2. Gemma 4 모델 다운로드

bash
ollama pull gemma4:26b

약 18GB를 다운로드합니다 (5분 소요).

3. 테스트

bash
ollama run gemma4:26b "안녕하세요"

응답이 오면 정상 작동입니다.

4. OpenAI 호환 API 사용

Ollama는 자동으로 localhost:11434에 API 서버를 띄웁니다. 기존 OpenAI API 코드에서 URL만 바꾸면 바로 사용 가능합니다.

python
import openai

client = openai.OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 더미 값
)

response = client.chat.completions.create(
    model="gemma4:26b",
    messages=[{"role": "user", "content": "안녕"}]
)

하드웨어 요구사항

26B 모델: 최소 32GB 통합 메모리 권장
16GB Mac: `gemma4:e4b` (4.5B) 모델 사용
메모리 사용량: 약 15~18GB (Q4_K_M 양자화)

Gemma 4가 특별한 이유

MoE(Mixture of Experts) 구조

총 26B 파라미터 중 3.8B만 활성화
128개 전문가 네트워크 중 필요한 것만 사용
26B 성능을 4B 속도로 실행

성능 지표

AIME 2026 수학: 88.3%
MMLU Pro: 82.6%
Arena AI 텍스트 리더보드: #6
컨텍스트 윈도우: 256K

라이선스

Apache 2.0 - 상업적 사용 가능
오픈 웨이트 모델

언제 사용하면 좋을까?

로컬 AI가 적합한 경우

민감한 데이터 처리
반복적인 자동화 작업
API 비용 절감이 필요한 프로토타이핑
오프라인 환경

클라우드 API가 나은 경우

최고 수준의 성능이 필요할 때
하드웨어 투자가 어려울 때
가끔씩만 사용할 때

자동 시작 설정 (선택)

시스템 부팅 시 Ollama가 자동으로 시작되도록 설정하려면:

1.시스템 설정 > 일반 > 로그인 항목
2.Ollama 앱 추가

모델을 항상 메모리에 로드해두려면:

bash
# ~/.zshrc 또는 ~/.bashrc에 추가
export OLLAMA_KEEP_ALIVE=-1

마무리

10분 투자로 프라이버시는 지키고 비용은 줄이는 AI 환경을 구축할 수 있습니다. HN에서 322포인트를 받은 이유를 직접 확인해보세요.