🤖가이드

Mac에서 AI 로컬로 돌리기 - Ollama + Gemma 4 셋업

클라우드 API 비용 부담 없이 Mac Mini로 구글의 Gemma 4 AI 모델을 로컬에서 실행하는 완벽 가이드

↗ 원본 링크

#Ollama#Gemma4#로컬AI#Mac#MoE

왜 로컬 AI인가?

클라우드 API 비용이 부담되거나 데이터 프라이버시가 중요하다면, 로컬 AI가 답입니다. 구글의 Gemma 4는 26B 파라미터지만 실제로는 3.8B만 활성화되는 MoE 구조로 Mac에서도 빠르게 돌아갑니다.

비용 비교

▸

클라우드 API: 월 $30~150+ (일 100회 기준)

▸

로컬 Ollama: 전기세만 월 $3~5

▸

데이터: 내 Mac에서 완결, 외부 전송 없음

▸

속도: 20~30 tok/s, 네트워크 지연 없음

10분 셋업 가이드

1. Ollama 설치

bash

brew install --cask ollama-app
open -a Ollama

메뉴바에 아이콘이 뜨면 성공입니다.

2. Gemma 4 모델 다운로드

bash

ollama pull gemma4:26b

약 18GB를 다운로드합니다 (5분 소요).

3. 테스트

bash

ollama run gemma4:26b "안녕하세요"

응답이 오면 정상 작동입니다.

4. OpenAI 호환 API 사용

Ollama는 자동으로 localhost:11434에 API 서버를 띄웁니다. 기존 OpenAI API 코드에서 URL만 바꾸면 바로 사용 가능합니다.

python

import openai

client = openai.OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 더미 값
)

response = client.chat.completions.create(
    model="gemma4:26b",
    messages=[{"role": "user", "content": "안녕"}]
)

하드웨어 요구사항

▸

26B 모델: 최소 32GB 통합 메모리 권장

▸

16GB Mac: `gemma4:e4b` (4.5B) 모델 사용

▸

메모리 사용량: 약 15~18GB (Q4_K_M 양자화)

Gemma 4가 특별한 이유

MoE(Mixture of Experts) 구조

▸총 26B 파라미터 중 3.8B만 활성화

▸128개 전문가 네트워크 중 필요한 것만 사용

▸26B 성능을 4B 속도로 실행

성능 지표

▸AIME 2026 수학: 88.3%

▸MMLU Pro: 82.6%

▸Arena AI 텍스트 리더보드: #6

▸컨텍스트 윈도우: 256K

라이선스

▸Apache 2.0 - 상업적 사용 가능

▸오픈 웨이트 모델

언제 사용하면 좋을까?

✅ 로컬 AI가 적합한 경우

▸민감한 데이터 처리

▸반복적인 자동화 작업

▸API 비용 절감이 필요한 프로토타이핑

▸오프라인 환경

❌ 클라우드 API가 나은 경우

▸최고 수준의 성능이 필요할 때

▸하드웨어 투자가 어려울 때

▸가끔씩만 사용할 때

자동 시작 설정 (선택)

시스템 부팅 시 Ollama가 자동으로 시작되도록 설정하려면:

1.시스템 설정 > 일반 > 로그인 항목

2.Ollama 앱 추가

모델을 항상 메모리에 로드해두려면:

bash

# ~/.zshrc 또는 ~/.bashrc에 추가
export OLLAMA_KEEP_ALIVE=-1

마무리

10분 투자로 프라이버시는 지키고 비용은 줄이는 AI 환경을 구축할 수 있습니다. HN에서 322포인트를 받은 이유를 직접 확인해보세요.