오픈소스 AI 모델 — ChatGPT 없이도 내 PC에서 무료로 돌릴 수 있습니다. Llama 3·Mistral·Phi-3의 성능 비교와 Ollama로 5분 만에 로컬 AI를 구축하는 방법을 완전 정리합니다.
오픈소스 AI 모델을 써야 하는 이유
- 비용 제로: API 사용료 없이 무제한 사용
- 프라이버시: 데이터가 외부 서버로 나가지 않음 (사내 기밀·개인정보 처리 가능)
- 커스터마이징: 파인튜닝으로 특정 도메인에 최적화
- 오프라인 사용: 인터넷 없이도 작동
2026년 주요 오픈소스 AI 모델 비교
| 모델 | 개발사 | 파라미터 | 라이선스 | 특징 |
|---|---|---|---|---|
| Llama 3.1 8B/70B | Meta | 8B / 70B | Meta Llama 3 License (상업 허용) | 범용 성능 1위권, 긴 컨텍스트(128K) |
| Mistral 7B / Mixtral 8x7B | Mistral AI | 7B / 46B MoE | Apache 2.0 | 경량 고성능, 코드 능력 탁월 |
| Phi-3 mini/medium | Microsoft | 3.8B / 14B | MIT License | 초소형 고성능, 모바일·엣지 적합 |
| Qwen2.5 7B/72B | Alibaba | 7B / 72B | Qwen License | 한국어·중국어·코딩 강함 |
| Gemma 2 9B/27B | 9B / 27B | Gemma Terms | 안전성·다국어 우수 |
모델별 용도 추천
Llama 3.1 8B — 범용 1순위
Meta가 2024년 출시한 Llama 3.1은 8B(80억 파라미터) 모델에서 GPT-3.5를 넘어서는 성능을 보여줍니다. 128K 토큰 컨텍스트 창으로 긴 문서 분석이 가능합니다. 8B는 RTX 3060 이상(8GB VRAM)에서 실행 가능합니다.
Mistral 7B — 코딩·경량
같은 7B 규모에서 가장 뛰어난 코딩 성능을 보입니다. Apache 2.0 라이선스로 상업적 사용이 자유롭습니다. Mixtral 8x7B는 MoE(Mixture of Experts) 구조로 46B 규모지만 추론 속도는 13B 수준입니다.
Phi-3 mini (3.8B) — 초저사양
3.8B이지만 영어 기준 7B 모델과 맞먹는 성능입니다. 4GB RAM 스마트폰에서도 실행 가능합니다. 라즈베리파이·임베디드 디바이스에서 AI를 구현할 때 최선택입니다.
Qwen2.5 — 한국어·코딩
한국어 처리 성능이 Llama 3를 능가합니다. 코딩 특화 버전(Qwen2.5-Coder)도 있습니다. 한국어 챗봇·문서 처리를 로컬에서 구현할 때 추천합니다.
Ollama로 5분 만에 로컬 AI 구축
설치 방법 (Windows/Mac/Linux)
- Ollama 다운로드:
https://ollama.com→ OS에 맞는 설치 파일 다운로드 - 설치: 설치 파일 실행 (Windows: .exe, Mac: .dmg)
- 모델 다운로드: 터미널에서
ollama pull llama3.1 - 실행:
ollama run llama3.1
# 모델 목록 확인
ollama list
# 모델 실행 (대화 모드)
ollama run llama3.1
# API 서버로 실행 (localhost:11434)
ollama serve
# curl로 API 호출
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1",
"prompt": "안녕하세요! 간단히 자기소개 해주세요."
}'
필요 하드웨어 사양 가이드
| 모델 크기 | 최소 VRAM | 권장 VRAM | CPU 전용 |
|---|---|---|---|
| 3~4B (Phi-3 mini) | 4GB | 6GB | 가능 (느림) |
| 7~8B (Llama 3.1 8B) | 8GB | 10GB | 가능 (매우 느림) |
| 13B | 16GB | 24GB | 비실용적 |
| 70B (Llama 3.1 70B) | 40GB (A100) | 80GB | 불가 |
VRAM이 부족하면 Ollama가 자동으로 4비트 양자화(quantization)를 적용해 절반 이하 VRAM으로 실행합니다. RTX 3060(12GB)이면 Llama 3.1 8B를 Q4_K_M 양자화로 빠르게 실행 가능합니다.
Open WebUI — ChatGPT 같은 UI로 사용
Ollama만으로는 터미널에서만 사용 가능합니다. Open WebUI를 설치하면 브라우저에서 ChatGPT와 동일한 UI로 사용할 수 있습니다.
# Docker로 Open WebUI 설치 (가장 간단)
docker run -d -p 3000:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main
# 브라우저에서 접속: http://localhost:3000
파인튜닝 — 내 데이터로 커스텀 모델 만들기
LoRA(Low-Rank Adaptation) 기법으로 RTX 3090 한 장으로도 7B 모델 파인튜닝이 가능합니다. Hugging Face의 TRL 라이브러리와 Unsloth 라이브러리로 사내 문서·FAQ 데이터셋으로 특화 모델을 만들 수 있습니다.
오픈소스 AI 모델 선택 결론
- 범용 한국어: Qwen2.5 7B 또는 Llama 3.1 8B
- 코딩: Qwen2.5-Coder 또는 Mistral 7B
- 저사양 PC: Phi-3 mini 3.8B
- 고성능 필요: Llama 3.1 70B (A100 필요)
답글 남기기