Giới Thiệu
Ollama là một nền tảng giúp bạn chạy các mô hình trí tuệ nhân tạo (AI) ngay trên máy tính cá nhân hoặc server của mình. Để đảm bảo hiệu suất tốt nhất, bạn cần một cấu hình phần cứng phù hợp với yêu cầu của từng model. Trong bài viết này, chúng ta sẽ tìm hiểu các yêu cầu phần cứng và cách tối ưu hệ thống để chạy Ollama hiệu quả nhất.
Dung Lượng Các Mô Hình AI Local
Model | Parameters | Size | Download Command |
---|---|---|---|
Llama 3.1 | 8B | 4.7GB | ollama run llama3.1 |
Llama 3.1 | 70B | 40GB | ollama run llama3.1:70b |
Llama 3.1 | 405B | 231GB | ollama run llama3.1:405b |
Phi 3 Mini | 3.8B | 2.3GB | ollama run phi3 |
Phi 3 Medium | 14B | 7.9GB | ollama run phi3:medium |
Gemma 2 | 2B | 1.6GB | ollama run gemma2:2b |
Gemma 2 | 9B | 5.5GB | ollama run gemma2 |
Gemma 2 | 27B | 16GB | ollama run gemma2:27b |
Mistral | 7B | 4.1GB | ollama run mistral |
Moondream | 1.4B | 829MB | ollama run moondream |
Neural Chat | 7B | 4.1GB | ollama run neural-chat |
Starling | 7B | 4.1GB | ollama run starling-lm |
Code Llama | 7B | 3.8GB | ollama run codellama |
Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
LLaVA | 7B | 4.5GB | ollama run llava |
Solar | 10.7B | 6.1GB | ollama run solar |
1. Yêu Cầu Phần Cứng Cơ Bản
Các mô hình AI, đặc biệt là các model ngôn ngữ lớn (LLMs) như LLaMA, Mistral, hay Phi, yêu cầu tài nguyên hệ thống lớn. Dưới đây là các yếu tố quan trọng bạn cần xem xét:
a) Bộ Vi Xử Lý (CPU)

- Đối với các model nhỏ (dưới 3B tham số): CPU mạnh có thể xử lý tốt.
- Đối với model lớn hơn (7B – 13B tham số): Nên có CPU có nhiều lõi và hỗ trợ AVX2 hoặc AVX-512 để tối ưu tốc độ xử lý.
- Khuyến nghị: Intel Core i7/i9 hoặc AMD Ryzen 7/9 (thế hệ mới nhất).
b) Bộ Nhớ RAM

- Model nhỏ: Tối thiểu 8GB RAM.
- Model trung bình (7B – 13B): Tối thiểu 16GB RAM.
- Model lớn (30B+): 32GB – 64GB RAM hoặc cao hơn.
- Nếu sử dụng SWAP (bộ nhớ ảo), nên có SSD tốc độ cao.
c) Card Đồ Họa (GPU)

GPU giúp tăng tốc quá trình suy luận của model. Nếu có GPU mạnh, tốc độ xử lý sẽ nhanh hơn nhiều.
- GPU tối thiểu: NVIDIA RTX 2060 (6GB VRAM)
- Khuyến nghị: NVIDIA RTX 3090, RTX 4090 hoặc A100 nếu xử lý model rất lớn.
- Hỗ trợ CUDA: Ollama hiện chủ yếu hỗ trợ GPU NVIDIA với CUDA, nên kiểm tra trước khi sử dụng AMD GPU.
d) Lưu Trữ (SSD vs HDD)

- SSD NVMe tốc độ cao giúp tăng tốc độ tải model.
- HDD không phù hợp vì tốc độ đọc/ghi chậm.
- Dung lượng lưu trữ tối thiểu: 256GB SSD, khuyến nghị 1TB SSD nếu sử dụng nhiều model.
Model Version | VRAM (GPU) | RAM (CPU) | Storage |
---|---|---|---|
1.5B | 4GB+ | 8GB+ | 5GB |
7B | 12GB+ | 16GB+ | 10GB |
8B | 16GB+ | 32GB+ | 15GB |
14B | 24GB+ | 64GB+ | 30GB |
32B | 48GB+ | 128GB+ | 60GB |
70B | 80GB+ | 256GB+ | 120GB |
671B (MoE) | 4x A100 GPUs (320GB VRAM) | 512GB+ | 500GB+ |
2. Cách Tối Ưu Hệ Thống Để Chạy Ollama
a) Cài Đặt Driver GPU Mới Nhất
Nếu sử dụng GPU NVIDIA, hãy đảm bảo bạn đã cài driver và CUDA mới nhất:
sudo apt update && sudo apt upgrade -y
sudo apt install nvidia-driver-<version>
sudo apt install cuda
b) Sử Dụng SWAP Nếu RAM Hạn Chế
Nếu RAM không đủ, bạn có thể tạo bộ nhớ swap:
sudo fallocate -l 16G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
Thêm vào /etc/fstab
để kích hoạt vĩnh viễn:
/swapfile none swap sw 0 0
c) Giảm Tải Model Nếu GPU/RAM Yếu
- Sử dụng 4-bit quantization để giảm tải model:
ollama run <model> --quantization 4-bit
- Sử dụng GGUF format cho model nhẹ hơn.
d) Giám Sát Hiệu Năng
Bạn có thể kiểm tra tài nguyên hệ thống với các lệnh:
- Kiểm tra RAM:
free -h
- Kiểm tra CPU:
htop
- Kiểm tra GPU:
nvidia-smi
Kết Luận
Việc chạy model AI trên Ollama yêu cầu một cấu hình phần cứng phù hợp. Nếu bạn muốn có hiệu suất tốt, hãy đảm bảo CPU, GPU, RAM và SSD đủ mạnh. Nếu không, bạn có thể tối ưu hệ thống bằng cách sử dụng quantization, swap, và giám sát tài nguyên.
Hy vọng bài viết này giúp bạn chọn được phần cứng phù hợp để chạy Ollama hiệu quả nhất!