Giới Thiệu

Ollama là một nền tảng giúp bạn chạy các mô hình trí tuệ nhân tạo (AI) ngay trên máy tính cá nhân hoặc server của mình. Để đảm bảo hiệu suất tốt nhất, bạn cần một cấu hình phần cứng phù hợp với yêu cầu của từng model. Trong bài viết này, chúng ta sẽ tìm hiểu các yêu cầu phần cứng và cách tối ưu hệ thống để chạy Ollama hiệu quả nhất.

Dung Lượng Các Mô Hình AI Local

ModelParametersSizeDownload Command
Llama 3.18B4.7GBollama run llama3.1
Llama 3.170B40GBollama run llama3.1:70b
Llama 3.1405B231GBollama run llama3.1:405b
Phi 3 Mini3.8B2.3GBollama run phi3
Phi 3 Medium14B7.9GBollama run phi3:medium
Gemma 22B1.6GBollama run gemma2:2b
Gemma 29B5.5GBollama run gemma2
Gemma 227B16GBollama run gemma2:27b
Mistral7B4.1GBollama run mistral
Moondream1.4B829MBollama run moondream
Neural Chat7B4.1GBollama run neural-chat
Starling7B4.1GBollama run starling-lm
Code Llama7B3.8GBollama run codellama
Llama 2 Uncensored7B3.8GBollama run llama2-uncensored
LLaVA7B4.5GBollama run llava
Solar10.7B6.1GBollama run solar

1. Yêu Cầu Phần Cứng Cơ Bản

Các mô hình AI, đặc biệt là các model ngôn ngữ lớn (LLMs) như LLaMA, Mistral, hay Phi, yêu cầu tài nguyên hệ thống lớn. Dưới đây là các yếu tố quan trọng bạn cần xem xét:

a) Bộ Vi Xử Lý (CPU)

  • Đối với các model nhỏ (dưới 3B tham số): CPU mạnh có thể xử lý tốt.
  • Đối với model lớn hơn (7B – 13B tham số): Nên có CPU có nhiều lõi và hỗ trợ AVX2 hoặc AVX-512 để tối ưu tốc độ xử lý.
  • Khuyến nghị: Intel Core i7/i9 hoặc AMD Ryzen 7/9 (thế hệ mới nhất).

b) Bộ Nhớ RAM

  • Model nhỏ: Tối thiểu 8GB RAM.
  • Model trung bình (7B – 13B): Tối thiểu 16GB RAM.
  • Model lớn (30B+): 32GB – 64GB RAM hoặc cao hơn.
  • Nếu sử dụng SWAP (bộ nhớ ảo), nên có SSD tốc độ cao.

c) Card Đồ Họa (GPU)

GPU giúp tăng tốc quá trình suy luận của model. Nếu có GPU mạnh, tốc độ xử lý sẽ nhanh hơn nhiều.

  • GPU tối thiểu: NVIDIA RTX 2060 (6GB VRAM)
  • Khuyến nghị: NVIDIA RTX 3090, RTX 4090 hoặc A100 nếu xử lý model rất lớn.
  • Hỗ trợ CUDA: Ollama hiện chủ yếu hỗ trợ GPU NVIDIA với CUDA, nên kiểm tra trước khi sử dụng AMD GPU.

d) Lưu Trữ (SSD vs HDD)

  • SSD NVMe tốc độ cao giúp tăng tốc độ tải model.
  • HDD không phù hợp vì tốc độ đọc/ghi chậm.
  • Dung lượng lưu trữ tối thiểu: 256GB SSD, khuyến nghị 1TB SSD nếu sử dụng nhiều model.
Model VersionVRAM (GPU)RAM (CPU)Storage
1.5B4GB+8GB+5GB
7B12GB+16GB+10GB
8B16GB+32GB+15GB
14B24GB+64GB+30GB
32B48GB+128GB+60GB
70B80GB+256GB+120GB
671B (MoE)4x A100 GPUs (320GB VRAM)512GB+500GB+

2. Cách Tối Ưu Hệ Thống Để Chạy Ollama

a) Cài Đặt Driver GPU Mới Nhất

Nếu sử dụng GPU NVIDIA, hãy đảm bảo bạn đã cài driver và CUDA mới nhất:

sudo apt update && sudo apt upgrade -y
sudo apt install nvidia-driver-<version>
sudo apt install cuda

b) Sử Dụng SWAP Nếu RAM Hạn Chế

Nếu RAM không đủ, bạn có thể tạo bộ nhớ swap:

sudo fallocate -l 16G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

Thêm vào /etc/fstab để kích hoạt vĩnh viễn:

/swapfile none swap sw 0 0

c) Giảm Tải Model Nếu GPU/RAM Yếu

  • Sử dụng 4-bit quantization để giảm tải model:
ollama run <model> --quantization 4-bit
  • Sử dụng GGUF format cho model nhẹ hơn.

d) Giám Sát Hiệu Năng

Bạn có thể kiểm tra tài nguyên hệ thống với các lệnh:

  • Kiểm tra RAM: free -h
  • Kiểm tra CPU: htop
  • Kiểm tra GPU: nvidia-smi

Kết Luận

Việc chạy model AI trên Ollama yêu cầu một cấu hình phần cứng phù hợp. Nếu bạn muốn có hiệu suất tốt, hãy đảm bảo CPU, GPU, RAM và SSD đủ mạnh. Nếu không, bạn có thể tối ưu hệ thống bằng cách sử dụng quantization, swap, và giám sát tài nguyên.

Hy vọng bài viết này giúp bạn chọn được phần cứng phù hợp để chạy Ollama hiệu quả nhất!