在阿里云的 4核8G 服务器上部署 Ollama 是完全可行的,但具体能否流畅运行、支持哪些模型,取决于你选择的大语言模型(LLM)大小和配置优化。以下是一个详细的部署指南和建议:
✅ 一、环境准备
1. 服务器配置
- 实例规格:ECS 4核CPU + 8GB内存(如 ecs.c6.large)
- 操作系统:推荐 Ubuntu 20.04 / 22.04 LTS(64位)
- 磁盘:系统盘至少 40GB SSD,若要加载大模型建议挂载额外数据盘(100GB+)
⚠️ 注意:8GB 内存限制较大模型的加载,建议使用量化版模型(如 GGUF 格式)。
✅ 二、安装 Ollama
# 下载并安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 启动 Ollama 服务
systemctl start ollama
# 设置开机自启
systemctl enable ollama
安装脚本会自动添加用户到
ollama组,并配置 systemd 服务。
✅ 三、配置 Ollama(可选优化)
1. 修改配置文件(提高稳定性)
编辑 systemd 配置以避免内存不足崩溃:
sudo systemctl edit ollama
输入以下内容(限制内存使用,防止OOM):
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_NUM_PARALLEL=1"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
MemoryLimit=6G
保存后重启服务:
sudo systemctl daemon-reexec
sudo systemctl restart ollama
2. 开放防火墙端口
默认端口是 11434,需在阿里云控制台安全组中开放:
- 协议类型:TCP
- 端口范围:
11434 - 授权对象:
0.0.0.0/0(或按需限制IP)
✅ 四、拉取并运行模型(推荐轻量级模型)
由于只有 8GB 内存,建议使用 7B 参数级别的量化模型(GGUF 或 llama.cpp 支持的格式):
推荐模型(适合 8GB RAM):
| 模型 | 特点 | 内存占用 |
|---|---|---|
llama3:8b-instruct-q4_K_M |
Meta Llama3 8B 量化版 | ~5-6GB |
qwen:7b-chat-q4_K_M |
通义千问7B 量化版 | ~5GB |
mistral:7b-instruct-q4_K_M |
Mistral 7B 轻量高效 | ~5GB |
phi3:mini |
微软 Phi-3 Mini (3.8B) | ~3.5GB(非常适合) |
示例:运行通义千问 Qwen 7B 量化版
ollama run qwen:7b-chat-q4_K_M
或使用 API 方式调用:
curl http://localhost:11434/api/generate -d '{
"model": "qwen:7b-chat-q4_K_M",
"prompt": "你好,请介绍一下你自己"
}'
✅ 五、远程访问设置
允许外部通过公网 IP 调用 API:
# 设置监听所有地址(已在上面 environment 中设置)
export OLLAMA_HOST=0.0.0.0:11434
然后通过公网 IP 访问:
http://<你的阿里云公网IP>:11434/api/generate
🔐 建议配合 Nginx + HTTPS + Basic Auth 做安全防护,避免暴露在公网被滥用。
✅ 六、性能优化建议
-
启用 Swap(虚拟内存)
sudo fallocate -l 4G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile添加到
/etc/fstab永久生效。 -
关闭不必要的服务,释放内存资源。
-
使用
htop监控内存和 CPU 使用情况。
❌ 不推荐运行的模型
llama3:70b、mixtral:8x22b等超大模型(需要 32GB+ RAM)- 非量化模型(如 full float16 的 7B 模型可能占 14GB+)
✅ 七、进阶:结合 Web UI(可选)
可以搭配前端工具提升体验:
- Open WebUI(原 Ollama WebUI)
- 使用 Docker 部署:
docker run -d -p 3000:8080
-e OLLAMA_BASE_URL=http://<你的内网IP>:11434
--name open-webui
ghcr.io/open-webui/open-webui:main
✅ 总结
| 项目 | 建议 |
|---|---|
| 服务器 | 阿里云 4核8G(ecs.c6.large)✅ |
| 操作系统 | Ubuntu 22.04 LTS ✅ |
| 可运行模型 | 7B 级别量化模型(q4_K_M)✅ |
| 不推荐 | >13B 模型或非量化模型 ❌ |
| 是否可用 | ✅ 完全可用于本地测试、轻量推理 |
如果你希望部署更强的模型(如 13B 或多模型并发),建议升级到 16GB 或 32GB 内存的实例(如 ecs.c6.xlarge 或更高)。
需要我帮你写一个一键部署脚本或配置 Open WebUI 吗?
CLOUD云计算