在阿里云ECS上使用CentOS系统搭建机器学习环境,主要步骤包括:系统更新、安装Python环境、安装GPU驱动(如需)、安装深度学习框架等。以下是详细步骤:
✅ 一、准备工作
-
购买并登录ECS实例
- 选择 CentOS 7 或 CentOS 8 系统。
- 推荐配置:至少 4核CPU + 8GB内存,若需GPU训练,选择带NVIDIA GPU的实例(如gn6i、gn6v等)。
- 使用 SSH 登录到服务器:
ssh root@your-ecs-public-ip
-
更新系统
sudo yum update -y
✅ 二、安装Python环境(推荐使用 Anaconda)
Anaconda 是最常用的 Python 数据科学和机器学习发行版。
-
下载并安装 Miniconda(轻量版 Anaconda)
# 下载 Miniconda 安装脚本(以 Python 3.9 为例) wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh # 安装 Miniconda bash Miniconda3-latest-Linux-x86_64.sh按提示操作,接受许可协议,选择安装路径(默认
/root/miniconda3),最后重启终端或运行:source ~/.bashrc -
创建虚拟环境(可选但推荐)
conda create -n ml-env python=3.9 conda activate ml-env
✅ 三、安装机器学习常用库
pip install numpy pandas matplotlib scikit-learn jupyter
✅ 四、安装深度学习框架(如 PyTorch 或 TensorFlow)
方式1:安装 PyTorch(支持GPU)
前往 https://pytorch.org/get-started/locally/ 获取最新命令。
示例(CUDA 11.8):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
方式2:安装 TensorFlow(支持GPU)
注意:TensorFlow 对 CUDA 和 cuDNN 版本要求严格,建议使用容器方式或 Conda 安装。
# 使用 pip 安装 TensorFlow(CPU版简单)
pip install tensorflow
# 或使用 conda 安装(更易管理依赖)
conda install tensorflow-gpu # 需要先配置 NVIDIA 驱动和 CUDA
✅ 五、(可选)安装 NVIDIA GPU 驱动与 CUDA(仅限GPU实例)
-
检查是否为GPU实例
lspci | grep -i nvidia -
安装 EPEL 源
sudo yum install epel-release -y -
安装开发工具
sudo yum groupinstall "Development Tools" -y -
禁用 Nouveau 驱动
sudo vi /etc/modprobe.d/blacklist.conf添加:
blacklist nouveau options nouveau modeset=0然后更新 initramfs:
sudo dracut --force -
重启系统
sudo reboot -
安装 NVIDIA 驱动
sudo yum install -y gcc kernel-devel kernel-headers acpid sudo systemctl start acpid下载驱动(从 NVIDIA官网 找对应型号):
wget http://us.download.nvidia.com/XFree86/Linux-x86_64/xxx.xx/NVIDIA-Linux-x86_64-xxx.xx.run chmod +x NVIDIA-Linux-x86_64-xxx.xx.run sudo ./NVIDIA-Linux-x86_64-xxx.xx.run -
安装 CUDA Toolkit
参考:CUDA Installation Guide for Linuxwget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run sudo sh cuda_11.8.0_520.61.05_linux.run安装时取消勾选驱动(已安装),只安装 CUDA Toolkit。
-
配置环境变量
echo 'export PATH=/usr/local/cuda-11.8/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc -
验证 GPU 是否可用
import torch print(torch.cuda.is_available()) # 应输出 True
✅ 六、安装 Jupyter Notebook(远程访问)
-
安装 Jupyter
pip install jupyter -
生成配置文件
jupyter notebook --generate-config -
生成密码(推荐)
jupyter notebook password -
启动 Jupyter(允许远程访问)
jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root -
安全组设置
- 在阿里云控制台,进入 ECS 实例安全组,添加规则:
- 协议类型:自定义 TCP
- 端口范围:8888
- 授权对象:0.0.0.0/0(或指定 IP)
- 在阿里云控制台,进入 ECS 实例安全组,添加规则:
-
访问地址:
http://<ECS公网IP>:8888
✅ 七、其他推荐工具
-
Docker:便于环境隔离和部署
sudo yum install -y docker sudo systemctl start docker sudo systemctl enable docker -
使用官方镜像(如 NVIDIA NGC)
例如:docker run --gpus all -it -p 8888:8888 nvcr.io/nvidia/pytorch:23.10-py3
✅ 总结
| 步骤 | 内容 |
|---|---|
| 1 | 更新系统,安装基础工具 |
| 2 | 安装 Anaconda/Miniconda |
| 3 | 创建虚拟环境,安装机器学习库 |
| 4 | (GPU)安装 NVIDIA 驱动 + CUDA |
| 5 | 安装 PyTorch/TensorFlow |
| 6 | 部署 Jupyter 远程访问 |
如有更多需求(如部署 Flask API、使用 Ray、监控 GPU 使用等),可进一步扩展。
需要我提供一键安装脚本或自动化部署方案吗?
CLOUD云计算