走啊走
加油

阿里云ECS CentOS系统如何搭建机器学习环境?

服务器价格表

在阿里云ECS上使用CentOS系统搭建机器学习环境,主要步骤包括:系统更新、安装Python环境、安装GPU驱动(如需)、安装深度学习框架等。以下是详细步骤:


✅ 一、准备工作

  1. 购买并登录ECS实例

    • 选择 CentOS 7 或 CentOS 8 系统。
    • 推荐配置:至少 4核CPU + 8GB内存,若需GPU训练,选择带NVIDIA GPU的实例(如gn6i、gn6v等)。
    • 使用 SSH 登录到服务器:
      ssh root@your-ecs-public-ip
  2. 更新系统

    sudo yum update -y

✅ 二、安装Python环境(推荐使用 Anaconda)

Anaconda 是最常用的 Python 数据科学和机器学习发行版。

  1. 下载并安装 Miniconda(轻量版 Anaconda)

    # 下载 Miniconda 安装脚本(以 Python 3.9 为例)
    wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
    
    # 安装 Miniconda
    bash Miniconda3-latest-Linux-x86_64.sh

    按提示操作,接受许可协议,选择安装路径(默认 /root/miniconda3),最后重启终端或运行:

    source ~/.bashrc
  2. 创建虚拟环境(可选但推荐)

    conda create -n ml-env python=3.9
    conda activate ml-env

✅ 三、安装机器学习常用库

pip install numpy pandas matplotlib scikit-learn jupyter

✅ 四、安装深度学习框架(如 PyTorch 或 TensorFlow)

方式1:安装 PyTorch(支持GPU)

前往 https://pytorch.org/get-started/locally/ 获取最新命令。

示例(CUDA 11.8):

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

方式2:安装 TensorFlow(支持GPU)

注意:TensorFlow 对 CUDA 和 cuDNN 版本要求严格,建议使用容器方式或 Conda 安装。

# 使用 pip 安装 TensorFlow(CPU版简单)
pip install tensorflow

# 或使用 conda 安装(更易管理依赖)
conda install tensorflow-gpu  # 需要先配置 NVIDIA 驱动和 CUDA

✅ 五、(可选)安装 NVIDIA GPU 驱动与 CUDA(仅限GPU实例)

  1. 检查是否为GPU实例

    lspci | grep -i nvidia
  2. 安装 EPEL 源

    sudo yum install epel-release -y
  3. 安装开发工具

    sudo yum groupinstall "Development Tools" -y
  4. 禁用 Nouveau 驱动

    sudo vi /etc/modprobe.d/blacklist.conf

    添加:

    blacklist nouveau
    options nouveau modeset=0

    然后更新 initramfs:

    sudo dracut --force
  5. 重启系统

    sudo reboot
  6. 安装 NVIDIA 驱动

    sudo yum install -y gcc kernel-devel kernel-headers acpid
    sudo systemctl start acpid

    下载驱动(从 NVIDIA官网 找对应型号):

    wget http://us.download.nvidia.com/XFree86/Linux-x86_64/xxx.xx/NVIDIA-Linux-x86_64-xxx.xx.run
    chmod +x NVIDIA-Linux-x86_64-xxx.xx.run
    sudo ./NVIDIA-Linux-x86_64-xxx.xx.run
  7. 安装 CUDA Toolkit
    参考:CUDA Installation Guide for Linux

    wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
    sudo sh cuda_11.8.0_520.61.05_linux.run

    安装时取消勾选驱动(已安装),只安装 CUDA Toolkit。

  8. 配置环境变量

    echo 'export PATH=/usr/local/cuda-11.8/bin:$PATH' >> ~/.bashrc
    echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
    source ~/.bashrc
  9. 验证 GPU 是否可用

    import torch
    print(torch.cuda.is_available())  # 应输出 True

✅ 六、安装 Jupyter Notebook(远程访问)

  1. 安装 Jupyter

    pip install jupyter
  2. 生成配置文件

    jupyter notebook --generate-config
  3. 生成密码(推荐)

    jupyter notebook password
  4. 启动 Jupyter(允许远程访问)

    jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root
  5. 安全组设置

    • 在阿里云控制台,进入 ECS 实例安全组,添加规则:
      • 协议类型:自定义 TCP
      • 端口范围:8888
      • 授权对象:0.0.0.0/0(或指定 IP)
  6. 访问地址:

    http://<ECS公网IP>:8888

✅ 七、其他推荐工具

  • Docker:便于环境隔离和部署

    sudo yum install -y docker
    sudo systemctl start docker
    sudo systemctl enable docker
  • 使用官方镜像(如 NVIDIA NGC)
    例如:

    docker run --gpus all -it -p 8888:8888 nvcr.io/nvidia/pytorch:23.10-py3

✅ 总结

步骤 内容
1 更新系统,安装基础工具
2 安装 Anaconda/Miniconda
3 创建虚拟环境,安装机器学习库
4 (GPU)安装 NVIDIA 驱动 + CUDA
5 安装 PyTorch/TensorFlow
6 部署 Jupyter 远程访问

如有更多需求(如部署 Flask API、使用 Ray、监控 GPU 使用等),可进一步扩展。

需要我提供一键安装脚本或自动化部署方案吗?