hpcx
更新时间:2023-11-27 09:17:41
AI 平台,一个虚拟化平台,基于docker搭建,适用于ai 训练、gpu 加速计算的平台。
一、使用说明
##1、共享目录为 “/用户名目录” ,注意在当前用户下,创建的所有开发环境共享目录为同一个
##2、网络支持ib,ib驱动存在于物理机上,当前镜像内没有,调用时可用通过指定网卡的方式调用
##3、因网络驱动存在于物理机,不建议使用源码编译mpi,可以使用hpc-x环境安装mpi的方式来替代
二、平台基本操作
参考浪潮普通用户操作手册
AI平台mpi使用—hpc-x
https://developer.nvidia.com/networking/hpc-x ### 下载地址
安装步骤
cd hpcx export HPCX_HOME=$PWD
根据当前环境编译openmpi
$ tar xfp ${HPCX_HOME}/sources/openmpi-gitclone.tar.gz $ cd ${HPCX_HOME}/sources/openmpi-gitclone $ ./configure CC=icc CXX=icpc F77=ifort FC=ifort --prefix=${HPCX_HOME}/ompi-icc \ --with-hcoll=${HPCX_HOME}/hcoll \ --with-ucx=${HPCX_HOME}/ucx \ --with-platform=contrib/platform/mellanox/optimized \ 2>&1 | tee config-icc-output.log $ make -j32 all 2>&1 | tee build_icc.log && make -j24 install 2>&1 | tee install_icc.log
激活hpc-x
export HPCX_HOME=$PWD
cd hpcx-v2.12-gcc-MLNX_OFED_LINUX-5-ubuntu18.04-cuda11-gdrcopy2-nccl2.12-x86_64/
source hpcx-init.sh
hpcx_load
##module 方式加载
module use $HPCX_HOME/modulefiles
module load hpcx
mpirun命令参数
QUDA_ENABLE_P2P=3 /yangybai11/hpcx-v2.12-gcc-MLNX_OFED_LINUX-5-ubuntu18.04-cuda11-gdrcopy2-nccl2.12-x86_64/ompi/bin/mpirun --allow-run-as-root -np 16 --host 192.208.79.37:8,192.224.8.14:8 -bind-to none -map-by slot -x LD_LIBRARY_PATH -x HOROVOD_MPI_THREADS_DISABLE=1 -x PATH -mca pml ucx -x NCCL_DEBUG=INFO -x NCCL_TREE_THRESHOLD=0 -x UCX_LOG_LEVEL=info ./hmc -i s1.0_restart_37540.xml -geom 1 2 2 4
##--allow-run-as-root root 执行mpirun
## -mca pml ucx UCX 与 OpenSHMEM 显式使用
##
/etc/hosts ##跨节点作业时,可能需要ssh 各节点之间的连接
~/.ssh/known_hosts
注意:这个平台网络存在于物理机上,在实例环境中访问存在问题,使用 https://developer.nvidia.com/networking/hpc-x
https://content.mellanox.com/hpc/hpc-x/v2.12/hpcx-v2.12-gcc-MLNX_OFED_LINUX-5-ubuntu18.04-cuda11-gdrcopy2-nccl2.12-x86_64.tbz