RHEL8 + CUDA + pytorch Power9 AC922-on (4xV100 GPU)

tesztelni akarok cegen belul valamit, es fizikailag ezekhez volt a legkonnyebb hozzafernem (alltak a sajat rackemben :)), de elvileg a heten lesz par A100-as gep is - ott mar nincs semmi szivas, mivel azok AMD-vel vannak.

powerre nincs friss pytorch sem, igy jegyzetkent leirom ide a lepeseket, hogy ha legkozelebb kene, meglegyen. meg persze ha masnak kene, hasznalja, de nem tudom mennyi A922 rohangalhat a szabadban olyanoknal, akik magyarul olvasnak blogokat.

jelenleg 11.7-es CUDA-t rakunk pytorch miatt, es csak RHEL8.6 tamogatott, a CUDA12 + RHEL 8.7 majd kesobb jon, masik pytorch verzioban (a legujabb, par napos nvidia driver mar tamogatja a 8.7-es RHEL-t POWER8-on)

CUDA:

subscription-manager release --set=8.6
dnf install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
subscription-manager repos --enable=rhel-8-for-ppc64le-appstream-rpms
subscription-manager repos --enable=rhel-8-for-ppc64le-baseos-rpms
subscription-manager repos --enable=codeready-builder-for-rhel-8-ppc64le-rpms
dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/ppc64le/cuda-rhel8.repo
dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
dnf module install nvidia-driver:515-dkms (fontos, hogy 515-os legyen, a 11.7-es CUDA verzioval stimmelnie kell)
systemctl --now enable nvidia-persistenced
udev-ben memory hotplug konfigot ki kell irtani
reboot
nvidia-smi (csak hogy ellenorizzuk tenyleg minden klappol-e)
yum install cuda-11-7
yum install libnccl-devel-2.14.3-1+cuda11.7 libnccl-2.14.3-1+cuda11.7

conda + pytorch + vision:

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-ppc64le.sh
chmod u+x Miniconda3-latest-Linux-ppc64le.sh
./Miniconda3-latest-Linux-ppc64le.sh
conda create -n pytorch
conda activate pytorch
conda install cmake ninja
export CMAKE_PREFIX_PATH=${CONDA_PREFIX:-"$(dirname $(which conda))/../"}
export CUDA_HOME=/usr/local/cuda-11.7
export PATH=$PATH:/usr/local/cuda/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib:/usr/local/lib
export CPLUS_INCLUDE_PATH=/usr/local/cuda/include
mkdir ~/build
cd ~/build
git clone --recursive https://github.com/pytorch/pytorch
git checkout release/1.13
pip install -r requirements.txt
git submodule sync
git submodule update --init --recursive
python setup.py develop
cd ~/build
yum install libpng-devel libjpeg-devel
git clone https://github.com/pytorch/vision
python setup.py install

Hozzászólások

Dolgoztam ilyennel pár évig meg ennek az elődjével  is (talán SC822L ?). Így kellett rá mindent feltaknyolni akkor is. Miért nem Ubuntu-ztok? Az emlékeim szerint egy fokkal jobban volt támogatva....

Meglepett, hogy van PowerPC-re is conda :O

Nice. Végre valami normális számítógép.

"Maradt még 2 kB-om. Teszek bele egy TCP-IP stacket és egy bootlogót. "