본문 바로가기

IT/리눅스

도커 컨테이너에서 cuda 동작 오류 해결(nvidia docker, container, cuda, 컨테이너 생성 옵션)

반응형

export/import를 통해서 컨테이너를 백업하고 복원할 때 
잘 돌아가던 nvidia docker 컨테이너가 갑자기 gpu가 동작하지 않을 때가 있다.


1. gpu 동작 확인 


Nvidia gpu를 사용하는 컨테이너인 경우 생성 후 다음 2가지의 동작을 확인 해봐야 한다. 


- nvidia-smi 커맨드 정상 동작 확인 
- python을 실행하여 torch.cuda.is_available() 함수를 통해 실제로 cuda가 동작하는지 확인

만일 정상 적으로 동작 하지 않는 경우 
컨테이너를 생성할 때 다음 옵션을 함께 추가하면 해결 되는 경우가 많다.

--runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=all -e NVIDIA_DRIVER_CAPABILITIES=all


2.  컨테이너 생성 예


docker run --runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=all -e NVIDIA_DRIVER_CAPABILITIES=all --net=host -i -t -v /etc/localtime:/etc/localtime:ro --name=name_container name_image /bin/bash



반응형

 

 

반응형