본문 바로가기
Engineering/도커(Docker)

[Docker][NVIDIA] Failed to initialize NVML: Driver/library version mismatch 해결

by Hyen4110 2023. 4. 19.

서버 재부팅 하지않고, nvidia 프로시저 재시작으로 해결하는 방법

 

nvidia-smi

docker에서 컨테이너를 --gpus all 옵션으로 실행하고자 하는데 아래 에러 발생

docker: Error response from daemon: failed to create shim task: 
OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 1, stdout: , 
stderr: Auto-detected mode as 'legacy' nvidia-container-cli: initialization error

 

서버에서 nvidia-smi 실행 시 아래 에러 발생 

Failed to initialize NVML: Driver/library version mismatch

서버 재부팅 하지않고, nvidia 프로시저 재시작으로 해결


nvidia 관련 모듈 재시작

[STEP1] nvidia 관련된 리눅스 커널 모듈 검색

lsmod | grep nvidia

[STEP2] 관련 리눅스 커널 모듈 제거 (nvidia 모듈 제거는 마지막 순서)

sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia_uvm

# 마지막!
sudo rmmod nvidia

[STEP3] nvidia 관련 모듈 모두 삭제 확인

lsmod | grep nvidia

[STEP4] nvidia-smi 실행

nvidia-smi

 

정상적으로 로그찍히는것 확인!

댓글