서버 재부팅 하지않고, nvidia 프로시저 재시작으로 해결하는 방법
nvidia-smi
docker에서 컨테이너를 --gpus all 옵션으로 실행하고자 하는데 아래 에러 발생
docker: Error response from daemon: failed to create shim task:
OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 1, stdout: ,
stderr: Auto-detected mode as 'legacy' nvidia-container-cli: initialization error
서버에서 nvidia-smi 실행 시 아래 에러 발생
Failed to initialize NVML: Driver/library version mismatch
서버 재부팅 하지않고, nvidia 프로시저 재시작으로 해결
nvidia 관련 모듈 재시작
[STEP1] nvidia 관련된 리눅스 커널 모듈 검색
lsmod | grep nvidia
[STEP2] 관련 리눅스 커널 모듈 제거 (nvidia 모듈 제거는 마지막 순서)
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia_uvm
# 마지막!
sudo rmmod nvidia
[STEP3] nvidia 관련 모듈 모두 삭제 확인
lsmod | grep nvidia
[STEP4] nvidia-smi 실행
nvidia-smi
정상적으로 로그찍히는것 확인!
'Engineering > 도커(Docker)' 카테고리의 다른 글
[Docker][Error] bash: ifconfig: command not found (0) | 2022.12.22 |
---|---|
[Docker] Docker Container 외부 노출하기 (PORT 바인딩) (0) | 2022.12.21 |
[Docker] Docker Container 실행 명령어 정리 (0) | 2022.12.21 |
[Docker][Error] CentOS 7 - File "/usr/bin/yum-config-manager", line 135 except yum.Errors.RepoError, e: (0) | 2022.12.21 |
[Docker] 리눅스 도커 엔진 설치 - CentOS 7 (0) | 2022.12.21 |
댓글