목록전체 글 (23)
Deep CV
gpu가 8개인 서버에서 5,6,7,8번 째 gpu에만 데이터 병렬처리를 하려고 하는데 아래 오류가 있었다.RuntimeError: module must have its parameters and buffers on device cuda:4 (device_ids[0]) but found one of them on device: cuda:0 model = nn.DataParallel(model, device_ids=gpus).cuda()gpus는 (4,5,6,7) 이었다. 문제는 모델을 gpus[0]으로 옮긴 후 장치를 지정하지 않고 .cuda()를 호출하면 모델이 기본 GPU(일반적으로 cuda:0)로 전송되어 지정한 기본 장치와 불일치가 발생한다는 것입니다. 이를 수정하려면 DataParallel..
systemctl isolate graphical 에러 failed to initialize nvml driver/library version mismatch NVML library version: 535.86 해결과정 옛날 해결법을 참고하면 재부팅 혹은 관련 엔비디아 모듈(nvidia-drm)을 종료하라고 한다. 그러나 재부팅을 해도 안 되고 모듈을 종료해도 안 된다. 오히려 모듈을 종료하면 nvidia smi has failed because it couldn't communicate with the nvidia driver 라는 새로운 에러가 발생한다. 자동 업데이트 등의 이유로 535.54에서 535.86 업데이트 되면서 문제가 생긴 것 같은데 정확하진 않다... 해결법 sudo apt --fix..
timm 버전 때문에 발생한 문제로 에러가 발생한 위치의 파일에 들어간 후 from torch._six import container_abcs 부분을 from collections import abc as container_abcs 로 변경하면 해결됩니다.
한컴 입력기로 되어 있어서 그렇습니다. ctrl + shift + 한/영 누르면 해결 완료.
학습 돌리는 중에 갑자기 서버가 터지더니 연결이 안 되는 문제가 발생했다. 구글링으로 이것저것 하다 보니 계속 sshd 뭐시기가 뜨는데 해당 폴더가 없었다. sudo mkdir /var/run/sshd && sudo service sshd start 단순히 파일만 만들어줬더니 해결됐다. 근데 문제는 이게 재부팅만 하면 또 사라진다는 것이다... 그럼 또 가서 해줘야 한다. 갑자기 잘 되던 연결이 안 된다면 위의 코드를 터미널에 쳐보도록 하자.