리눅스(Ubuntu)
-
Multi GPU 사용하기 및 GPU hang 문제 해결리눅스(Ubuntu) 2022. 4. 6. 18:51
GPU 한개만을 이용해서 deep learning code를 돌릴 수 있지만, 보다 더 나은 성능을 위해 multi GPU를 사용해야하는 상황이 올 수 있다. 사실 multi GPU를 사용하도록 하는 코드는 간단한데 이는 아래와 같다. 1. .py 코드로 돌리는 경우 (1) .py 상에서 모델을 지정해줄 때, 다음과 같이 nn.DataParallel을 사용하여 모델을 랩핑해준다. PyTorch는 기본적으로 하나의 GPU만 사용하기 때문에 DataParallel 을 이용하여 모델을 병렬로 실행해 다수의 GPU 에서 작업을 수행한다. model = torch.nn.DataParallel(net).cuda() (2) Terminal에서 .py 코드를 돌릴때 명령어 앞에 CUDA_VISIBLE_DEVICES를 ..
-
사용자계정 추가하기리눅스(Ubuntu) 2021. 12. 8. 15:38
- 새로운 사용자를 추가하는 방법 (adduser 사용하기) (1) compu 계정으로 로그인 (2) 터미널 접속 (3) sudo cp -v /home/compu/.bashrc /etc/skel/ (4) sudo adduser [사용자명] - 새로운 사용자계정에게 관리자권한 주기 sudo vi /etc/sudoers /etc/sudoers 파일을 열어 user privilege speccification 부분을 아래와 같이 수정해준다. #User privilege specification root ALL=(ALL:ALL) ALL [사용자명] ALL=(ALL:ALL) ALL - 새로운 사용자 계정 내에서 가상환경 만들기 Ubuntu 18.04.5 LTS , GPU a6000을 사용하고 있을 경우, cuda..
-
Ubuntu(우분투) 재설치 방법(2)리눅스(Ubuntu) 2021. 12. 6. 20:56
2021.11.29 - [리눅스(Ubuntu)] - Ubuntu(우분투) 재설치 방법(1) Ubuntu(우분투) 재설치 방법(1) 최근 들어 갑자기 cudNN 에러가 다시 한번 발생했다. 저번에 만든 새로운 가상환경 (새로운 cuda, torch 조합이 들어간..) 이후에 별다른 라이브러리를 설치하거나 update를 해준 기억이 없는데 다시 버 deeplearning-hj.tistory.com 이번 포스트에는 본격적으로 우분투 (재)설치 하는 방법에 대해 설명하도록 하겠다. 2-2 우분투 재설치 방법 부팅 usb를 본체에 연결한 후 재부팅해준다. 이때 부팅시 bios 세팅으로 진입하여 부팅 우선순위를 변경해준다. bios 세팅으로 진입하는 방법은 보통 부팅 시 아래와 같이 화면에 나와있다. 나의 경우, ..
-
Ubuntu(우분투) 재설치 방법(1)리눅스(Ubuntu) 2021. 11. 29. 18:28
최근 들어 갑자기 cudNN 에러가 다시 한번 발생했다. 저번에 만든 새로운 가상환경 (새로운 cuda, torch 조합이 들어간..) 이후에 별다른 라이브러리를 설치하거나 update를 해준 기억이 없는데 다시 버전문제가 발생했다고 해서 '혹시 나도 모르게 컴퓨터가 자동으로 업데이트가 되고 있나?'라는 의구심이 들었다. 확인을 해봤더니 역시나.. 내가 모르는 사이에 Ubuntu가 자동으로 업데이트되도록 설정이 되어 있었고 13일 토요일에 혼자 업데이트가 되어 기존 라이브러리들과 버전 충돌이 일어나게 된 것이다. 현재 상태에 맞는 새로운 버전을 찾는 것보다 linux 버전을 롤백하는 것이 더 빠르다고 생각했지만, 윈도우와는 다르게 리눅스는 롤백이 매우매우 위험하다고 한다. 따라서 이전 버전의 리눅스 환경..
-
RTX a6000 pytorch 버전 문제 해결리눅스(Ubuntu) 2021. 10. 28. 20:04
GPU를 사용하여 deep learning 코드를 돌릴 때 종종 아래와 같은 Runtimeerror를 볼 수 있다. Unable to find a valid CuDNN algorithm to run convolution 위와같은 에러가 생기는 이유는 대표적으로 1. memory 정리가 되어있지 않아서 2. 기존 pytorch cuda 등의 버전이 서로 맞지 않아서 이다. 오늘은 RTX a600 GPU를 사용 중일 때 해당 에러를 해결하는 방법을 두 가지 경우로 나누어 설명하도록 하겠다. 1. memory 정리 문제 memory가 꽉 차있어서 에러가 나는 것이라면 1)현재 컴퓨터 메모리가 가득 차 있거나 2) 현재 돌리고 있는 모델이 너무 무거운 경우이다. 1)의 경우 단순히 python 혹은 jupyte..
-
(Ubuntu) Nvidia-driver 가 깨졌을 때 해결 방법리눅스(Ubuntu) 2021. 7. 21. 20:21
ubuntu를 사용하고 있을때 갑자기 아래와 같은 메세지가 뜨며 검은 화면만 뜨는 경우가 간혹 생긴다. Failed to start User Manager for UID 121.. 이는 GDM manager가 실행이 되지 않는 문제이다. 따라서 이러한 문제가 발생 했을 때는 GRUB boot 영역에 들어가기 보다는 CTRL + ALT + F3~F7 키를 눌러서 console 화면으로 전환한 후 CLI 터미널 화면에서 접속하는게 빠르다. CLI 터미널 화면에 접속해서 nvidia-smi 명령어를 실행하면 nvidia drive가 충돌하여 실행이 되지 않는다는 문구가 출력될 것인데 이는 drive가 깨져있다는 것을 의미하기 때문에 drive를 재 설치하면 된다. drive 재설치하는 방법 sudo ubunt..