본문 바로가기

반응형

error모음

(25)
학습 강제 중단 시 gpu 메모리 비우기 생각보다 자주 겪는 문제다. 모델 개발 중에는 강제 중단해야할 일이 많다 . 그때 gpu 메모리가 비워지지 않는 경우 아래와 같은 명령어를 치고 해결하면 된다. ps aux | grep pythonkill -9 $pid
[ error ] pytorch quantization 오류 시도pip install pytorch-quantization --extra-index-url https://pypi.ngc.nvidia.com https://developer.download.nvidia.com/compute/redist/ developer.download.nvidia.com error: subprocess-exited-with-error      × python setup.py egg_info did not run successfully.   │ exit code: 1   ╰─> [16 lines of output]       Traceback (most recent call last):         File "", line 2, in          File "", line 34,..
[jetson mmdetection] error #error 1error while loading shared libraries: libopenblas.so.0: cannot open shared objectsol : sudo apt-get install libopenblas-dev #pytorch 1.14 ( jetpack 5.1.2 )whl download https://developer.download.nvidia.com/compute/redist/jp/v51/pytorch/더 낮은 버전https://forums.developer.nvidia.com/t/pytorch-for-jetson/72048 #onnxruntime-gpu for jetson ( onnxruntime-gpu 1.15.1 )https://elinux.org/Jetson_Zoo#..
libstdc++.so.6: version `GLIBCXX_3.4.29' not found docker 환경이라 sudo를 쓰지 않았다. 방법 1apt-get updateapt-get install libstdc++6 방법 2add-apt-repository ppa:ubuntu-toolchain-r/testapt-get updateapt-get install gcc-4.9 # 4.8 가능apt-get upgrade libstdc++6 추가 에러1.add-apt-repository: command not found   solutionapt-get install software-properties-common 2.The repository 'https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64 InRelease' i..
error while loading shared libraries: libopencv_highgui.so.3.4: cannot open shared object file: No such file or directory 에러 상황 : 서버에 환경 세팅 후 darknet을 실행 시 에러 발생 해결 : sudo /bin/bash -c 'echo "/usr/local/lib" > /etc/ld.so.conf.d/opencv.conf' sudo ldconfig
RuntimeError: output 1 ( [ CPULongType{} ]) of traced region did not have observable data dependence with trace inputs; this probably indicates your program cannot be understood by the tracer. 에러 발생 환경 pytorch model -> onnx로 변환시에 발생 문제 원인 output 이 list, dictionary 등 tensor 가 아닌 다른 형태이기 때문에 발생 해결 방안 model output을 tensor로 바꿈
RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1 발생 상황 cudstom data로 특정 network에서 학습시키고자 할때 발생한 에러 해결 방법 num_classes를 체크하고 그를 수정. 필자의 경우 9개의 classes를 예측해야했기 때문에 9개로 수정
ModuleNotFoundError: No module named 'torchvision.models.utils' 해결 from torch.hub import load_state_dict_from_url