728x90 NVIDIA11 [NVIDIA] Cuda Toolkit 설치 # nvidia-smiThu Oct 17 16:23:44 2024+-----------------------------------------------------------------------------------------+| NVIDIA-SMI 550.54.14 Driver Version: 550.54.14 CUDA Version: 12.4 ||-----------------------------------------+------------------------+----------------------+| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC.. 2024. 10. 22. [NVIDIA] In use by another client(프로세스 충돌) ERR 로그# nvidia-smi --gpu-resetThe following GPUs could not be reset: GPU 00000000:B8:00.0: In use by another client1 device is currently being used by one or more other processes (e.g., Fabric Manager, CUDA application, graphics application such as an X server, or a monitoring application such as another instance of nvidia-smi). Please first kill all processes using this device and all compute .. 2024. 10. 18. [NVIDIA] MIG(Multi-Instance-GPU) Docker 컨테이너에 할당 1. MIG 활성화확인(비활성화 되어 있음)# nvidia-smiWed Jul 31 10:57:26 2024 +-----------------------------------------------------------------------------------------+| NVIDIA-SMI 550.90.07 Driver Version: 550.90.07 CUDA Version: 12.4 ||-----------------------------------------+------------------------+----------------------+| GPU Name Persistence-M | Bus-Id .. 2024. 8. 3. [NVIDIA] MIG(Multi-Instance-GPU) 설정 및 생성 삭제 MIG 설정 순서MIG 활성화GPU Instance(GI) 생성Compute Instance(CI) 생성MIG 활성화 전 확인# nvidia-smiMIG 활성화 /비활성화nvidia-smi -i [활성화할 GPU 번호] -mig [0/1 비활성화 / 활성화]5번 GPU 활성화# nvidia-smi -i 5 -mig 10번 GPU 비활성화# nvidia-smi -i 0 -mig 0활성화 / 비활성화 후 GPU 리셋# nvidia-smi --gpu-reset# nvidia-smiMIG 프로필 확인GPU : 각 GPU 당 7개씩 MIG 나누어진 것 확인Instance Free / Total : GI 생성 가능 개수 확인Memory GIB 유의해서 원하는 만큼 활성화 시키기# nvidia-smi mig -lgi.. 2024. 8. 2. [NVIDIA] MIG 활용시 배포 및 시스템 고려 사항 배포 고려 사항MIG 기능은 NVIDIA GPU 드라이버의 일부로 제공된다.H100 GPU는 CUDA 12/R525 드라이버부터 지원A100 및 A30 GPU는 CUDA 11/R450 드라이버부터 지원시스템 고려사항지원되는 운영체제 : CUDA 에서 지원하는 Linux 운영체제 배포판에서만 지원됨장치 노드 접근 : ./proc시스템 수준 인터페이스 대신, /dev cgroup을 통해 MIG 장치의 액세스 메커니즘을 제어하는 것이 권장됩니다. 이 기능은 450.80.02+ 드라이버부터 사용할 수 있습니다.지원되는 구성컨테이너를 포함한 베어메탈 환경지원되는 하이퍼바이저 위의 Linux 게스트에 대한 GPU 패스스루 가상화지원되는 하이퍼바이저 위의 vGPU지원되는 MIG 프로필A30 MIG 프로필A100 MI.. 2024. 8. 1. [NVIDIA] MIG를 활용한 고성능 컴퓨팅 환경 구축 1. Kubernetes & MIGKubernetes는 컨테이너화된 애플리케이션의 배포, 확장, 관리를 자동화하는 오픈 소스 플랫폼입니다. MIG와 Kubernetes를 통합하면 다음과 같은 이점을 얻을 수 있습니다:리소스 최적화: Kubernetes의 자원 할당 기능과 MIG의 인스턴스 분할 기능을 결합하여 GPU 자원을 최적화할 수 있습니다.유연한 스케줄링: Kubernetes의 스케줄러를 사용하여 다양한 크기의 MIG 인스턴스를 필요에 따라 유연하게 할당할 수 있습니다.자동화된 관리: Kubernetes의 오토스케일링과 자원 모니터링 기능을 통해 GPU 사용량을 자동으로 관리하고 최적화할 수 있습니다.1.1 Kubernetes 설정 예시Kubernetes 노드 설정: 각 노드에서 NVIDIA 드라이.. 2024. 7. 31. 이전 1 2 다음 728x90