メインコンテンツまでスキップ

Tong Quan Dich Vu Gpu

FPT Cloud cung cấp Kubernetes sử dụng GPU NVIDIA có các tính năng chính sau:

  • Cấu hình GPU linh hoạt với nhiều loại GPU, bộ nhớ GPU tùy chọn, áp dụng theo từng Worker Group.
  • Quản lý và cấp phát tài nguyên GPU trong Kubernetes tự động với NVIDIA Operator
  • Trực quan hóa và giám sát GPU bằng NVIDIA DCGM.
  • Tự động tăng/giảm Container/Node với Autoscaler khi ứng dụng yêu cầu sử dụng tài nguyên GPU tăng lên/giảm đi.
  • Hỗ trợ GPU sharing với cơ chế Multi-Instance, giúp tối ưu hóa tài nguyên và chi phí sử dụng GPU.

FPT Cloud sử dụng NVIDIA GPU Operator cung cấp công cụ tự động quản lý tất cả các thành phần phần mềm cần thiết để sử dụng GPU trên Kubernetes. GPU Operator cho phép người dùng sử dụng tài nguyên GPU giống như sử dụng CPU trong cụm Kubernetes. Các thành phần của Operator bao gồm:

  • NVIDIA Drivers (CUDA, MIG,…)
  • NVIDIA Device Plugin
  • NVIDIA Container Toolkit
  • NVIDIA GPU Feature Discovery
  • NVIDIA Data Center GPU Manager (Monitoring)

Trên region HanoiSaigon , FPT Cloud hiện tại đang hỗ trợ Kubernetes sử dụng GPU Nvidia A30 với các MIG profile sau:

No.GPU A30 ProfileStrategyNumber instanceInstance resource
1all-1g.6gbsingle41g.6gb
2all-2g.12gbsingle22g.12gb
3all-balancedmixed21g.6gb
412g.12gb
5none (no label)none00 (Entire)
Trên region Hanoi 2 và Japan, FPT Cloud hiện tại đang hỗ trợ Kubernetes sử dụng GPU Nvidia H100 và GPU Nvidia H200
No.GPU H100 SXM5StrategyNumber instanceInstance resource
---------------
1all-1g.10gbsingle71g.10gb
2all-1g.20gbsingle41g.20gb
3all-2g.20gbsingle32g.20gb
4all-3g.40gbsingle23g.40gb
5all-4g.40gbsingle14g.40gb
6all-7g.80gbsingle17g.80gb
7all-balancedmixed2
1
11g.10gb
2g.20gb
3g.40gb
8none (no label)none00 (Entire)
No.GPU H200 SXM5StrategyNumber instanceInstance resource
---------------
1all-1g.18gbsingle71g.18gb
2all-1g.35gbsingle41g.35gb
3all-2g.25gbsingle32g.25gb
4all-3g.71gbsingle23g.71gb
5all-4g.71gbsingle14g.71gb
6all-7g.141gbsingle17g.141gb
7all-balancedmixed2
1
11g.18gb
2g.35gb
3g.71gb
8none (no label)none00 (Entire)
Ví dụ:
👉 Nếu chọn cấu hình strategy single: all-1g.6gb, card GPU A30 trên worker được chia nhỏ thành 4 mig-devices có tài nguyên gpu logic (bằng ¼ GPU vật lý) và 6GB GPU RAM.
👉 Nếu chọn cấu hình strategy single: all-1g.10gb, card GPU H100 trên worker được chia nhỏ thành 7 mig-devices có tài nguyên gpu logic (bằng 1⁄7 GPU vật lý) và 10GB GPU RAM.
Chú ý:
MIG config áp dụng cho tất cả các card gắn trên worker. MIG strategy trên các worker group của cùng cluster phải cùng 1 loại (single/mixed/none).
Trong tài liệu hướng dẫn này, chúng tôi sẽ trình bày các tính năng chính của dịch vụ GPU trên Kubernetes FPT Cloud, bao gồm:
  1. Cài đặt cluster Kubernetes sử dụng GPU
  2. Khởi tạo một worker group sử dụng GPU
  3. Chỉnh sửa một worker group sử dụng GPU
  4. Triển khai ứng dụng sử dụng GPU
  5. Hướng dẫn sử dụng GPU Telemetry
  6. Hướng dẫn cài đặt và sử dụng driver
  7. Hướng dẫn cấu hình Auto Scale sử dụng GPU Custom mertric
  8. Hướng dẫn cấu hình Auto Scale sử dụng KEDA và Prometheus
  9. Hướng dẫn sử dụng các chế độ GPU Sharing