算力調度加速平臺
- 支持高效部署百個(gè)節點(diǎn)以上的集群管理,具備網(wǎng)絡(luò )管理,計算及存儲網(wǎng)絡(luò )分離,及時(shí)發(fā)現并定位集群故障。
- 先進(jìn)的故障檢測功能,實(shí)時(shí)監測并識別GPU、網(wǎng)絡(luò )接口卡和存儲設備的故障。
- 多租戶(hù)支持,細粒度權限管理,租戶(hù)隔離機制,靈活的租戶(hù)計費規則。
-
幫助集群快速規劃及性能評估。
-
提高集群算力利用率。
-
降低運維成本。
-
可視化管理,設備入網(wǎng)過(guò)程及問(wèn)題可視。
-
智能調優(yōu),實(shí)時(shí)分析。