
選擇GPU服務器機箱計算方案配置考慮以下因素:
1. 計算比例,通常應用程序的執行需要GPU與CPU協同完成,可根據GPU計算部分所占比重,配置節點GPU卡密度;
2. 計算規模,根據不同應用數據規模及計算類型,可以選擇單機單GPU卡、單機多GPU卡和GPU集群應用模式;
3. 內存容量,GPU計算節點內存容量建議配置為:GPU個數 x GPU顯存容量 + 32GB;
4. 數據通信,在單機多卡模式下,可使用 GPU Direct P2P技術加速GPU之間數據傳輸速度;在GPU集群模式下,可使用GPU Direct RDMA功能,加速數據通信提升程序的執行效率,同時可根據應用程序對集群通信帶寬及延遲的需求,選擇高速Infiniband網絡或萬兆網絡;
5. 存儲系統:單節點應用模式下一般數據量比較小,對存儲系統性能要求不高,一般采用本地存儲;集群環境下,應用數據量比較大,一般配置大容量、統一、高速的并行文件系統,另外對一些特殊應用,如石油、天然氣應用,可以在每個GPU計算節點內部配置SSD硬盤,作為分級存儲使用,加速節點內部數據交換;
6. 管理調度,合理選擇GPU集群的作業調度和監控系統,可以提升集群的使用效率,降低維護成本。
單機單卡模式
適合小數據規模應用或初級用戶測試、實驗使用,方案設計需要同時兼顧GPU與CPU的計算性能。適合應用類型為只支持單GPU加速應用,程序執行過程中通過任務劃分,由GPU和CPU共同完成計算任務,或程序中只有部分模塊采用了單GPU加速功能。
單機多卡模式
單機多卡模式下,應用對單節點計算性能和密度要求高,程序可以同時調用多個GPU使用,大部分計算任務也由GPU來承擔,而CPU負責復雜指令處理及調度部分。
GPU服務器插多個GPU卡的情況下,建議多個GPU插在同一個CPU端,這樣可以使用GPU Direct P2P,避免在節點內部GPU之間跨QPI通信,加速程序在多GPU運行效率。
GPU集群模式
GPU服務器機箱集群根據應用類型每個節點配置一個(兼顧GPU和CPU計算能力)或多個GPU卡(GPU作為節點內部主要計算單元),集群內部各節點配置相同;計算節點之間使用高速Infiniband或萬兆網絡作為集群的計算和互聯網絡;采用并行文件系統為整個集群提供高速、穩定的數據存儲服務;千兆網絡作為管理網絡用做整個集群的監控和管理,用戶可通過GPU集群管理、調度系統在外網或局域網內提交作業到GPU集群,并可實時監測到GPU集群的運行狀況。
KIWACN凱王科技專注服務器機箱OEM/ODM解決方案廠家。