在近期臺北國際電腦展的盛會上,和碩公司驚艷亮相,推出了一款專為人工智能(AI)設計的創新機架解決方案,這一消息由知名硬件資訊平臺Tom's Hardware率先披露。
這款解決方案的核心亮點在于,它搭載了高達128顆AMD最新一代的Instinct MI350X GPU,這些GPU專為AI推理與訓練任務而打造,其架構設計相較于AMD官方機架方案領先整整一代。
據和碩透露,這一平臺不僅是研發下一代AMD Instinct MI450X處理器IF64/IF128系統的重要技術驗證陣地,更是預示著相關產品將在一年后步入量產階段,引發了業界的廣泛關注與期待。
和碩的AS501-4A1/AS500-4A1系統,在配置上采用了8組5U計算單元,每組配備1顆AMD EPYC 9005處理器和4顆Instinct MI350X加速器,為了確保在高負載下的穩定運行,該系統還采用了高效的液冷散熱方案。整機設計符合OCP開放計算標準,專為云數據中心(如meta)打造,采用了51OU ORV3規格。
然而,值得注意的是,由于AMD尚未推出Infinity Fabric專用交換機,目前該系統主要通過400GbE網絡連接不同的GPU,最大集群規模限制為8顆。相比之下,英偉達的GB200/GB300 NVL72平臺則通過NVLink實現了72顆GPU的直連,因此在擴展性方面,MI350X系統暫時無法與英偉達方案相媲美。
盡管如此,和碩的這一系統仍然具有其獨特的核心價值。它能夠為OCP用戶提供即插即用的AI算力平臺,同時幫助開發者從軟硬件層面深入掌握多GPU系統的搭建技術,為AMD挑戰英偉達在機架級AI解決方案領域的壟斷地位奠定了堅實的基礎。
根據AMD官方提供的數據,和碩的128-GPU系統理論峰值性能可達1,177 PFLOPS(FP4精度),每顆MI350X GPU搭載了288GB HBM3E顯存,系統總顯存高達36.8TB,這一數據不僅超越了英偉達Blackwell架構GPU的容量上限,更能夠支持巨型AI模型的運行。
當然,該系統也存在一定的局限性,尤其是在GPU間通信方面依賴于以太網,這限制了其在大規模語言模型訓練等需要高度同步性的場景中的應用。然而,這無疑是高性能、大內存AI解決方案領域的一次重要突破,也為AMD下一代Instinct MI400系列產品的推出鋪平了道路。