圖片來源: 

Nvidia

在今年Computex期間,Nvidia正式推出了訂閱制的DGX SuperPOD超級電腦叢集雲端運算新服務,讓企業用戶不用購買整套超級電腦叢集,就能使用其提供的破百Peta級的運算能力,來訓練龐大的AI應用模型,該服務預計今夏稍晚推出上線,但僅開放北美用戶先採用。另外該公司也宣布將擴大Nvidia Certified認證適用範圍,不只是內含GPU的AI伺服器,還包括了內含DPU的設備,明年更要擴大提供基於Arm架構的設備認證。

DGX SuperPOD是Nvidia去年所推出最新的AI超級電腦叢集系統,在單一模組整合了至少20臺DGX A100建立高效能運算叢集,其AI運算效能可達100 petaFLOPS,甚至最高可擴充至 700 petaFLOPS運算效能。但其價格也相當昂貴 ,一套系統至少數百萬美元起,門檻與進入成本很高,因此,迄今只有少數大型企業才能夠採用。

新推出訂閱制的DGX SuperPOD雲端運算服務,則是對於有超大型AI模型訓練需求的AI新創或中小型企業,帶來了一些新的機會,現在也能用它提供的高效能運算,加快完成如大型自然語言AI模型的訓練與應用開發,加速將服務推向市場。

至於訂閱收費機制,Nvidia表示,未來將採用按月計費方式,每月收費90,000美元起,相當於臺幣約240萬元,大約是單機DGX A100的一半價格,但是具備更高算力及擴充能力,甚至不只能整套租,企業用戶一次也可以DGX SuperPOD裡一部分運算叢集做租用,而不用租整套叢集,在節省成本的同時,也有助於降低進入門檻。

另外,所有硬體設備皆託管於Equinix 雲端資料中心,該叢集運算服務也使用了儲存廠商NetApp提供的全快閃儲存設備,作為大量資料儲存和管理之用。DGX  SuperPOD叢集雲端運算服務,預計今年夏季稍晚推出上線。目前已開放早期測試,但僅在北美提供。

為方便管理DGX SuperPOD運算叢集,Nvidia還推出了一個Base Command軟體管理新介面,不僅提供多租戶、多團隊AI應用開發的支援,企業用戶在使用與調度DGX SuperPOD資源用於AI開發也更容易,同時簡化SuperPOD的叢集管理。Base Command介面操作起來相當容易,不僅提供GUI介面,還配備了Jupyter Notebook等各種工具,能使用專屬Registry和訓練模型,以及還整合AI生命周期人員協作的MLOps API。另外還提供一個監控和報告的視覺化儀表板,方便使用者管理。

此外,Base Command介面本身也可支援在AWS和Google兩大公有雲平臺上來使用,讓用戶用單一介面就能夠提交AI任務,並且跨本地端或多雲混合雲。

另外,Nvidia這次還發起新的Nvidia Certified硬體認證專案計畫,讓系統製造商可以參考它所提供的設計藍圖,開發出符合Nvidia認證的AI專用伺服器或系統,並提供官方認證,作為企業未來在添購AI伺服器設備時可參考的依據。

除了有通過其認證的AI硬體,在AI軟體方面,Nvidia也發布Nvidia AI Enterprise軟體整合平臺,主要是將該公司多年來推出的眾多AI軟體、開發工具或框架 ,整合到單一平臺,讓企業更容易用它做視覺或語音AI應用開發。

進一步來看,該平臺整合了許多企業常用AI軟體或開發工具,像是在基礎架構管理優化工具方面,提供了Nvidia vGPU、Nvidia Magnum IO、Nvidia Cuda-X AI、Nvidia DOCA等軟體堆疊或開發工具。而在AI與資料科學應用方面,也整合了如Nvidia Triton Inference Server、Nvidia TensorRT函式庫元件與GPU加速函式庫Rapids等。還有加入各種主流AI框架,如TensorFlow、PyTorch,以及Nvidia Transfer Learning Toolkit等都包含在內。該軟體平臺亦可架構在通過Nvidia認證的AI伺服器上,並支援完整VMware vSphere虛擬化環境。

除了提供通過Nvidia認證的AI設備HGX、EGX,Nvidia表示,接下來,更將其認證適用範圍,擴大涵蓋到內含有DPU的伺服器設備,預計將於今年秋天開始提供,包括Asus、Dell、技嘉、雲達、Supermicro都將推出搭載Bluefield-2 DPU的伺服器產品,目前都與Nvidia正在展開合作,以取得其認證,另外不只x86架構,Nvidia明年也擴大提供基於Arm架構的設備認證。

由於Nvidia的Arm CPU將於2023年推出,為了早一步建立成熟生態系,Nvidia也與技嘉合作,宣布推出以Arm為基礎的加速運算開發套件,除了提供軟體,硬體部分則內含有Arm CPU與GPU,可提供全球250萬名Cuda平臺開發者,來提前針對Arm架構運算環境,進行相關開發與應用測試。


熱門新聞

Advertisement