海外專業測評機構STH發布浪潮AIStation測評文章

AIStation是浪潮面向深度學習開發、線上推理發布的人工智能開發資源平臺,可實現容器化部署、可視化開發、集中化管理等,旨在實現精準的資源管理和調度、敏捷的數據整合及加速、流程化的AI場景及業務整合。此次,STH的編輯以管理員身份和用戶身份對浪潮AIStation進行了全面的體驗,并在測評報告中詳盡地闡釋了AIStation的功能和應用價值。STH表示,浪潮AIStation能夠實現對AI資源的精細化管理,可以有效打通開發環境、計算資源與數據資源,提升開發效率。

下面是STH資深編輯Patrick Kennedy的測評敘述:

我們通常將構建和運行AI集群,即通過訓練和推理來管理所有計算資源、用戶、數據和模型視為一項挑戰。做好AI集群運營可能并不像發現一種解決深度學習問題的新方法那樣備受追捧,但對于在組織內擴展共享資源至關重要。浪潮AIStation旨在管理該生命周期。我們花了一些時間親手操作了該解決方案,以了解其運作方式。我也找機會向浪潮AI負責人劉軍提出了有關新產品的幾個問題。

浪潮AIStation登陸界面

一、浪潮AIStation實操背景介紹

浪潮在中國山東省擁有一個測試集群,我用Cisco VPN進行了訪問。雖然不知道確切位置,但我想濟南(山東省第二大城市和省會)的這座浪潮大廈就是測試群集的所在地,這與2019年我們參觀的浪潮智能工廠不在同一個園區。我們的許多讀者都來自中國以外的國家,而且也沒去過山東,這么說吧,濟南的人口與紐約差不多。

如果您聽說過紐約但沒聽說過濟南,那正是我要重點介紹AIStation的原因。浪潮是全球排名前三的服務器供應商,中國市場上大約一半的AI服務器都來自浪潮。浪潮面向超大規模用戶,其主要能力之一是AI服務器,例如我們最近評測的浪潮系統NF5468M5和浪潮NF5488M5。AIStation也是浪潮產品,可幫助管理大量的AI訓練和推理服務器、數據以及用戶。

從根本上說AIStation是基于Kubernetes的集群解決方案。浪潮所做的是統一運行AI集群時需要解決的許多常見工具和任務。例如,它可以管理用戶、組、權限和配額,可以管理與每個用戶或組關聯的數據以及該數據的權限和存儲,還可以管理開發工作以及在集群上調度資源。此外,我們還將介紹作業、用戶和節點層面上的一些監控和警報。

二、AIStation實操:管理員視角

屏幕截圖就不在這里一一展示了,選擇一部分重點界面進行介紹。在了解用戶在系統中看到的內容之前,我想先談一下管理方面。該解決方案基于Kubernetes和容器,非?,F代化。如果將其與許多傳統的GPU/HPC/AI調度系統進行比較,您將更能體會其現代架構的理念。

集群監控

AIStation在后臺開始運行后,大部分日常管理工作都可以使用腳本或通過Web GUI完成??梢陨钊氩榭锤鱾€節點的負載、硬件配置,甚至可實現從用戶到容器再到它們在單個GPU級別運行的硬件的追蹤鏈。

集群監控>節點監控

盡管我們的測試集群只有幾個節點,但我們聽說AIStation已經部署了數百個節點和上千個節點的集群。隨著節點數量的增加,創建資源組變得更加重要。AIStation可以創建多個資源組,將其指定用于開發、訓練或通用,也可以為該組設置一些更高級別的管理和預留權限。

資源管理>創建資源組

除了創建資源組之外,創建用戶和用戶組可能更重要。AIStation可以創建用戶或與現有的用戶目錄工具集成,然后為用戶授予訪問不同資源、存儲配額、GPU配額等的權限。這很重要,因為公司可能不會想讓一個實習生100%使用整個集群或訪問敏感的訓練數據/模型,而會把優先權給到深度學習專家組成的內部咨詢小組。AIStation的主要價值主張是通過單個系統進行全部管理。

系統管理>用戶管理>用戶

管理員還可以根據權限訪問整個集群。例如,遇到作業運行緩慢的問題,管理員可以使用監控工具查找他們的作業以及有問題的容器,甚至可以直接進入硬件查看是否有潛在的硬件問題。

開發環境>詳情

AIStation還具有相當全面的可視化界面,用于監控集群,界面上可以看到CPU、GPU和內存的利用率等信息。在集群生命周期管理方面,這類數據可幫助管理員查看資源配置情況以及系統容量。例如,如果集群以50%的CPU、60%的GPU、95%的內存運行,這就充分說明下一代節點需要更多的內存容量。

報表管理>資源統計

管理員用戶還可以查看已完成的任務,以查看用戶先前運行的內容,包括作業是否成功。在某些情況下,人們會在公司GPU集群上挖掘加密貨幣。此類功能可根據已運行的內容進行審核跟蹤,這項功能非常重要。

訓練管理>已完成任務

除了上述功能之外,另一個重要功能是管理用戶在系統中擁有的資源。接下來,我們會從用戶的角度進行詳細闡述。

三、AIStation實操:用戶視角

每個用戶都可以訪問一組資源。登錄AIStation時可以看到儀表板。許多使用限制是通過管理板塊中顯示的用戶、組和資源組功能定義的。

浪潮AIStation用戶界面

開發人員如果要開始訓練任務,可以查看可訓練的鏡像。這些鏡像很重要,因為在系統中創建任務時,它們就是可能正在使用的鏡像。它可以是來自NVIDIA GPU Cloud的鏡像或更加標準的鏡像。AIStation還具有組鏡像甚至用戶鏡像的功能,讓用戶可以更輕松地選擇容器鏡像。用戶可以看到個人、組和公共鏡像。管理員可以將鏡像定義為個人鏡像或公共鏡像,將敏感鏡像的查看權限僅開放給特定組或員工,這點也非常重要。

鏡像管理

浪潮AIStation支持多種框架,用戶可以使用Tensorflow、Pytorch、Paddlepaddle或其他框架。

訓練管理>訓練任務>創建訓練任務

數據管理在AI集群中極為重要,AIStation能夠定義和存儲數據集。從用戶的角度來看,他們可以查看哪些數據集可供使用。用戶能夠將容器鏡像、節點/物理資源和訓練數據相關聯。而管理員可以對這些數據集設置權限。這一點很重要,因為有些數據集只有指定用戶才能查閱、使用和下載。

在AIStation中還可以加載Jupyter筆記本,直接編輯python文件,并且可以將筆記本保存在集群的存儲后臺,并輕松與其他用戶共享。

 開發平臺>詳情

啟動任務后,AIStation平臺將集成許多可視化工具。例如,您可以啟動Tensorboard、Visdom或Netscope等工具,從下拉菜單中顯示可視化效果;用戶可以直接從Web GUI進入容器的終端。

用戶開發平臺可視化Tensorboard

訓練作業可能要花數小時或數天,用戶可隨時查看當前作業狀態進度、檢查結果以及待處理的作業及其歷史。

訓練管理>已完成作業

可以看到這種解決方案支持一家公司的諸多用戶及具有多代GPU的節點。這里沒有顯示其他一些功能,例如針對管理員和用戶的電子郵件警報和通知,但這種解決方案顯然是旨在運行公司的整個AI操作。因此,我想向AIStation的業務負責人詢問更多信息,了解其進入市場的戰略。

四、對話浪潮劉軍

上市策略方面,我向浪潮的AI和HPC業務負責人劉軍提出了一些問題。這個名字聽起來可能很耳熟,那是因為他之前也曾幫我們做過專訪。

浪潮人工智能與高性能計算總經理 劉軍

Patrick Kennedy: 浪潮如何規劃AIStation的上市?

劉軍:AIStation有直接銷售和渠道銷售兩種銷售方式,我們在全球有數十個渠道合作伙伴出售AIStation。

PK: AIStation可以集成其他服務器供應商的集群節點嗎?

劉軍:是的,AIStation能夠集成其他供應商的集群節點。

PK: AIStation的銷售是否針對特定行業?

劉軍:自2019年4月發布以來,已實際應用于金融、教育、互聯網和智慧城市等行業。

PK: 只面向大型組織、服務提供商嗎?初創企業等較小的組織是銷售目標嗎?

劉軍:AIStation專為深度學習開發領域而設計,適用于金融、互聯網、通信、交通、醫療和教育等行業的大小型企業。

PK: 許可模式是怎樣的?

劉軍:按GPU服務器節點出售。

PK: 升級許可證需要購買新密鑰,還是客戶憑借現有密鑰從浪潮注冊服務器上獲得新權限?(這里提醒讀者,Web GUI上有一個許可證密鑰頁面,上文未展示)

劉軍:用戶可享受三年內AIStation的免費升級服務,然后需要購買新密鑰進行升級。

PK: 針對該解決方案,浪潮未來會提供其他新的服務嗎?

劉軍:未來AIStation將支持更多的AI加速器,并實現資源管理、調度、監控、優化等方面的異構加速。我們將建立一個更全面的AI開發生態系統,為行業主流AI開發工具、開發框架和深度學習模型提供一個集成的開發平臺。

再次感謝劉軍耐心為我們的讀者解答問題。

最后的話

我想強調一下在此展示AIStation的操作視圖和上市策略的原因。AIStation發布第一年即獲得不俗的軟件銷售額。要是看到他們投資公司的AI管理軟件平臺第一年就獲得如此成績,投資者們一定會激動不已。重點是,盡管浪潮將其作為新產品發布,但實際上它已經擁有很多付費客戶,這些客戶已經在使用此解決方案來管理其AI集群和開發團隊。

結合當前的功能,再想想異構加速器的概念,就能馬上明白該解決方案的前景。它與現有的其他一些集群管理解決方案相比,不同之處在于它甚至可以供大型組織使用,并且全部基于Kubernetes,而Kubernetes正迅速成為下一代服務的主要工具。

總而言之,如果您是一家只有2-3人的小型初創公司,那么可能并不需要該解決方案,但隨著組織中集群的增多,當調度和管理成為一項更大的挑戰時,浪潮AIStation的價值便更加凸顯出來。

(來源:浪潮服務器微信)

未經允許不得轉載:存儲在線-存儲專業媒體 » 外媒專評AIStation:AI集群運營與AI算法創新同樣重要
分享到

zhangnn

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走