5月底,Arm發布了Arm終端計算子系統(CSS),以30%以上的計算和圖形性能提升應對要求苛刻的實際應用中的安卓工作負載,同時也以59%的AI推理速度的提升支持更廣泛的人工智能、機器學習和計算視覺工作負載。該平臺包括了第二代Armv9.2 CPU集群,內含Arm性能最強的 Arm Cortex-X925 CPU 以及效率最高的Cortex-A725 和更新后的 Cortex-A520 CPU,讓三納米工藝上的性能和效率達到全新水平。

Arm終端事業部高級產品經理Manish Pandey

“AI運行于Arm平臺和CPU集群之上,這些工作負載的計算密集度越來越高。Arm不斷發展技術,以應對這一挑戰?!痹贏rm終端事業部高級產品經理Manish Pandey看來,新的Armv9.2 CPU集群的問世,水到渠成。

作為Arm終端CSS核心之一的CPU家族Cortex-X/A系列,不僅在性能上顯著提升,而且產品名稱也有所變化,彰顯Arm的創新成績與服務客戶的底氣,而其中最值得大書特書的當屬Cortex-X925。

作為迄今Arm速度最快、性能最強的CPU,Cortex-X925比前一代產品的單線程性能提升了36%,AI性能提高了46%。

Cortex-X系列是Arm于2020年推出的、以提高單線程性能為目標并且在過去四代年產品不斷迭代升級的CPU。

另一款CPU——Arm Cortex-A725實現了性能與效率的最佳平衡,與前一代相比,其性能效率提升了35%。

針對最新的3nm工藝節點更新并優化的 Cortex-A520,能耗降低了15%。

功耗的降低有助于延長電池續航時間。在現實環境的體驗中,Arm在40個指標上平均實現了30%的提升。

這些成果的取得,源自于Arm對關鍵用戶體驗指標搜集、設計和分析的結果。毫無疑問,每一個數字,對于芯片設計客戶來說都意味著效率的提升、成本的降低、產品上市的提前,等等不一而足。而從終端消費者的角度來說,自然就等于更好的移動設備體驗。

在高端移動設備之外,該集群能夠擴展到更廣泛的應用空間。如在PC筆記本領域,Cortex-A925與目前市面上的設備相比同樣具備非常出色的性能。DSU與高效能的Cortex-A725相結合,提供了驚人的可擴展性,能夠實現非常優異的多線程性能。

有形的“性能”與無形的“效率”,均保持兩位數增速

性能指標的提升,背后是技術的強力支持。

除了聚焦單線程性能的提升,Arm更是基于每時鐘周期指令數(IPC)、頻率、編譯器、操作系統(OS)、封裝等多個因素大膽革新,以前沿的微架構功能、可配置性和先進的物理解決方案,讓Arm終端CSS的性能得到了根本性的改變和提升。

Cortex-X925的性能改善正是得益于微架構的重大突破:在此先進的工藝節點上實現的3.8GHz頻率,輔以對響應速度、網頁瀏覽、圖像和視頻以及更出色的高幀率游戲體驗等一系列的優化,實現了在Geekbench 6、應用啟動速度及Speedometer 2瀏覽器基準測試中提升了約15%,而熱門的大語言模型(LLM)上,詞元(Token)首次響應時間縮短了約40%,AI網絡推理速度提升高達35%。

Cortex-X在多個指標上也實現了性能和功耗的雙重改進。

在動態電壓頻率調整(DVFS)曲線的操作點上端,Cortex-X925在關鍵時刻達到峰值性能,這表現在設備響應速度顯著提升;Cortex-X925在給定的功耗范圍內提升了性能,使得在功耗和熱設計受限的設備中能夠實現更多功能。

構建Cortex-X核心的目的不僅是為了取得卓越的基準測試結果,更是為了滿足AI等實際應用的需求。

對于“基準測試無關緊要”這一觀點,Manish Pandey并不認同,他認為這一觀點產生的原因在于基準測試被不當使用甚至被濫用——例如以不合理的方式在CPU上運行。以游戲為例,由于設備上總是同時運行著多個應用而游戲并非單線程在運行,因此可用的硬件資源量受到限制——它不可能運行在最大的CPU核心上,也不會耗費所有的功率預算,內存系統也并非完全占用。Arm通過對在真實設備上運行并分析程序的上下文,對各個應用進行逐個分析,了解并行運行任務的上下文,以及哪些風險可以被序列化以實現所需的性能,在基準測試與實際應用之間存在巨大差異的環境下的得出準確的判斷。

“從性能方面來看,我們達成了既定目標并有信心在下一代設備的CPU IPC方面保持領先?!盡anish Pandey說。

“性能”的提升意味著用戶能察覺手機上應用的快速運行和流暢度,而“效率”的成果則偏于無形。

至今已經發展了14代的Arm Cortex-A700系列對效率更是有獨特的詮釋。

Cortex-A725以持續的AI和游戲體驗和在3nm工藝上實現最佳的物理解決方案,將性能效率推向新的高度。與去年產品相比,其能效提高了25%;借助更好的預取器和更大的L2緩存,L3流量減少了20%,為LLM提供了更多余量以提升性能。

Arm Cortex-A520也是Arm終端CSS的CPU組件之一。雖然其所采用的微架構更新頻率較低,Arm依然與專用集成電路(ASIC)/芯片團隊緊密合作,通過更新實現流程,確保在微架構不變的情況下,在此次更新的版本中為合作伙伴提供最佳的3nm工藝解決方案。

DSU :支撐“集群”功能的實現與支持

在現實生活和工作中,不同的應用對不同的指標有各自的敏感性:ML或游戲對緩存大小和緩存吞吐量較為敏感,AI智能攝像頭一類的應用對緩存大小敏感度低,但關注內存延遲,而低強度線程的工作負載則對漏電比較敏感。

這就是多個CPU、GPU并存于集群中的原因。但如何讓其在合適的時間各自能發揮最大的價值?DSU通過單個實現達到動態應對不同的應用,并達成最佳效果。

DynamIQ Shared Unit通過前所未有的設計靈活性和更多的面向智能解決方案的計算處理,賦能下一波創新。它將大核和小核CPU組合成一個完全集成的集群,使得可穿戴設備、XR、移動設備、大屏幕計算、汽車和基礎設施等各類設備在功率和性能方面均能獲得新的增強優勢。其關鍵性能指標,如緩存大小、帶寬、延遲、漏電和動態功耗等與實際應用之間存在緊密的聯動。

此番推出的DSU-120至少包括三項更新:一是推出中高切片斷電模式(Middle high slice power down);二是新增了Quick Nap(QNap)模式,后者是介于RAM的運作(Functional)模式和保留(Retention)模式之間一項可支持合作伙伴在不影響性能前提下顯著降低漏電的功能,在為大型配置運行DSU時,可以使用整個DSU,但當需要降低功耗或滿足不同帶寬要求時,又可以適當縮小規模,大幅降低工作負載的功耗;此外,Arm還引入了硬件自動化。

優化三部曲:務實、穩健地解鎖所有高難度挑戰

在針對規模龐大的實際應用進行優化之前,開發者需要解決定義、設計、證明三大問題。以游戲為例,如果要提升25%的游戲性能,就要區分好是指每秒幀數增加25%,電池續航時間延長25%,或是游戲的復雜度提高25%,還是最終用戶的體驗滿意度提升25%?這要求Arm必須能夠從每個應用中提取關鍵區域。

在更深層級還需要考慮設備的限制條件,如屏幕的具體刷新率,決定每秒幀數的哪些因素,電池的續航能力以及在持續使用場景下的散熱能力;針對系統級芯片(SoC)的設計選擇,更需考慮DDR帶寬如何在GPU、ISP和CPU之間動態分配等問題。

應用商店里有超過 300 萬個應用,每天還有 3,000 個新應用上架,針對每一個應用進行優化是不現實的,因此需要對應用進行分類,并找出不同應用之間的共性,定義并確定需要改進的指標,將游戲、AI、基準測試分解為小的應用,然后采用合適的工具來設計CPU達成這些目標,即使是特定限制條件、無法使用整個系統資源的環境下也能在CPU上重放并找出瓶頸進行針對性的優化。

在性能之外,Arm同時也高度關注效率和能耗,并設計出新的電源模型來理解每項改進所帶來的貢獻。

Manish Pandey表示,最終Arm將所有這些成果綜合起來,確保所有的解決方案都經過了優化并達到了預先設定的所有指標。

以卓越的解決方案與合作伙伴共同成長

Arm持續關注新的技術,并根據新的市場需求不斷引入技術。作為Arm性能最強、效率最高、用途最廣泛的一個全面的Armv9.2 CPU集群,其不僅勝任新的計算密集型工作負載,還能持續提供出色的性能和用戶體驗。

 “Arm所打造的不僅僅只是技術本身,還有為強大的軟件生態系統提供支持?!盡anish Pandey表示,Arm的最終目標是在各細分市場推出卓越的產品,同時也專注于人工智能與更加新的解決方案,幫助合作伙伴快速推出更卓越的產品,賦能合作伙伴加速成功。

未經允許不得轉載:存儲在線-存儲專業媒體 » 詳解Armv9.2 CPU集群的核心:Cortex-X與Cortex-A700系列及組合功能的實現
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走