無論用戶的目標是將基礎模型原封不動地用于推理,還是根據具體的用例和數據進行調整,他們都需要了解LLM對機器的要求以及如何最好地管理模型。如果能夠利用用戶專有的數據開發和訓練出針對特定用例的模型,那么用戶的AI項目就能為其帶來最大的創新和回報。在使用LLM開發新功能和應用時,參數規模最大的模型可能會對機器性能提出極高的要求,因此數據科學家們開發出了一些辦法來幫助降低處理開銷和管理LLM輸出準確性。

量化就是其中的一種辦法。該技術通過修改LLM內部參數(即權重)的數學精度來縮小LLM的規模。降低位精度會對LLM產生兩方面的影響:一是減少處理所占用的空間和對內存的需求,二是影響LLM的輸出準確性。量化可以看作是JPEG圖像壓縮,雖然壓縮得越多,創建出的圖像效率就越高,但在某些用例中可能會使圖像變得模糊不清。

在實際應用中,如果用戶想要運行量化為4 bit精度的Llama-2模型,可以考慮戴爾Precision 3000和5000系列的多款移動工作站。

戴爾科技全新的3000和5000系列移動工作站集成了CPU,NPU,GPU多處理器組合,能夠優化100多款應用中的AI性能,使其運行更快、能效更高。例如,它們可支持全新的協作體驗,如AI驅動的視頻會議,提供背景模糊、面部取景和視線糾正等功能。NPU能有效地卸載CPU或GPU上的任務,使功耗降低高達40% 。這意味著電池續航時間更長,用戶無需頻繁充電即可持續工作。此外,新款CPU還配備了速度更快的集成顯卡,為更多媒體密集型AI工作負載提供卓越性能。CPU、NPU和GPU協同工作,共同打造靈活、高性能且節能的AI引擎,為用戶帶來絕佳體驗。

此外,全新戴爾Precision 3490和3590移動工作站最高可搭載NVIDIA RTX? 500 Ada圖形處理器,提升專業用戶的工作效率。Precision 3591則專注于設計與創作領域,輕松應對入門級2D和3D CAD應用。而Precision 5000系列移動工作站將創意應用的性能提升到了新的高度,Precision 5690憑借其小巧的16英寸機身 ,為用戶帶來出色的創意應用體驗。它具備廣闊的視野、出色的便攜性和強大的應用性能,最高可配備NVIDIA RTX? 5000圖形處理器。同時,機身小巧但強大功能的Precision 5490作為一款14英寸超便攜設備,在性能和體驗方面也毫不遜色。

在更高精度(BF16)運行會增加對內存的需求,但戴爾科技的解決方案可以在任何精度上滿足任何規模的LLM需求。戴爾Precision 7960 塔式工作站可支持多達四個NVIDIA 高性能GPU,其AI處理能力比上代產品高出80% 且每個GPU的VRAM高達48GB,而VRAM是處理GenAI大語言模型最關鍵的配置之一。

那么如何解決輸出準確性所受到的影響?另一種被稱為微調的技術可以通過在特定數據上重新訓練LLM的參數子集來提高準確性,進而提高特定用例中的輸出準確性。微調會調整某些已訓練參數的權重,能夠加快訓練過程并提高輸出準確性。通過將微調與量化相結合,就可以產生針對特定應用的小語言模型,這些模型非常適合部署到對AI處理能力要求較低的各種設備上。同樣,如果開發人員想要對LLM進行微調,也可以放心地將Precision工作站作為構建GenAI解決方案過程中的沙盒。

在使用LLM時這些不同技術不會相互排斥。把它們結合在一起使用往往會帶來更高的運行效率和準確性。

總之,LLM的規模以及哪些技術能夠為有效使用LLM所需的計算系統配置提供最佳參考都是關鍵的決定因素。戴爾科技堅信無論用戶在其AI旅程中想要朝哪個方向發展,戴爾科技的臺式機、數據中心等解決方案都將為其提供助力。

未經允許不得轉載:存儲在線-存儲專業媒體 » 如何在Precision工作站上運行量化AI模型
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走