如何在Precision工作站上運行量化AI模型-存儲在線-存儲專業媒體

無論用戶的目標是將基礎模型原封不動地用于推理，還是根據具體的用例和數據進行調整，他們都需要了解LLM對機器的要求以及如何最好地管理模型。如果能夠利用用戶專有的數據開發和訓練出針對特定用例的模型，那么用戶的AI項目就能為其帶來最大的創新和回報。在使用LLM開發新功能和應用時，參數規模最大的模型可能會對機器性能提出極高的要求，因此數據科學家們開發出了一些辦法來幫助降低處理開銷和管理LLM輸出準確性。

量化就是其中的一種辦法。該技術通過修改LLM內部參數（即權重）的數學精度來縮小LLM的規模。降低位精度會對LLM產生兩方面的影響：一是減少處理所占用的空間和對內存的需求，二是影響LLM的輸出準確性。量化可以看作是JPEG圖像壓縮，雖然壓縮得越多，創建出的圖像效率就越高，但在某些用例中可能會使圖像變得模糊不清。

在實際應用中，如果用戶想要運行量化為4 bit精度的Llama-2模型，可以考慮戴爾Precision 3000和5000系列的多款移動工作站。

戴爾科技全新的3000和5000系列移動工作站集成了CPU，NPU，GPU多處理器組合，能夠優化100多款應用中的AI性能，使其運行更快、能效更高。例如，它們可支持全新的協作體驗，如AI驅動的視頻會議，提供背景模糊、面部取景和視線糾正等功能。NPU能有效地卸載CPU或GPU上的任務，使功耗降低高達40% 。這意味著電池續航時間更長，用戶無需頻繁充電即可持續工作。此外，新款CPU還配備了速度更快的集成顯卡，為更多媒體密集型AI工作負載提供卓越性能。CPU、NPU和GPU協同工作，共同打造靈活、高性能且節能的AI引擎，為用戶帶來絕佳體驗。

此外，全新戴爾Precision 3490和3590移動工作站最高可搭載NVIDIA RTX? 500 Ada圖形處理器，提升專業用戶的工作效率。Precision 3591則專注于設計與創作領域，輕松應對入門級2D和3D CAD應用。而Precision 5000系列移動工作站將創意應用的性能提升到了新的高度，Precision 5690憑借其小巧的16英寸機身，為用戶帶來出色的創意應用體驗。它具備廣闊的視野、出色的便攜性和強大的應用性能，最高可配備NVIDIA RTX? 5000圖形處理器。同時，機身小巧但強大功能的Precision 5490作為一款14英寸超便攜設備，在性能和體驗方面也毫不遜色。

在更高精度（BF16）運行會增加對內存的需求，但戴爾科技的解決方案可以在任何精度上滿足任何規模的LLM需求。戴爾Precision 7960 塔式工作站可支持多達四個NVIDIA 高性能GPU，其AI處理能力比上代產品高出80% 且每個GPU的VRAM高達48GB，而VRAM是處理GenAI大語言模型最關鍵的配置之一。

那么如何解決輸出準確性所受到的影響？另一種被稱為微調的技術可以通過在特定數據上重新訓練LLM的參數子集來提高準確性，進而提高特定用例中的輸出準確性。微調會調整某些已訓練參數的權重，能夠加快訓練過程并提高輸出準確性。通過將微調與量化相結合，就可以產生針對特定應用的小語言模型，這些模型非常適合部署到對AI處理能力要求較低的各種設備上。同樣，如果開發人員想要對LLM進行微調，也可以放心地將Precision工作站作為構建GenAI解決方案過程中的沙盒。

在使用LLM時這些不同技術不會相互排斥。把它們結合在一起使用往往會帶來更高的運行效率和準確性。

總之，LLM的規模以及哪些技術能夠為有效使用LLM所需的計算系統配置提供最佳參考都是關鍵的決定因素。戴爾科技堅信無論用戶在其AI旅程中想要朝哪個方向發展，戴爾科技的臺式機、數據中心等解決方案都將為其提供助力。

未經允許不得轉載：存儲在線-存儲專業媒體 » 如何在Precision工作站上運行量化AI模型

分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走