OpenShift TV專訪先智數據:基于AI的主動管理在多云環境如何實現成本和性能優化？-存儲在線-存儲專業媒體

先智數據長期致力于基于AI的主動管理來解決混合多云環境中的復雜性并為客戶帶來創新價值。Ming還展示了Federator.ai與Datadog Monitoring Services集成的相關產品演示。

先智數據是家怎樣的公司？

先智數據團隊由一群在IT管理，基礎架構和云運營，數據科學和AI技術方面具有專業知識的業內資深人士組成。我們的共同愿景是，IT基礎架構和云服務的目標是確?？梢詽M足應用需求，并且必須積極主動、預先部署以避免事后才反思。如果我們能夠了解工作負載行為并在適當的時間用適當數量的資源來匹配需求，則可以使操作的復雜性最小化，節省成本以及優化性能。

這樣做的理由是什么？

管理現有IT基礎設施和云運營都是非常被動的任務，需要很多人的創造力。當我們引入容器化的應用，DevOps操作和新的多云范例時，情況變得更糟。此外，工作負載大多是動態的。跟蹤，管理和優化具有挑戰性，必須進行巨大的更改。

這里先智數據（ProphetStor）CEO，Eric Chen還分享了一個小故事：

多年前，我在一家聯合創辦的公司工作，那時我們派了一組工程師在遠程客戶站點上部署軟件定義存儲解決方案，花了兩周時間完成，也贏得了要求嚴苛的客戶稱贊，是公司又一個新的成功案例。

一周后，我去拜訪了一同處理這位客戶案例的SI合作伙伴，沒有料想的慶功宴，那家公司CEO告訴我，Eric，這個項目很棒，你的技術團隊很厲害，客戶很滿意，我們賺了很多錢。但是，我想立即終止我們的分銷商合同。

我很震驚。得到的回答是，“我的團隊與您的技術團隊一起工作，他們要精疲力竭地了解配置的細節，需要在每個步驟中都非常小心，連接電纜，獲取正確的尺寸信息，密切關注應用的行為，而且很多時候，他們需要猜測滿足SLA所需的資源。存儲管理只和空間/容量有關，而與性能無關，無法解決我在操作中看到的主要問題，用你的產品機會成本太高了，必須有一種更自動化和智能的方法才行?！?/p>

多年后，當我離開以前的公司后，遇到了麻省理工學院教授同時也是企業家的Sunny Siu。開始談論將應用意識引入存儲管理，然后再引入IT和云。2012年，AI仍處于休眠狀態。我們決定建立一家公司來引入AI/機器學習技術管理應用和資源，Sunny也成為投資者和公司總裁。我們的工作就是——借助AI技術以及Kubernetes，尤其是OpenShift中的主動管理方式以及如何在多云環境中進行性能和成本優化。

如你所見，我們專注于Kubernetes/OpenShift平臺的次日運營（ Day 2 Operation，算是新概念。簡單來說就是當你完成初期的設施搭建，配置，測試并實現運行后，再對平臺進行絕對優化，監視利用率，確保其可用性和成本優化），因為我們著眼于運營自動化和效率。我們認為，這些會是為了讓大眾廣泛接受這個平臺所需解決的主要問題。

用戶角色擔當

由于我們正在開發一種解決效率和成本問題的產品，因此用戶角色是運營經理，CIO，CFO和CEO。 Kubernetes具有敏捷，高性能和靈活性。但管理也非常復雜。盡管如此，平臺用途大于復雜性，因此，流行性迅速上升。

不過，簡化部署至關重要，是第一階段采用產品的重點。對我而言，Kubernetes和容器范例的最大好處是它向管理層提供的開放性和透明性?，F在，我們能夠觀察到操作的詳細信息，從應用到容器級別，再到基礎架構，云操作，硬件組件，甚至CPU內核和DMA功能。

另一方面，對IT系統（如數據庫，MongoDB，Postgress）和虛擬化平臺（如Kubernetes），操作系統RHEL和硬件比如Intel或AMD CPU）都在提供產品方面表現出色，但都對水平層級施加了自我限制。結果，超出該特定層的任何內容，他們都選擇不查看或優化。

也就是說，它們傾向于啟發式和通用型。在Kubernetes/OpenShift平臺中，自我限制是對創新的真正浪費。我們應該利用整個系統的透明度，從應用到系統，再到資源。然后引入一個好的編排器來匹配從應用到資源供應的需求。這就是為什么我們要做Federator.ai。

Kubernets/多云/OpenShift的市場格局

在最近的市場發展中，可以看到提供監控服務或解決方案的供應商變得非常受歡迎。工具包括Datadog，Dynatrace，Sysdig，Instana，SignalFX等。它們有助于解決Kubernetes和云平臺中的“可視性”問題。幾年前，容器監控解決方案還不夠成熟。而且當你遷移數據到云時，除非訂閱了監控服務，否則就沒有在云上運行的應用和系統的可見性。因此，我們認為監控市場在不久的將來仍將有很高的需求。一個輔助證明是幾周前，IBM剛剛收購了Instana。

接下來要解決的問題是安全性。我們可以在這類市場中看到一些活躍的供應商，例如Sysdig。

我們認為，下一個大趨勢是涉及Day 2 Operation的第2階段采用。在將工作負載部署到云之后，管理員將在性能和成本方面面臨下一個運營效率問題。

很多經理在收到云賬單時大為震驚。我本人就是受害者。我認為，如果沒有良好的計劃和對云計算的操作模型以及如何收費的正確理解，應用的性能以及在云上運行工作負載的成本可能不會達到預期。此外，多云環境還帶來了另一種復雜性——選擇最佳的定價計劃來滿足工作負載的SLA?，F在，你還可以擁有多個云服務提供商。除此之外，一個服務提供商的每個數據中心都可能針對同一實例提供非常不同的定價。

因此，我們相信先智數據通過提供針對自動化，性能和運營成本的基于AI的主動管理解決方案可以為社區做出貢獻。我們的解決方案與其他廠商的主要區別在于我們考慮了全棧式操作。

圖1：Federator.ai –云自動化運行解決方案

圖2：為什么需要應用感知操作：我們的答案

圖3：感知應用的操作：自動化，性能和成本

圖4：應用剖析結構和多層關聯：靜態拓撲和動態關聯

圖5：工作負載預測：捕獲應用動態

了解工作負載變化能幫助我們進行良好的資源規劃。

Federator.ai允許用戶觀察Kubernetes或OpenShift集群中應用/資源在不同層級的工作負載預測。

通過對不同資源層使用不同的預測粒度和預測結果，用戶可以更好地進行資源規劃，以優化其性能和資源利用率。

圖6：工作負載預測現場演示

在大多數情況下，CPU或內存使用情況并不是衡量實際工作負載的良好指標。以Kafka分布式日志系統為例；你有很多Kafka生產者在一天內不同時間以不同的價格向Kafka代理商發送消息。代理商要確保自己有足夠的Kafka用戶的同時，還要及時接收和處理這些消息，不會造成大的延遲。 Kafka使用者的CPU使用率并不是最好的工作負載指標。在這種情況下，來自生產者消息的生產率是正確的工作負載指標。借助Federator.ai預測適當工作負載的能力，我們可以動態擴展Kafka使用人數，以便在適當的時間為適當數量的使用者提供服務。

當我們可以預測到動態工作負載時就是能提供操作的絕佳示例。