北京2021年1月28日 /美通社/ -- 日前,OCP社區公布了OpenRMC Design Specification v1.0(開放整機柜管理設計規范1.0版本),對整機柜的北向管理接口進行了規定,初步明確了設備管理中信息采集范圍、數據呈現方式及采集模塊的硬件部署選項,為智慧時代數據中心的自動化運維管理提供參考。
智慧時代數據中心運維復雜度提升
隨著智慧時代的來臨,數據中心上層應用負載的多元化與復雜化,以及人工智能、容器等新技術的不斷引入,數據中心計算資源變得異構和池化,除了傳統的CPU,GPU、FPGA等加速計算單元也在服務器系統中發揮越來越重要的作用。
異構設備給關鍵業務和數據提供有效支撐,也帶來了下一代數據中心運維管理復雜度迅速提升,用戶希望實現自動化部署、自動化巡檢、深度故障診斷以及智能告警,進一步提升數據中心的可靠性和可用性,減少軟硬件故障或者系統升級所帶來的業務中斷。
同時,計算資源的核心部件CPU、GPU處理性能雖然逐漸脫離摩爾定律,但多核心、先進制程工藝的采用,同樣不斷推高處理器和服務器的能耗。相當一部分數據中心運營成本耗費在了散熱、供電所帶來的能源損耗上,帶來巨大的成本壓力。
因此,提升數據中心能源利用率,推動綠色節能數據中心建設,已經成為提升數據中心競爭力,實現環境效益與經濟平衡的重要方式。而傳統數據中心運維模式難以對服務器的性能、功耗進行實時、細粒度的監控和統計,影響了節能降耗的效果。
OpenRMC提供未來數據中心運維參考架構
自動化運維是降低數據中心能耗,實現數據中心內部服務器資源配置優化的重要途徑。近年來,OCP在這一方面進行了廣泛的實踐,包括如何在單位空間里提供更高的計算密度,如何通過統一的規范減少單一廠商綁定,如何快速響應突發應用需求等。要滿足上述需求,彈性、模塊化的數據中心整機柜設計和交付至關重要。
為提升下一代數據中心智能化運維能力,浪潮牽頭在OCP社區成立了OpenRMC項目組,發布基于OCP標準的整機柜管理架構的解決方案,為各類數據中心,尤其是大規模、超大規模數據中心,提供了下一代開放技術管理方案。
OpenRMC解決的一個重要問題在于提升開放性。在傳統數據中心運維過程中,用戶往往會使用BMC 軟件來輔助進行管理控制。但是BMC的產品是商用的,必須由指定的供應商進行維護,不但成本高昂,而且具有非常強的依賴性。要對新設備進行管理,只有等待BMC版本更新才能支持,這顯然無法滿足數據中心敏捷業務的需求。此外,閉源的BMC難以進行靈活修改,自由度較差。OpenBMC針對這些傳統BMC缺點,提供了模塊化軟件架構便于新設備資源的增改,并使用C++、Java腳本等高級語言框架解決管理信息可讀性、易訪問的問題。
OpenRMC可以基于OpenBMC管理維護服務器內計算資源。除了OpenBMC技術的采用,整機柜的南向管理可以實現標準化,以統一的規范收集服務器內部的硬盤、電源等信息,機柜的Power shelf、架頂交換機等機柜設備信息;北向管理則通過控制呈現的方式,形成了一個標準化的管理方法,并計劃未來滿足安全、加密、資源池化等新業務的需求。
OCP中國社區聯席主席、浪潮技術總監郭洪昌表示,目前,浪潮已經基于OpenRMC開發了系統級管理套件,實現整機柜高效管理。對服務器、存儲等系統設備,機柜內的電源模塊、風扇、網絡交換機等模塊,以及環境溫度進行一體化統一監控,確保整個機柜內所有部件和設備的運行情況都能了如指掌,同時通過可視化設備詳盡的展現出來,滿足自動化運維的要求。在此基礎上,浪潮以機柜內所有設備為對象,定義了北向管理的接口規范,并貢獻到OCP組織,在OCP的框架內推動北向呈現與南向管理的接口無縫對接和有效通訊。
“我們希望通過 OpenRMC,擴展基于開源技術的整機柜管理系統,不僅幫助大規模數據中心,也幫助中小型數據中心整合異構設備,并實現自動化、精細化運維,從而降低其IT運維成本,簡化管理方式并提高效率。”他談到。
為滿足數據中心的整體運維需求,浪潮還構建了物理基礎設施管理平臺 ISPIM,提供資產統一管理、設備實時監控、告警精準推送、設備自動巡檢、無狀態固件管理、智能能耗分析等功能,實現數據中心內部服務器、存儲、網絡設備統一智能監控運維。通過融合面向節點運維的 OpenBMC 技術、面向整機柜運維管理的 OpenRMC 技術,以及面向數據中心整體運維的 ISPIM 解決方案,浪潮能夠幫助用戶降低數據中心的運維難度,讓數據中心運維更加綠色、智能。
開放計算生態企業積極參與OpenRMC
不僅僅浪潮,微軟和Intel兩家數據中心技術領域的領導廠商也在OpenRMC項目上貢獻了大量的參考設計和代碼。Intel公司在2014年,發布了Intel® RSD(Rack Scale Design)整機柜參考設計,旨在推廣數據中心的資源池化及彈性部署的技術,以提高數據中心的資源利用率。作為OpenRMC項目的發起者之一,Intel把RSD機柜管理模塊及管理接口API(RSD RMM REST API)開源貢獻到了OpenRMC項目組,并提供了機箱、電源及散熱等重要功能組件的參數獲取的參考代碼及獲取方法。
Microsoft智能云Azure是全球最大的公有云平臺之一。身為超大規模數據中心擁有者,以及云服務提供者,Microsoft公司不僅向OCP社區開源貢獻了OCS和Olympus兩種服務器標準,還把自己針對數據中心的管理經驗向OCP社區做了分享,提出了RMC硬件的幾種不同實現方法,并且對OpenRMC固件的軟件模塊化設計提出了自己的建議,并提供了獲取機柜級組件狀態信息、和管理監控的命令實例。
Intel和Microsoft貢獻的代碼和硬件參考設計,極大地豐富了OpenRMC項目的適用場景,并活躍了自動化運維的生態系統,為OpenRMC功能的廣泛采用提供了基礎平臺以及信用保證。