北京2024年10月21日 /美通社/ -- 隨著數字化和智慧化的加速落地,數據中心的設備規模快速攀升。數據中心的Scale out給基礎設施運維管理帶來全新挑戰。以擁有10萬+設備的大規模數據中心為例,面對每日產生高達近30TB的設備運行狀態、億級監控指標、數千條告警推送等,如何秒級反饋海量并發需求,保證管理平臺穩定運行?如何避免將每秒近千條的大規模設備告警風暴強塞給客戶,進行根因定位并避免誤報、漏報?這些挑戰正伴隨服務器、存儲和網絡設備規模的持續增長,成為超大規模數據中心管理亟待解決的難題。
浪潮信息InManage是一款面向數據中心基礎設施的智能管理平臺,通過統一接口、協議,能夠納管多達400種不同廠商、不同型號的服務器、存儲、網絡等機型,設備規模最多可達10萬臺,為超大規模數據中心運維提供智能均衡調度、實時精準告警等管理功能。浪潮信息InManage通過智能均衡作業調度平臺,能夠在秒級內處理超大規模數據中心億級實時并發運維管理數據,并基于自研的告警管理框架,實現5秒內響應上千條告警風暴,顯著降低告警誤報與漏報的風險。InManage不僅創造了金融行業單一數據中心帶外管理的最大紀錄,還實現了數據中心基礎設施全生命周期管理,整體運維效率提升兩倍,為超大規模數據中心的穩定、高效運行奠定了重要基礎。
10萬+超大規模設備集群管理,面臨穩定性與實時性多重挑戰
隨著數據中心的規模化發展,服務器數量爆發式增長,數據中心設備規模從最初的1000臺增加到10萬臺,規模擴大了100倍,涵蓋了不同年代和廠商的服務器、存儲、網絡設備等,設備種類多,內存、電源、硬盤、風扇等各類故障發生的不確定性大。對于不同設備的統一管理,一般運維管理平臺會在底層屏蔽設備差異,基于基線策略來實現納管。但隨著數據中心規模的驟增,數據中心運維管理的穩定性和故障的實時精準告警等挑戰變得日益嚴苛。
首要面對的挑戰是大規模數據中心基礎設施管理平臺的失穩問題。大規模基礎設施管理要對不同基礎設施運行狀態進行實時分析,每天數據量達到TB級,而且海量并發需求要在秒級反饋,極易出現故障上報不及時、頁面卡頓,甚至管理平臺宕機。比如以往某客戶數據中心管理平臺進行運維測試時,基礎設施規模從1000臺增長到5000臺,規模提升到原來的5倍,會出現管理頁面卡頓,后臺日志顯示大量采集任務超時的問題。即使后續對管理平臺進行分布式部署,系統負載依然出現較明顯的峰值抖動現象,導致頁面周期性卡頓。其原因主要是作業被調度后,缺乏有效的離散管理,高峰與低谷負載不均,對系統穩定性帶來極大的挑戰。此外,對于海量資源的數據采集任務,會受線程數、采集周期和耗時等因素影響,容易造成任務積壓,對管理平臺異常情況下的任務隔離與自動降頻能力提出更高要求。
此外,設備大規模告警的延遲、誤報和漏報是另一大挑戰。在10萬+大規模設備運維場景中,一般金融等行業的客戶數據中心管理平臺通常以平鋪直敘方式呈現設備告警,缺乏更深層的故障根因判斷、全周期管理等能力。在此場景下,一旦服務器BMC在批量刷新固件時出現故障,可能會在短時間內產生大量的Trap推送,同時還夾雜著設備離線等一系列異常告警。數千條告警的推送,易造成通信堵塞,從而出現告警延遲、告警丟失等。當客戶看到堆積數千條告警郵件通知時,極易導致客戶誤認為系統正面臨重大故障風險。而且由于沒有全周期管理機制,即便設備故障修復,告警信息仍會持續存在,這也大大增加了運維管理的復雜性。
智能均衡作業調度,10萬+超大規模設備億級指標穩定采集
在超大規模監控場景下,作業調度不暢極易造成作業堆積、負載波峰波谷抖動,嚴重影響系統穩定性,進而影響采集進度。為此,浪潮信息InManage自研了ChaosJob作業調度中間件,突破了作業智能均衡調度技術,實現了采集作業的高效調度和穩定執行。
告警管道動態分析,1000+告警動秒級實時精準響應
在面對10萬+超大規模設備管理時,如何避免將系統產生的告警風暴強塞給客戶,如何進行根因定位并避免誤報、漏報,是數據中心統一管理的另一挑戰。為此,InManage提出了CDCAlarm告警管理框架,突破了告警集成管理技術,實現了告警的及時性、準確性和全面性,同時支持告警分析、聚合及根因分析等功能。該框架能夠為客戶呈現按優先級排序和分類聚合的告警,直觀易懂、方便用戶進一步處理。
InManage使用AI技術手段對告警進行分類、分批處理,實現告警按來源、種類的歸并聚合策略,在保證告警時序性的同時,提升了告警處理的整體吞吐量。同時使用基于AI的根因定位方法,快速從告警風暴中準確識別出故障根因,并呈現給客戶,有效解決了客戶在面對告警風暴時無從入手的局面。
同時,針對超大規模監控場景下常見的誤報漏報等告警不準確、不及時問題,InManage也做了優化。
秒告警秒恢復問題:在10萬+設備的管理中,某些設備可能在發出告警的同時又快速發出了恢復信號,甚至可能出現恢復信息先于告警到達。在此場景下,傳統系統容易誤判為告警未恢復,從而導致誤報。InManage的智能告警歸并技術能夠有效識別和規避此類時序問題,確保告警處理的準確性。
告警噪點問題:在資源利用率實時采集場景下,短暫的峰值可能導致瞬時超閾值的告警,但整體使用率卻保持平穩。為避免因這些噪點導致的誤報,InManage的告警管道采用了智能識別和計數技術,能夠對短時間內的同類告警進行聚合處理,從而徹底消除此類誤報。
告警遺漏問題:在大規模數據中心中,由于網絡負載高,SNMP協議中的Trap信息(基于不可靠的UDP傳輸)更容易丟失。為解決這一問題,InManage提出了融合多種協議和多源數據的AI智能預警技術,該技術可提供全天候的設備實時監控和故障分析,有效降低了告警遺漏的風險,減少客戶業務隱患。
穩定、快速和高效的超大規模監控
在10萬+大規模設備管理環境中,InManage系統表現出了穩定的性能與高效的運作能力,確保了數據采集任務得以平穩且迅速地執行,顯著增強了系統的整體處理能力,有效規避了任務積壓問題。面對每日高達近30TB的服務器運行狀態數據洪流,InManage每秒可處理高達1000條的告警風暴,響應延遲維持5秒以內,保證了系統監控的實時性與準確性。
此外,InManage還具備對歷史數據進行高效壓縮與無縫轉儲的能力,在保障當前系統流暢運行的同時,確保了歷史數據的完整性與可訪問性,有效避免了數據丟失的風險。在如此龐大的規模下,InManage仍能快速查詢一年內的歷史告警或事件通知,響應時間縮短至2秒以內,為客戶提供了強大的歷史問題追溯能力,確保問題根源得以迅速定位,為系統的長期穩定運行提供了堅實保障。
InManage滿足了客戶對于大規模、多元化、多類型設備的統一帶外管理,確保了數據的穩定采集及告警集中高效監控,同時還具備基礎設施全生命周期資產管理、自動化部署管理等能力。其大規模統一帶外管理技術、告警智能化分析技術水平處于國內領先水平,授權國家發明專利超過20項。未來,InManage也將更加關注客戶需求的變化,不斷優化產品和服務,為客戶提供更加全面、高效、智能的解決方案,助力客戶實現數字化轉型和業務升級。