
2018年第四屆數據中心基礎設施峰會,華為智能DC管理系統(tǒng)產品規(guī)劃經理魯楠分享了題為《華為DCIM+智能運維管理技術和實踐》
以下為精彩演講實錄(有刪減)
今天我要分享的是基于華為實際運營經驗的數據中心運維管理平臺,我們把管理平臺定義為DCIM+,是遠遠高于業(yè)內DCIM的定義的,所以我們希望通過這么一個+,把我們數據中心的管理理念或者管理的方面使用到一個新的程度。
數據中心營維的挑戰(zhàn)
數據中心在新的產業(yè)階段面臨著如何運營好大型化和集群化數據中心的問題,以華為以及金融的兩地三中心的數據中心為代表,數據中心已經到了非常大規(guī)模的程度,單個數據中心基本上也都會達到上萬的規(guī)模,同時互聯(lián)網數據中心IDC發(fā)展更迅速,一些運營商在規(guī)劃數據中心的時候一次就能規(guī)劃16、17棟樓。所以在這么大的數據中心產業(yè)發(fā)展基礎上,我們如何更好經營這個數據中心是現在大家面臨的一個最新的挑戰(zhàn)。具體來講有以下四點:
第一,運維的挑戰(zhàn)。目前智能化逐漸融入各行各業(yè),但是落到咱們數據中心的運維過程中仍然是一個非常原始的方式,大量的數據中心仍然靠人工每天6次、12次的巡檢,人工現場去檢查各種故障和隱患,這樣是非常低效的。而且由于人工操作帶來的事故變相增多。根據相關研究報告顯示,包括我們自身的實踐也可以看到,大多數的事故并不是起源于設備本身,而起源于人為的失誤,人參與越多產生的問題越多,所以下一步我們所希望的也是客戶所希望的是,通過智能化的、系統(tǒng)的方式降低運維的難度和對人工運維的依賴,提升運維效率。
第二,管理的問題。數據中心規(guī)模的不斷擴大,如何面對管理的壓力?首先專業(yè)運維人員短缺的問題,其次是面臨分散的、大規(guī)模的數據中心,如何保障管理水平的一致性。例如華為在全球有170多個數據中心,如何保障分散化的數據中心管理的一致性,如何保障每一個數據中心執(zhí)行不同的等級管理標準,這是非常嚴峻的問題。
第三,成本的問題。因為高居不下的電費,現在越來越多的數據中心高層已經把能耗變成運維部門的一個KPI,因此大家對這個都非常重視。
最后,運營的挑戰(zhàn),F在行業(yè)上大部分數據中心是缺乏運營的,具體表現在3個說不清楚上。第一錢花在哪里說不清楚,比如具體電費花在哪里、運維人員的人力和費用說不清楚。第二有些錢該不該花說不清楚,比如說我們要上一套運維的管理平臺,具體它的價值在哪里,它能給我的數據中心帶來多少收益?這個說不清楚。第三個要不要再花說不清楚,什么時候我們的數據中心開始要擴容了,什么時候我們要去外面再租一個數據中心,我們現有的資源有沒有得到充分利用,這一點是很多數據中心的管理者非常頭痛的一個問題。
基于以上這幾個問題,下面介紹一下華為在數據中心智能的運維管理平臺DCIM+產品化方面的一些實踐經驗。
首先監(jiān)控底層數字化的問題,華為基于在通信方面豐富的經驗優(yōu)勢,把所有自己的設備做了智能化,我們現在不僅僅做到IO化,希望未來做到IOT化,希望通過5G的方式,這樣就可以更好保障數據的準確性,保障我們更多獲取到基礎設施數字化的數據。
第二是網絡化的內容,現在絕大多數的DCIM中間這一層主要是采集器,而我們現在希望把它打造成一個邊緣的計算中心,這個計算中心的作用在于數據的處理,我們監(jiān)控的一些數據通過這個采集去傳的話,比如不同品牌、不同廠家設備的協(xié)議統(tǒng)一,就是數據模型的統(tǒng)一都會在這個上面進行出路,同時加入AI的特性,比如圖像識別的特性。前一段時間在上海華為已經發(fā)布了AI芯片,將來也會內置在邊緣計算當中,保證數據中心基礎設施的數字化得到完整的呈現。再往上一層是我們的云平臺,就是DCIM的軟件,主要做一些數據的處理和分析,包括我們對于資源的管理,對于運維的管理以及輔助決策的能力。
華為DCIM+的實踐
- 第一個是全流程的電子運維,包括巡檢的操作、維保的操作、應急演練的操作,把所有的流程以及操作指導全部做到線上,實現了運維質量從原來靠人,靠人的責任心,到現在靠流程管理的升級。華為通過后續(xù)的量化指標,通過全流程電子化的運維跟蹤,量化原來沒有辦法量化的,比如維護保養(yǎng)巡檢的執(zhí)行力、運維活動的質量。此外,通過流程去跟蹤風險遠遠比依靠個人的責任心去跟蹤風險有效可靠得多,目前我們在短短幾個月時間發(fā)現風險的條目就已經增加了十幾倍,這意味著你平時發(fā)現的隱患或者發(fā)現的風險越多,越容易避免非常大的重大事故。
- 第二個是運營可視化的實踐。這與第一點是相互關聯(lián)的,因為量化所有運維活動的數字,也是某種意義上的可視化。通過可視化,傳統(tǒng)的監(jiān)控數據信息可以更直觀的呈現出來。華為全部采用3D的模式,在DCIM+管理系統(tǒng)里面,客戶想看和想查找的的信息一目了然,操作也十分便捷,和現場的實際情況是一樣的;根據可視化的數據信息,我們運營分析因此也可以做到可視化,比如機柜的使用率,資源的出資情況、剩余情況等等,都可以進行可視化管理,為客戶提供更好的體驗。
- 第三個實踐是數字化的管理,更確切的說是數字化的決策。在做數據中心容量規(guī)劃過程中,比如我們服務器具體上架的最佳位置,現在更多是靠人的主觀性判斷,沒有數據做決策支撐。因此在華為DCIM+里面,我們疊加了上架的算法,不僅僅是上架,包括空間的規(guī)劃、電力的規(guī)劃等等,全都放到系統(tǒng)里面。所以我們在業(yè)務運行的過程中需要做決策的時候,系統(tǒng)會基于能效更優(yōu)還是利用率更平衡等幾種模式做出推薦,同時還會針對不同的業(yè)務使用方的使用率進行一個動態(tài)的評估,這樣可以讓你更好調度這些資源,充分挖掘現有數據中心的潛力。
最后一個實踐就是我們在AI方面的進一步探索,將被動式運維變成預測性和主動式維護,改變傳統(tǒng)的人工運維模式。例如我們需要現場更換一些易損的部件,以電池為例(因為現在的監(jiān)控系統(tǒng)是覆蓋不到的),可以引入AI和大數據的方式,把圖像識別、聲音識別等類似的傳感器放在一起做AI方面的判斷,減少大家現場的工作。另外就是指導人,為決策做支撐,讓大家的價值發(fā)揮到最大,比如專家的經驗覆蓋到更多的數據中心,讓大家的決策更加準確和正確。
關于網絡安全的話題。眾所周知,數據中心的網絡安全非常重要,但是基礎設施的網絡安全可能大家關注的非常少,其實隨著設備的智能化程度越來越高,包括更多的端口的出現,我們面臨的風險也會越來越高,包括身份的篡改等等都會出現,只有全面的掌握可能的威脅才有可能進行系統(tǒng)的防御。
華為做了非常多的信息安全工作,當然不僅僅是公司級的,包括我們自己的產品-華為數據中心DCIM+的產品,我們的軟件產品,全部通過國家公安部最高等級的信息安全認證,可以充分保證基礎設施的網絡安全。
華為基于云的DCIM+,是一站式的多DC管理系統(tǒng),你只需要一個手機APP,一鍵就可以看到DC狀態(tài);通過云化的DCIM+可實現后續(xù)數字化、可視化的運維和管理,提升DC營維效率。