一轉眼,2020年就到來了。對于數據中心產業(yè)來說,2020年將是充滿希望和收獲的一年,同時也是在綠色節(jié)能方面壓力更大的一年。與數年前各地熱烈歡迎“高科技”產業(yè)的盛況相反,如今的數據中心“高能耗”產業(yè)名聲在外。如何平衡高速數字化發(fā)展對數據中心的需求,和數據中心給能源、環(huán)保帶來的壓力,是產業(yè)亟需解決的問題。

從社會能耗的角度看,包括我國在內的世界各國都在倡導低PUE的綠色中心建設。去年年初,工信部等三部門聯手發(fā)布了《關于加強綠色數據中心建設的指導意見》,推動全國數據中心向節(jié)能綠色發(fā)展。在這前后,北京、上海、深圳等核心大城市紛紛出臺了相關的產業(yè)政策,嚴控數據中心PUE數值,最低標準已經達到了1.30(深圳地區(qū)甚至有1.25的相關指標),這對現今的數據中心設計、建設和運維是不折不扣的重大挑戰(zhàn)。
從數據中心本身來看,能源支出一直是數據中心運營成本的大頭。根據2015年至2019年期間進行的相關研究表明,數據中心電力成本大約占運營成本的35%至40%。如果對一個典型的大型數據中心能耗進行整體分析便可以發(fā)現,IT系統之外的能源消耗占比大的就是制冷系統。因此,破解用電瓶頸、降低數據中心能耗的關鍵在于提升制冷系統效率。
降低PUE值本意就是削減IT系統之外的能源消耗,如果數據中心的PUE由1.80(2017年全球平均水平)下降到1.30,則意味著IT系統之外的能耗降低了62.5%,整體電力成本則削減了28%。從這里可以看出,控制PUE無疑是節(jié)省成本最有效、直觀的途徑。
“PUE”靠得住么?
而對于“唯PUE”論,行業(yè)內也開始了有了不同的聲音。眾所周知,PUE是衡量數據中心非IT系統能耗占比的一個數值。通過良好設計與建設的數據中心,采用合適的散熱方案,以及精細化運維,理論PUE數值可以降到1.1甚至更少。不過在實際運營中,大部分數據中心是無法達到理論PUE值的。機架空載、業(yè)務波動、氣溫變化等等均可能影響到數據中心的PUE值。
按PUE計算的數據中心制冷功耗的平均比例
IT核心系統用電不能缺少,辦公、照明等系統耗電比例較低,所以降低PUE本質上就是降低制冷系統的能耗。但制冷系統的調整對于整個數據中心溫度的影響并非線性的,簡單的減少制冷系統功率,對于數據中心這樣的復雜體系來說,可能造成不可預估的后果。
IT系統運行需要一個適宜的溫度,目前大部分數據中心服務器溫度都控制的很嚴格,遠低于國家標準以及行業(yè)組織的推薦值。之所以如此,是因為在某些因素影響下,當大部分服務器處在合理溫度區(qū)間內時,部分服務器卻會偶然出現過熱的情況。而一旦溫度超出了服務器的工作極限,就必然面臨出錯、宕機等故障。
與此同時,還要考慮到IT系統在不同溫度下工作的效能問題。機房溫度提升1℃,不等于服務器就同樣提高1℃并且照常運行。相反,可能觸發(fā)服務器本身的散熱、保護系統等,比如服務器、機柜風扇從待機到運行。最終結果是服務器的效率沒有提升,機柜的整體功耗卻有增長。這樣看來,PUE是否還有降低空間需要更加復雜的整體測算。
最后一個問題是,PUE本身只是一個計算數字,最終決定PUE是否“靠譜”的其實是運維人員本身。雖然運維人員可以掌握機房各方面的信息,但在各種復雜信息的干擾下,任何微小的調整,都會對機房這個非線性系統帶來不可預估的后果。當然,運維工程師也可以考慮通過一套完備的公式來預測調整效果,但目前看,還沒有這樣可以完善囊括機房所有影響因素的計算公式,人力也無法時刻準確關注如此復雜的環(huán)境變化。
所以,目前數據中心對PUE以及制冷系統的調整,還處在經驗以及“拍腦袋”共用的“混沌”狀態(tài)。而數據中心數十年的發(fā)展歷史告訴我們,人工運維失誤,永遠是導致數據中心系統宕機的第一因素。
這時,就需要AI來救場了。
iCooling應需而生
廊坊,北臨京都,東接天津,素有“京津走廊明珠”之稱,很多影響京津冀的產業(yè)核心也往往落地于此。華為公有云的北方基地、華北地區(qū)數據樞紐-廊坊云數據中心即建設在這里。目前,華為廊坊云數據中心已投產4500個容量IT負載為36兆瓦的機架,可容納近10萬臺服務器,巨額電力消耗帶來的運營成本居高不下。
華為廊坊云數據中心在下一個十年中容量將增長10倍,并將能夠容納100萬個服務器單元。屆時的電力需求將有10倍甚至更多的增長,不僅華為每年要為此付出數額巨大的電費,也會給園區(qū)供電帶來難以預估的壓力。
節(jié)能減排,控制成本是亟需解決的問題。華為廊坊云數據中心采用了目前所有常見的先進節(jié)能措施,包括行級精密空調、高效供配電,冷熱通道隔離等。在最新的方案還將部署間接蒸發(fā)式自然冷卻(IEC)系統——這是一種新型的自然冷卻(間接蒸發(fā))系統,可以高效的利用外部冷源,大幅降低制冷系統的電力消耗。
如前文所說,傳統的制冷系統管理雖然久經驗證,但高度依賴運維人員的經驗,從整體看缺乏靈活性和精確性。為了保障服務器的安全運行,大多數機房溫度冗余范圍很大,必然導致能效降低。而復雜的體系,也限制了運維調整空間,只能在幾個固定模式之間切換,無法根據系統的實際用量做出精確的調整。
為了解決這一問題,華為引入了基于AI的系統控制方案——iCooling。
“驗證”引領“普惠”
華為并不是第一個利用AI來控制制冷系統的,谷歌在過去十年中一直嘗試使用DeepMind AI讓AI系統負責部分數據中心的用電來減少數據中心的能源費用。據谷歌透露,截止2014年,AI幫助其數據中心的平均PUE達到1.12,此后幾年均保持并降低了這一平均值,每年因此可節(jié)省40%的制冷費用。按照PUE 1.12計算,不考慮辦公、照明系統的情況下,相當于節(jié)省了近4.8%的電力支出。
在國內,華為無疑是在這條探索的道路上走的最遠的一個,并且取得了令人滿意的階段性成果。2018年5月,華為iCooling解決方案首次被部署在華為廊坊云數據中心的1500個機架上。目前該試點區(qū)域(1500個機架)的年平均PUE已降低至1.3以下,節(jié)省了8%的電力消耗。
AI調控機房環(huán)境,就原理來說與運維工程師的做法并無二致,同樣是通過調整制冷系統比如出風溫度來影響整個機房的溫度。只不過對于人類來說難以同時監(jiān)控并且做出應對大量系統參數的變化,AI處理起來不過是舉手之勞。真正的難點在于,當調整了其中一個參數時,系統中的其它參數將做出如何改變,又應該如何配合。在目前的運維體系中沒有現成的公式或算法可參考。
大數據與AI的結合,是尋找這種算法的利器。通過使用海量的歷史數據來訓練AI神經網絡,讓AI通過機器學習算法,分析PUE與數據中心內具體組件生成的數據之間的聯系,以發(fā)現不同設備與不同系統參數對系統整體的影響。最后,通過建立數學模型,以大量傳感器數據作為輸入參數,最終找到實現所需結果的最佳配置。
在華為廊坊云數據中心,iCooling從700多個監(jiān)控點、傳感器中收集數據,分析這些數據與系統PUE數值、能效之間的關聯度,并成功識別出最重要的21類變量。基于這21類變量,華為iCooling訓練深度神經網絡,建立動態(tài)PUE模型。訓練后的PUE模型預測準確性達到了99.5%,誤差僅為0.005。利用該模型,邊緣AI推理平臺(Atlas 200)可在1分鐘內從140萬中初始組合中找出最佳的制冷策略,其準確性和速度已遠超出具經驗的數據中心工程師的能力
打敗“人類”只是第一步,AI下一步目標是提升整個制冷系統的智能化程度。目前通常整個機房的制冷都基于統一的制冷或散熱的設備,不能做到單體控制。即使對機房、供電等部分單獨供冷,也很難做到保證每一個單元都運行在最優(yōu)溫度區(qū)間內。智能化的制冷系統將根據每個單元的需求,自行調節(jié)供冷功率,大化的降低損耗。
當然,AI在數據中心的應用遠不止調整PUE這一個選項。在運維、風險管理、安全管理等方面,AI也將發(fā)揮重大的作用。不過就目前來講,雖然大多數數據中心企業(yè)表現出了對AI的興趣,但缺乏實踐的現狀,讓AI普及的廣度、深度均不及預期。
好在有眾多類似華為這樣的企業(yè),以自身業(yè)務為基礎,積極推進AI實踐,為業(yè)界提供可參考的案例。如河南聯通中原基地、寧夏移動中衛(wèi)數據中心等項目中也都有了AI節(jié)能方面的應用,樹立了綠色數據中心的新標桿。
相信隨著iCooling以及一系列AI技術在數據中心運營和管理中的作用越來越廣泛,“智能運維”、“無人值守”等概念不再只是被反復提及的“熱詞”。
數據中心只是AI的落腳點之一,在各行各業(yè)中AI均能發(fā)揮出人力所無法達到的作用。例如iCooling還可用于智能樓宇能源管理,可以監(jiān)控和優(yōu)化工業(yè)園區(qū)、大學和校園的用電情況,從能源角度打造真正的“智慧園區(qū)”。只有不斷將類似的技術或者理念深入到生活、生產中的方方面面,AI的普惠之路才真正延伸到人類社會中。












