智能決策平臺REVIVE(Reinforcement learning with Virtualized Environment),能夠將少量歷史數據轉化為強大的決策引擎。
"我們在多年的落地經驗中,吸取了非常多的教訓,我們相信這個版本,能夠帶來更加智能,準確,靈活,可信的智能決策結果。" 南棲仙策聯合創始人秦熔均這樣介紹。新發布的REVIVE更智能、更準確、更靈活、更可信:
更加智能:新版本的REVIVE SDK引入變量因果分析工具,將用戶從稠密的數據和復雜交錯的流程當中解脫出來,自動進行結構優化和推薦,幫助用戶輕松構建模型和進行虛擬環境的訓練。
更加準確:正如人類在做決策時可以很快認知他所面臨的環境,REVIVE通過生成、自動識別并自動匹配不同環境和最佳元策略模型,對最終的策略進行調優。針對實際環境,選擇出最適宜準確的決策。
更加靈活:在現實應用中往往會有一些隱藏變量,新版REVIVE可以輕松添加隱變量模塊,將缺失值也納入考量。同時,新版本也更容易拆分出子模塊進行修改和復用。
更加可信:REVIVE提供了決策的樹狀可視化狀態,用戶可以主動和模型進行交互,看看做了不同改變會獲得怎樣不同的結果,嘗試不同決策,預見不同未來。
除了面向通用決策場景的REVIVE SDK,本場發布會上最驚艷的內容,是面向工業反饋控制任務的決策預訓練模型。
通用反饋控制預訓練模型
反饋控制任務廣泛存在于大量的工業場景中。這類任務需要對實施過程中的每一步所引起的客觀效果進行感知和反饋,并據此做出控制反應,調整下一步的計劃決策和實施方案,在往復動態中達到控制目標。
不同的場景之下,工程師們需要根據不同的場景和環境去調整每一個控制參數,達到控制效果。如果能夠實現通用的反饋控制系統,將為工業應用帶來巨大變革。
要實現這項技術的關鍵核心在于,對不同任務的自動識別。只有當它識別了當前的任務是什么,才能根據任務調整控制策略,以做到對不同的任務都做出最優的決策。
針對這個問題,南棲仙策推出了通用反饋控制系統識別器:GFSEncoder。它能夠輸出3維的編碼,來識別和表達不同反饋控制系統的特征和變化。
作為神經網絡對系統的理解,GFSEncoder編碼的每一維不會直接對應到系統的物理參數,但是二者依然會存在一定聯系。
南棲仙策還額外發布了GFSEncoder Pro,將參數量提升50%以上。輸出的任務編碼維度從3維提升至8維,具有更強大的任務識別和編碼能力。
在發布會上,南棲仙策以滑塊的控制為例,展示了特征編碼是如何隨著物理參數的變化而變化的。B站搜索南棲仙策 https://www.bilibili.com/video/BV1Bd4y1c7n7/?spm_id_from=333.999.0.0&vd_source=81e9203bcfc1f33b834d254f33b023c7 可以看到完整的演示過程。
最后還需要強調的是,GFSEncoder并不需要額外測量系統的各種參數。
GFSEncoder下游應用
(一)系統變動預警
很多系統在長時間的運行后會發生老化或者損壞。通過比對GFSEncoder輸出的編碼可實時監控系統是否出現變化,預警系統失效。
(二)系統標定
GFSEncoder還可以根據當前系統編碼與標準系統編碼的差異來調整系統的參數,使用戶不需要精密測量,就可以將系統向標準系統校準。
(三)PID參數預測
在這個應用中,南棲仙策介紹了將要推出的第二個模型,PIDPredictor。
PIDPredictor也是一個深度神經網絡模型,能夠基于GFSEncoder編碼對相應的最優PID參數進行預測。GFSEncoder與PIDPredictor相結合,可以通過系統中的歷史軌跡信息得到最優PID參數。
在展示當中,可以看出PIDPredictor所預測的PID參數的控制效果(右側)會比待整定的PID控制器好很多。B站搜索南棲仙策可以看到完整的演示過程。
(四)通用反饋任務控制
南棲仙策還將PID控制器用神經網絡控制器替代,推出了通用反饋控制器,GFSController。GFSController是使用強化學習訓練得到的通用控制器,它由GFSEncoder與一個神經網絡控制器組合而成。
結合GFSEncoder對系統的快速編碼能力,GFSController可以做到部署即運行。
發布會以平衡車任務為例,進行了展示。在部署了GFSEncoder之后,無需進行任何針對性的調節,GFSController就能夠直接將平衡車控制在穩定的狀態。
作為驗證,南棲仙策將GFSController部署至無人機高度控制任務中。作為對比,南棲仙策還引入了一個調好的二階PID完成同樣的任務,可以看出,GFSController與一個調好的PID控制器表現出了相當的水平。
為了測試GFSController通用性,發布會上,南棲仙策對更多的衍生場景進行了假設和模擬:如果有一天人類登陸火星或是在高空飛行,這個無人機能否適應新的環境變化?
GFSController很快就完成了對新系統的識別,其超調已經明顯降低,然而PID控制器的超調依然很嚴重,以致于最后無人機撞擊到地面并損毀。B站搜索南棲仙策可以看到完整的演示過程。
需要注意的是,這里的PID控制器是一個二階級聯的PID控制器。而GFSController則是一階控制的。事實上,GFSController也能夠通過級聯來提升控制效果。這意味著GFSController除了通用性之外,還具有強大的拓展性。
南棲仙策已經將GFSEncoder的相關的模型發布到了REVIVE官網。https://revive.cn 歡迎大家下載體驗。
賽事回顧
強化學習創新創意大賽,旨在激發強化學習技術的應用創新,不設具體賽題。鼓勵選手了解強化學習的機制原理、掌握強化學習的任務建模、發掘強化學習落地場景、展現強化學習的創新應用價值。
大賽自6月17日開賽以來吸引國內外高等院校、科研單位、企業單位負責人等數百人參與其中。
大賽經初賽、復賽兩輪,4個月的激烈角逐之后,最終經由學術專家和產業專家共同評選出12支獲獎隊伍。其中4支隊伍分別斬獲"最佳項目獎"、"最佳實踐獎"、"最佳創意獎"、"最佳社會價值獎";8支隊伍獲得"優秀項目獎"。
獲獎選手 Talk Time
最佳項目獎:止于至善隊
"基于強化學習,實現分布式能源系統的智能決策未來是可行的。"
"目前國內外的分布式能源管理平臺,雖然在數據感知層大量使用了人工智能技術,但在決策層還是基于傳統的優化算法。這些算法受限于計算精度和實時性不能兼得,而且很難處理新能源帶來的波動性和隨機性問題。而強化學習可以處理這些問題。"
隊長侯勝任來自荷蘭代爾夫特理工大學,吳明賀、顏子恒來自東南大學。為應對全球氣候變暖和能源危機,這支隊伍將強化學習應用于新能源沖擊下的能源管理系統,實現分布式能源系統的智能決策,使能源系統運行在高效、經濟、安全、可靠的運行區間。在滿足用戶需求的前提下,大幅度降低公司系統運行成本,為客戶創造更多的收益。
最佳創意獎:Brain Control隊
"我一直認為強化學習方法會為生命科學領域里的一些問題帶來突破。"
"本次獲獎項目是我們團隊將強化學習方法應用大腦疾病治療的一次嘗試,目的是為了更好地幫助醫生和病人選擇更合適的治療策略,這不僅可以為病人帶來更優的治療效果,更可以釋放大量的醫療資源。"
這是來自復旦大學的兩位博士生,李巖和權昭宇,他們將強化學習應用于自動化腦深部電刺激的參數調節。也就是通過強化學習自動尋找個性化的最優刺激參數,產生最優的疾病治療方案。
這項技術在未來將有機會在面向帕金森、癱瘓、癲癇和抑郁癥等的疾病治療中發揮巨大作用。減輕病人的痛苦,減少醫生的工作量。
最佳社會價值獎:Traffic Go隊
"作為交通從業者,我非常渴望能夠攻堅克難,打造適用于我國的先進城市交通優化控制與緩堵平臺。"
這是來自同濟大學的博士后王一喆,他對被稱為"交通工程領域王冠上的明珠"的世界性難題:交通控制和緩解擁堵 發起挑戰。
基于強化學習的交通控制算法及機制,他通過構建可復用性強,自動化程度高的關鍵特征提取程序;搭建層次分明,易于查詢的數據結構,即使面對隨機性強,波動性大且呈非線性變化的復雜城市道路交通狀況,也可以獲得更高的可測性和可控制性。
最佳實踐獎:穿梭在銀河的火箭隊
"希望能幫助更多人縮減決策時間,讓人們將時間用在有更有價值的地方。"
"通過本次比賽,我們更加堅信了強化學習在決策領域巨大的潛力,希望能將學到的知識應用于實踐,同時幫助大家理解機器決策過程中每一步的含義,也就是為什么這樣做,能夠帶來更高的收益。"
這支隊伍的陳濤,史晨佳和任智軍老師來自于上海商學院,他們聚焦個體投資者和機構,提供完整高效可行的投資交易策略。他們的項目對中國的A股市場的環境和數據進行建模,將深度強化學習應用到金融領域,使用智能體模擬交易員,在A股市場中進行選股和擇時交易,讓決策更優越、更簡單。
在項目進行到中后期,為了節省算力和時間,他們在REVIVE仙啟平臺進行了多智能體模型的訓練。"不得不說,「仙啟」的表現真的遠超團隊預期,只需要少量的代碼便可以進行實操,這也極大的彌補了團隊在多智能體模型上編碼能力不足的缺陷,早點使用該平臺也許項目進度會快很多。"
該項目在"東方財富杯"全國大學生金融挑戰賽 進行了落地驗證,以總收益20.93%戰勝了全國98%的選手。為他們高興!
在實際場景中的落地
南棲向參賽選手們提供了REVIVE [仙啟](https://revive.cn/)在實際場景中的落地。
南棲向參賽選手們提供了REVIVE「仙啟」幫助選手還原現實場景,構建無限接近真實的虛擬環境,在這個環境中進行策略驗證和對比,獲得最終可遷移到實際應用中的最佳策略。)幫助選手還原現實場景,構建無限接近真實的虛擬環境,在這個環境中進行策略驗證和對比,獲得最終可遷移到實際應用中的最佳策略。
此外,感謝張偉楠、安波、張哲先、俞揚等教授和老師,抽出寶貴時間,為選手們提供了一對一的指導和講座。
為了讓更多對強化學習應用感興趣的人從本次大賽中獲益,主辦方在南棲仙策B站官方賬號上公開了部分講座內容,點擊講座觀看講座視頻。
大賽還涌現出了一批精彩的應用場景和項目,讓我們一起來看看獲獎名單。
誠如張偉楠老師在講座中所言,強化學習所對標的決策智能擁有非常廣闊的市場,因為在任何一個行業,一旦有決策優化的需求,就有可能使用到強化學習技術。
讓我們共同期待,在未來,更多的人能夠借助強化學習的力量改變世界。
強化學習是一種數據驅動的決策技術,具有自主學習、高度非線性等特性,可有效應對工業控制面臨的一系列難題。南棲仙策作為強化學習AI智能決策應用的領軍者,將強化學習應用于工業控制任務,產生了多個落地案例。南棲仙策團隊將強化學習應用的經驗總結編寫了《強化學習控制白皮書》(以下簡稱為《白皮書》,下載鏈接:http://polixir.ai/white-papers/rl-control),《白皮書》結合實際案例,對強化學習在工業控制中的應用過程進行了介紹,并展示了強化學習帶來的優勢。
白皮書下載鏈接:http://polixir.ai/white-papers/rl-control
白皮書共分為三個部分
第一部分:概述流程工業生產控制的挑戰
現有的工業生產管理流程,多個環節由人工把控,依賴經驗知識且響應速度緩慢。過程控制基于經典控制算法,在大范圍動態條件復雜系統的優化控制問題上存在不足。系統運維缺乏數據支撐,故障難預警、風險不可控,常造成企業產品不夠穩定、生產線持續性不夠高、產量波動的應對能力不足、生產損耗過大成本難以控制等問題。
第二部分:介紹南棲仙策強化學習工具的優勢
南棲全球領先的數據驅動強化學習工具POLIXIR REVIVE提供了數據模擬環境和強化學習優化技術,在火力發電、化工生產、自來水/污水生產處理等多個工業場景帶來了不同的能力,與MPC(Model Predictive Control)的對比為例,闡述了在系統建模方法、系統模擬能力、控制策略能力上更具有實施快、成本低、建模靈活、適用面廣、實用性強等特點。在實施上,南棲通過云端協同架構,實現了POLIXIR REVIVE與ReinOptima工業邊緣控制器的聯動。通過云端協同架構,當ReinOptima的預測性維護模塊識別出系統發生偏移時,自動將歷史數據傳輸到REVIVE系統更新虛擬環境模型和控制策略,實現對環境變化的自動適應和持續的自我學習與進化。
第三部分:南棲仙策技術優勢與場景應用案例
《白皮書》通過實際案例分別對能源與流程工業制造"高精度控制、高穩定控制、大滯后控制、全局目標控制"四個不同維度的需求進行了詳細解讀。
>>高精度控制
傳統人工控制增壓泵房的給水,經常導致水量和能耗過高或過低。通過POLIXIR REVIVE產生的泵頻控制策略,可大大降低出口流量與目標流量差值,達到系統所期望的精準控制,并與歷史同時期千噸水電耗相比,節省電耗約 7.16%,有效提高了泵房的經濟效益。
>>高穩定控制
在燃煤火電機組控制中,由于外部擾動,導致主蒸汽溫度長期不穩定。傳統的PID控制存在嚴重的過調、延遲等問題,導致超溫、溫度過低等情況出現,影響發電效率等。通過POLIXIR REVIVE產生的溫控策略,可將出口溫度有效控制在一定范圍內,并幫助節省燃煤 0.06%,保障穩定的同時延長了設備的使用壽命。
>>大滯后控制
在磨煤機生產過程中,由于目標出口煤粉溫度與控制風量之間存在較長的時間差,整體系統存在滯后性、長距離控制等問題,以及風速測不準導致風速控制器的 PID 控制失效。通過POLIXIR REVIVE產生的冷熱一次風擋板位控制策略,可使出口風粉溫度分布更貼近目標溫度,系統運行工況更加穩定。
>>全局目標控制
循環水泵的優化控制難點體現在需全局考慮整鍋爐運行流程,尋找最優的耗電-發電平衡點,PID控制難以實現,通過POLIXIR REVIVE產生的循環水泵控制策略,可在330MW熱電聯產機組循環水泵控制中,將整體指標值降低約0.53,相較于PID控制策略,節能提升3.52%。
南棲仙策《強化學習控制白皮書》全文,可點擊下方鏈接下載:http://polixir.ai/white-papers/rl-control
南棲仙策是強化學習AI智能決策應用的領軍者,在汽車標定業務上。南棲將強化學習技術與汽車標定場景充分融合,摸索并總結出數據驅動的虛擬標定解決方案,旨在高效、高精度、低成本地完成標定業務。南棲仙策汽車交付團隊基于強化學習研發的技術優勢、服務汽車行業客戶的經驗,結合整車轉鼓排放標定、混動標定兩個實際案例,編寫了《汽車虛擬標定白皮書》(以下簡稱為《白皮書》),展示了強化學習應用技術帶來的AI能力,以及幫助汽車行業客戶提升核心競爭力的潛力。
《白皮書》分為三部分進行闡述。
第一部分:概述整車標定概念及車企面對的四大行業難題。
《白皮書》總結了汽車行業客戶常面臨的標定難題:
1. 標定復雜度高,標定參數多達上千個。人工聯合調優難,性能“將就”。
2. 強烈依賴經驗,需要經驗豐富的工程師。人員易流失,經驗隨之帶走。
3. 試驗成本高昂,物理實驗開銷難降低。研發成本難降低,擠壓利潤空間。
4. 迭代周期冗長,需多次反復迭代試錯。拖延產品發布,耽誤市場時機。
除以上4點外,近兩年受新冠疫情的影響,標定實測工作常常中斷,嚴重影響了業務進展。
第二部分:介紹南棲強化學習工具的不同與優勢
南棲全球領先的數據驅動強化學習工具REVIVE提供的數據模擬環境和強化學習優化可有助于解決車企面臨的標定難題。REVIVE是面向行業專家的強化學習工具,通過數據驅動環境虛擬技術,進行大量虛擬推演與試錯,尋找最優方案。
REVIVE基于汽車標定數據模擬環境的強化學習解決方案過程:
REVIVE方案主要分為四步:首先在人工標定參數的實車驗證實驗中收集對應的性能狀態秒采數據并進行簡單的數據整理;然后根據汽車控制基礎邏輯構建業務模型,導入數據,使用REVIVE系統中的環境模型訓練功能,訓練控制邏輯圖中所有的神經網絡模塊,得到可運行的“數據仿真車”,并使用可視化評估指標驗證虛擬環境與真實環境的一致性;再使用REVIVE系統中的策略模型訓練功能,得到優化后的標定參數;最后將優化后的標定參數在虛擬環境中驗證,評估有效則上載到汽車進行實車驗證。
第三部分:結合發動機整車排放標定、混動標定兩個案例,介紹REVIVE成功應用方案。
《白皮書》實例證明,南棲獨特的AI虛擬標定技術可顯著降低汽車尾氣排放值。與人類工程師相比,THC降低了51%,CO降低了29%,NOx降低了18%,優于國六排放標準,并為后續車輛設計環節提供了充足的排放余量。
在串并聯混動系統標定任務上同樣成功。在起點—終點電量相同的約束下,能優化得到更合理的利用電池電量容量、更高效的利用發動機最優工況特性的混動策略,使得整車在WLTC實驗中取得更低的油耗。
南棲仙策《汽車虛擬標定白皮書》全文下載鏈接如下:
https://forms.ebdan.net/ls/ukA9JYSV?bt=yxy