北京2022年6月9日 /美通社/ -- 近日,浪潮"源1.0"大模型登頂中文語言能力理解和生成評測基準CUGE總榜榜首,并獲得語言理解(篇章級)、語言生成、對話交互、多語言、數學推理等5項評測最佳成績。這是繼源1.0攬獲權威中文語言評測基準CLUE榜單的零樣本學習和小樣本學習兩類總榜冠軍后,再次在評測中展現強大實力。
CUGE(Chinese Language Understanding and Generation Evaluation)智源指數是由清華大學、北京大學、北京智源研究院等高校機構共同建立的中文機器語言能力評測基準,該基準針對當前自然語言處理和人工智能發展新范式,面向具有"通用語言能力"的預訓練模型,全面系統、多層次、多維度地評測大模型能力。
源1.0領跑多類綜合語言場景
在語言理解(篇章級)評測中,源1.0僅用時11分鐘,便完成數千篇閱讀理解回答4000多個問題,以86.9高分的成績位居榜首,展現出頂尖的語言理解能力。基于源1.0大模型強大的閱讀理解能力及高速處理大量樣本的特點,未來將加速勞動密集型文本處理等行業變革,如應用于智能客服根據用戶提供的信息在產品文檔中快速找到解決方案及智能司法、智能招聘系統等。
在語言生成評測中,源1.0僅用時70秒,就完成近800條摘要內容的生成,登頂該項榜單。源大模型強大的文本生成能力可提升智能問答與對話、新聞摘要、報告生成等場景中AI智能化水平,如從長篇幅的新聞資訊等文本中提取出簡明扼要的文字描述,便于及時、高效的獲取有價值的信息及智能文案、協助寫作等場景。
在多語言機器翻譯評測中,基于源1.0大模型蒸餾出來的翻譯模型在完成近4000千對中英文互譯后,登頂榜首,領先第二名15%。翻譯模型在基于源1.0大模型閱讀的海量高質量數據集基礎上,采用維基百科、書籍、聯合國文件及字幕組等近80G高質量數據集進行強化訓練,因此翻譯不僅專業準確,同時更符合中文表述。未來可廣泛應用于新聞、哲學、小說等日常的語言翻譯場景中。
在對話交互評測中,基于源1.0大模型蒸餾出來的對話模型回答了電影、音樂、旅行3個領域共近萬個主題對話,成績位居榜首,領先第二名成績30%,展現了極強的智能對話能力。在繼承源1.0大模型能力的基礎上,對話模型采用了2660萬條醫療、法律、保險等不同行業,歷史、電影、娛樂等不同場景的對話語料數據進行強化訓練,在知識問答、高頻閑聊等開放式任務上表現突出,此前已獲得業界權威測評WebQA開放問答數據集榜單冠軍。
當前,智能對話普遍存在內容乏味、主題不連貫等問題,往往幾輪對話后,回答便空洞重復,大大降低用戶體驗。知識驅動的對話模型直接連接到廣泛的知識庫,大大增加對話內容的豐富度,在一定知識背景下也不會偏題,更趨向于人類之間的交談。不久前,源開發者社區的一位開發者基于源的對話模型創建了一位能與人類玩劇本殺的AI虛擬玩家,一位人類玩家與AI虛擬玩家聊天到深夜凌晨仍興趣盎然。以知識驅動的對話模型,可廣泛應用于各類虛擬人、智能助手、智能客服等場景,并極大提升對話的智能水平和用戶體驗。
源1.0在數學推理鋒芒初露
當前業界各類大模型在自然語言處理領域展示出了強大的能力,但在數學領域卻還存在盲區。數學對邏輯和推理能力有極強的要求,Open AI開發出多種方法訓練GPT-3的數學推理能力,但在挑戰小學數學應用題時,GPT-3也尚未及格,數學推理能力甚至低于9-12歲兒童。
為更好評測大模型邏輯推理能力,CUGE專門設立了數學推理能力榜單,主要考察模型數值計算能力,即考察對應用情景和任務的理解抽象能力以及數值計算能力,類似于小學數學應用題。數學推理能力榜單數據庫內的數學題來自在線教育網站提供的小學數學應用題。
在CUGE數學推理評測中,源1.0大模型完成1000道小學數學應用題,以76.9的高分大幅領先高居榜首。
為應對大模型在數學推理方面的挑戰,浪潮為源1.0開發了一套相似啟發式數據增強的方案,給每一個要求解的數學問題從數據庫中檢索并匹配一個相似的題目并與原題目進行拼接,通過類比學習,啟發大模型能夠根據兩道相似問題更好地學習如何給出解題表達式,進而學會每一類題目的解法,類似于人類在學習過程中會通過連續學習同一類型的題目來提高對這一類型題目的理解能力;同時,浪潮在源1.0改進了算法掩碼策略,使得模型在學習過程中只關注于連續的相似的題目,不受同一個輸入序列中不相關題目的影響,這樣模型可以更專注于學習同一類型的題目,極大地提升了解題準確度,全方面培養一個數學學霸。
源1.0開源開放計劃收效顯著
目前,浪潮"源1.0"已經將模型API、高質量數據集、模型訓練代碼、推理代碼和應用代碼等等工具和能力開源開放,超過300家行業用戶和開發者,通過"源1.0"提供的數據和API顯著提升了金融、互聯網、醫療和自動駕駛等行業應用的精度。浪潮源1.0將持續助力行業用戶和開發者,攜手推動技術創新、場景融合、應用開發,共同促進大模型的健康發展與產業落地,加速AI產業化和產業AI化發展。