o Amazon SageMaker Canvas進一步降低機器學習使用門檻,業務分析師無需編碼即可使用點擊式界面進行更準確的機器學習預測
o Amazon SageMaker Ground Truth Plus提供全托管數據標記服務,為客戶提供內置工作流程以及技能嫻熟的團隊,以更低成本快速交付高質量的機器學習模型訓練數據集
o Amazon SageMaker Studio 提供一個可以集中執行數據工程、數據分析和機器學習工作流程的通用notebook環境
o Amazon SageMaker Training Compiler 通過自動代碼編譯提高效率,幫助客戶將深度學習模型訓練速度提高50%
o Amazon SageMaker Inference Recommender為運行機器學習推理自動推薦適合的亞馬遜云科技計算實例,獲得最佳性價比
o Amazon SageMaker Serverless Inference 為大規模機器學習推理提供無服務器計算
北京2021年12月8日 /美通社/ -- 2021年12月8日,亞馬遜云科技在2021 re:Invent全球大會上,宣布為行業領先的機器學習服務Amazon SageMaker推出六項新功能,讓機器學習更易于上手且更具成本效益。此次發布的強大新功能包括:無需編碼即可進行準確的機器學習預測,更精準的數據標記服務,可用于跨域協作的通用 Amazon SageMaker Studio notebook體驗、讓代碼更高效的機器學習模型訓練編譯器,為機器學習推理自動推薦計算實例,以及用于機器學習推理的無服務器計算。欲開始使用 Amazon SageMaker,請訪問 aws.amazon.com/sagemaker 。
在多重因素的推動下,如云上幾乎無限的算力、數據量的爆炸性增長以及開發人員工具的快速進步及迭代,機器學習已成為各行業的主流。多年來,亞馬遜云科技一直致力于降低機器學習的使用門檻,讓更多的客戶利用機器學習技術。Amazon SageMaker是亞馬遜云科技增長速度最快的服務之一,全球數萬客戶包括阿斯利康、Aurora、Capital One、塞納、路虎、現代集團、Intuit、湯森路透、Tyson、Vanguard,正使用Amazon SageMaker訓練各種規模的機器學習模型,有些模型甚至包含數十億參數,每月進行數千億次預測。隨著客戶在 Amazon SageMaker 上不斷擴展其機器學習模型訓練和推理,亞馬遜云科技也持續投入,僅在過去一年就推出 60 多項Amazon SageMaker新的特性和功能。此次發布的諸多新功能讓Amazon SageMaker更強大 -- 更輕松地準備和收集機器學習數據,更快地訓練模型,優化推理所需的計算類型和數量,并將機器學習擴展到更廣泛的受眾。
- Amazon SageMaker Canvas 無代碼機器學習預測:Amazon SageMaker Canvas 為業務分析師(支持財務、市場、運營和人力資源團隊的業務員工)提供可視化界面,他們無需任何機器學習經驗,也不必編寫代碼,即可自行創建更準確的機器學習模型進行預測。越來越多的公司希望通過機器學習重塑其業務和客戶體驗,這就需要更多來自不同業務領域的員工使用先進的機器學習技術。然而,機器學習通常需要專業技能,獲得這些技能通常需要多年的正規教育或強化培訓,同時對應的課程難度大且不斷變化。Amazon SageMaker Canvas解決了這一挑戰,它通過提供一個可視化的、 點擊式的用戶界面,讓業務分析師可以輕松地生成預測。客戶將Amazon SageMaker Canvas連接到他們的數據存儲(例如 Amazon Redshift、Amazon S3、Snowflake、本地數據存儲、本地文件等),Amazon SageMaker Canvas提供可視化工具,幫助客戶直觀地準備和分析數據。然后,客戶無需任何編碼,Amazon SageMaker Canvas使用自動機器學習來構建和訓練機器學習模型。為確保模型的準確性和有效性,業務分析師還可以在Amazon SageMaker Canvas的控制臺中查看和評估模型。Amazon SageMaker Canvas還支持客戶將模型導出到 Amazon SageMaker Studio,與數據科學家共享,進一步驗證和完善模型。
- Amazon SageMaker Ground Truth Plus 專業數據標記:Amazon SageMaker Ground Truth Plus 是一項完全托管的數據標記服務,為客戶提供內置的工作流程、技能嫻熟的團隊,以更低成本快速交付高質量的訓練數據集,用于訓練機器學習模型,客戶無需編碼。為了訓練更準確的模型并規模化機器學習部署,客戶需要被正確標記的數據集越來越大。但是,要生成大型數據集可能需要數周甚至數年的時間,并且通常需要公司雇傭員工并創建工作流來管理標記數據的過程。 2018 年,亞馬遜云科技推出了 Amazon SageMaker Ground Truth,通過使用來自Amazon Mechanical Turk、第三方供應商或自有團隊的人工數據標注員的方式,幫助客戶更輕松的生成標記數據。Amazon SageMaker Ground Truth Plus 進一步擴展了這項功能,通過提供專業團隊為客戶提供高度準確的數據標簽。這些專業團隊不但擁有特定領域和行業專業知識,同時具有職業技能可滿足客戶對數據安全、隱私與合規等要求。 Amazon SageMaker Ground Truth Plus具有多步驟標記工作流程功能,可縮短標記數據集所需的時間并降低采購高質量注釋數據的成本,該功能包括機器學習模型預標記、檢測人工標記錯誤和低質量標簽的機器驗證,以及輔助標記功能(例如 3D 長方體捕捉、去除2D中的失真圖像、視頻標記中的預測和自動分割工具)。客戶只需先將 Amazon SageMaker Ground Truth Plus 指向他們在 Amazon Simple Storage Service (Amazon S3) 中的數據源,并提供特定的標記要求(例如,醫學專家應如何標記肺部放射影像中的異常情況的說明)。 Amazon SageMaker Ground Truth Plus 隨后創建數據標記工作流程并提供控制面板,客戶可通過控制面板跟蹤數據注釋進度、檢查已完成標簽的樣本質量,并提供為生成高質量數據的反饋;該功能讓客戶可以更快地構建、訓練和部署高度準確的機器學習模型。
- Amazon SageMaker Studio 通用notebook:Amazon SageMaker Studio 的通用notebook(業界首個完整的機器學習集成開發環境)提供了一個統一的集成環境來執行數據工程、數據分析和機器學習。如今,來自不同數據領域的團隊希望使用一系列涵蓋數據工程、數據分析和機器學習的工作流開展協作。這些領域的從業者通常來自數據工程、數據分析和數據科學等不同的知識領域,他們希望實現跨各種工作流工作,并無需切換數據相關工具。而當客戶準備集成數據分析和機器學習的數據時,通常需要處理多種工具和notebook,這一過程繁瑣、耗時且容易出錯。 Amazon SageMaker Studio 現支持客戶在一個通用notebook中,為實現多種目的而進行的交互方式訪問、轉換和分析各種數據。Amazon SageMaker Studio與在 Amazon EMR 集群上運行的 Spark、Hive 和 Presto,以及在 Amazon S3 上運行的數據湖均內置集成,客戶無需切換服務即可使用Amazon SageMaker Studio 訪問和操作通用notebook中的數據。客戶除了可以使用喜歡的框架(例如 TensorFlow、PyTorch 或 MXNet)開發機器學習模型,并在 Amazon SageMaker Studio 中構建、訓練和部署機器學習模型外;客戶無需離開通用Amazon SageMaker Studio notebook,可以一站式瀏覽和查詢數據源、探索元數據和模式,并處理數據分析或機器學習工作流相關的工作負載。
- 適用于機器學習模型的 Amazon SageMaker Training Compiler:Amazon SageMaker Training Compiler 是一種新的機器學習模型編譯器,可自動優化代碼提高計算資源的使用效率,并縮短訓練模型時間多達 50%。先進的深度學習模型通常是龐大而復雜的,訓練單個模型可能消耗數千小時的GPU計算時間,為此它們需要專門的計算實例來加速訓練。為了進一步縮短訓練時間,數據科學家會嘗試增加訓練數據或調整超參數(控制機器學習訓練過程的變量),找到性能最佳且資源消耗最少的模型版本。這項工作的技術復雜性致使數據科學家沒有時間優化在 GPU 上運行訓練模型所需的框架。 Amazon SageMaker Training Compiler與 Amazon SageMaker 中的 TensorFlow 和 PyTorch 版本集成,這些版本經過優化可在云中更高效地運行,因此數據科學家可以使用他們喜歡的框架,更高效得使用GPU訓練機器學習模型。只需單擊一下,Amazon SageMaker Training Compiler 就會自動優化并編譯訓練好的模型,提高訓練執行速度多達50%。
- Amazon SageMaker Inference Recommender 自動實例選擇:Amazon SageMaker Inference Recommender 幫助客戶自動選擇最佳計算實例和配置(例如實例數量、容器參數和模型優化),運行其特定的機器學習模型推理。大型機器學習模型,通常用于自然語言處理或計算機視覺,選擇具有最佳性價比的計算實例是一個復雜的迭代過程,可能需要數周的實驗時間。 Amazon SageMaker Inference Recommender消除了運行一個模型應選擇哪種實例的不確定性和復雜性,通過自動推薦適合的計算實例配置,可將部署時間從數周縮短至幾小時。數據科學家使用 Amazon SageMaker Inference Recommender 可將模型部署到推薦的一個計算實例上, 或者使用該服務在一系列選定的計算實例上運行性能基準測試。客戶可以在 Amazon SageMaker Studio 中查看基準測試結果,并評估不同配置在延遲、吞吐量、成本、計算和內存等方面的利弊。
- 適用于機器學習模型的 Amazon SageMaker Serverless Inference:使用Amazon SageMaker Serverless Inference,客戶僅需為生產中部署的機器學習模型推理按使用量付費。客戶使用機器學習時,希望能優化成本,對于具有間歇性流量模式和長時間空閑的應用程序而言尤為重要。有些應用程序,如基于消費者購買的個性化推薦、接聽來電的聊天機器人以及基于實時交易的需求預測等,可能會受外部因素如天氣狀況、促銷的產品或節假日等影響出現波峰波谷。為機器學習推理提供合適的計算容量是一項艱難的、需要權衡多方面因素的工作。有時,為滿足峰值需求,客戶會過度配置容量,雖然實現了一致的性能,但在沒有流量時會浪費成本。有時, 客戶為控制成本而部署了不足夠的計算容量,在條件變化時卻無法提供足夠的算力來執行推理。為了適應不斷變化的條件,一些客戶嘗試動態地手動調整計算資源,這是繁瑣且耗費精力的工作。用于機器學習的 Amazon SageMaker Serverless Inference 會根據推理請求的數量自動預置、擴展和關閉計算容量。當客戶將機器學習模型部署到生產中,只需在 Amazon SageMaker 中選擇無服務器部署選項,Amazon SageMaker Serverless Inference 就會管理計算資源并提供所需的精確計算量。通過Amazon SageMaker Serverless Inference,客戶無需管理底層基礎設施,且只需為每個請求使用的算力和處理的數據量付費。
亞馬遜云科技機器學習副總裁Bratin Saha 表示:“各個行業和各種規模的客戶都在積極借助Amazon SageMaker 擴大機器學習的使用范圍,機器學習已經成為很多企業運營的核心組成,并賦能客戶發明新的產品,創新的服務和體驗。我們很高興將行業領先的機器學習服務拓展至更多客戶,幫助更多企業推動業務創新,解決富有挑戰性的問題。這些 Amazon SageMaker的新功能將觸達更廣泛的客戶,同時為現有客戶提供額外的功能,幫助他們在機器學習之旅中更輕松地將數據轉化為有價值的洞察,加快部署速度,提升性能并節省成本。”
寶馬集團總部位于德國慕尼黑,是一家全球豪華汽車和摩托車制造商,品牌涵蓋寶馬、寶馬摩托車、MINI 和勞斯萊斯等;它還提供優質的金融和移動服務。寶馬集團人工智能平臺產品負責人 Marc Neumann 表示:“將人工智能作為關鍵技術使用是寶馬集團數字化轉型過程中的重要一環。我們在整個價值鏈中已經采用人工智能,為客戶、產品、員工和流程創造附加價值。過去幾年里,我們已經將寶馬集團許多具有商業價值影響的頂級用例產業化。 我們認為Amazon SageMaker Canvas將幫助我們把人工智能/機器學習擴展至整個寶馬集團。通過SageMaker Canvas,業務用戶可以輕松地探索和構建機器學習模型,無需編寫代碼即可做出準確預測。 SageMaker 還支持我們的核心數據科學團隊協作,并對由業務用戶創建的模型在投入生產環境之前對其進行評估。”
西門子能源正在為社會注入活力,環境、社會和公司治理(ESG)是其戰略重點,他們的創新正在為合作伙伴和員工創造不一樣的明天。西門子能源工業應用數據科學團隊負責人 Davood Naderi表示:“西門子能源數據科學戰略的核心是將機器學習的力量帶給所有業務用戶,讓他們能夠在不需要數據科學專家的情況下試驗不同的數據源和機器學習框架。這將加快我們能源解決方案(例如調度優化器和診斷服務)的創新和數字化速度。Amazon SageMaker Canvas支持業務用戶開展實驗,是西門子能源機器學習工具套件的很好的補充。同時還可以與數據科學團隊共享和協作,這種協作非常重要,不但幫助我們將更多機器學習模型投入生產,同時還確保所有模型都符合我們的質量標準和政策。”
愛彼迎是全球最大的特色民宿預定平臺之一,提供超過 700 萬個住宿選擇和 40,000 項由當地房東組織的手工活動。“在愛彼迎,我們越來越多地將機器學習整合到業務的各個方面。為了訓練和測試機器學習模型,我們的團隊始終需要生成和維護高質量的數據。”愛彼迎中國數據科學家羅偉表示:“為了更好地為客戶提供服務,并減少對客服團隊的依賴,我們一直在尋找一種方法,可以基于十萬段普通話客戶服務日志生成高質量的文本分類數據結果。通過Amazon SageMaker Ground Truth Plus,亞馬遜云科技團隊為我們構建了定制數據標記工作流程,其中包括能夠實現 99% 分類準確率的自定義機器學習模型。”
美國國家橄欖球聯盟(NFL)是美國最受歡迎的體育聯盟,由 32 支職業運動隊組成,他們每年都在爭奪超級碗冠軍,這是世界上最大的年度體育賽事。NFL 球員健康與創新高級副總裁 Jennifer Langton表示:“在 NFL,為了幫助我們的球迷、廣播公司、教練和球隊獲得洞察,我們一直尋找使用機器學習的新方法。橄欖球是一項追求速度的運動,比賽可以在一瞬間發生。雖然有教練員和裁判員,但很難在場上照看到所有球員的安全。計算機視覺讓我們能夠準確監測球員安全事件,但開發這些算法需要專業標記的數據。現在,Amazon SageMaker Ground Truth Plus為復雜的標記任務提供了定制工作流程和用戶界面,這將幫助我們提高球員的安全性。”
Vanguard Group, Inc. 是一家美國注冊的投資顧問機構,總部位于賓夕法尼亞州馬爾文,管理著約 7 萬億美元的全球資產。 Vanguard 重新定義行業價值,幫助投資者做正確的選擇,并為全球數百萬客戶創造變革。Vanguard數據和分析高級總監Doug Stewart表示:“我們非常高興的看到數據科學家和數據工程師可以在一個通用notebook環境中協作,進行數據分析和機器學習。Amazon SageMaker Studio已與在 Amazon EMR 上運行的 Spark、Hive 和 Presto 內置集成,這提高了我們開發團隊的工作效率。這種統一的開發環境讓我們的團隊能夠專注于構建、訓練和部署機器學習模型。”
iFood 是拉丁美洲在線食品配送的領先企業,每月完成6,000 多萬份訂單。iFood使用機器學習向在線訂購的客戶推薦餐廳。 iFood 機器學習和數據工程總監 Ivan Lima 表示:“我們的機器學習模型一直采用 Amazon SageMaker構建高質量的應用程序,這貫穿于整個業務線。Amazon SageMaker Serverless Inference讓我們能夠更快地實現模型部署和擴展,無需擔心實例選擇,也不必擔心工作負載的波峰波谷。同時,我們預計該服務將進一步降低我們的成本。”