上海2021年12月22日 /美通社/ -- 微信公眾號“高工智能汽車”最近對澳鵬Appen進行了報道,下面是報道原文:
在自動駕駛時代,無論是對于汽車制造商、零部件廠商還是自動駕駛服務提供商來說,數據都相當于金錢,身處其中的企業都非常清楚這個公式。
去年,滴滴出行與比亞迪合作,推出全球首款定制網約車。該公司CEO程維表示,滴滴計劃于2025年推出D3,普及100萬輛搭載自動駕駛功能網約車;2030年希望去掉駕駛艙,計劃實現完全自動駕駛。
今年初,百度和吉利宣布合資成立一家全新的聯網智能汽車公司,基于后者的開放動力底盤平臺,結合百度的人工智能、Apollo自動駕駛、小度車載、百度地圖等軟件,目標是讓所有人都能使用自動駕駛汽車。
按照這家合資公司(集度汽車)首席執行官夏一平的話說,公司打算以合理的成本向千家萬戶提供4級自動駕駛技術,“就像別人希望普及電動汽車一樣,我們也希望普及自動駕駛技術。”
而這些企業,不管以何種方式入局“造車”,目的只有一個,希望打造自己的大規模數據訓練、功能迭代閉環。
正如行業領頭羊特斯拉的玩法一樣,在量產中結合車端的智能處理能力識別出不智能的場景,將數據回傳,以此迭代算法,不斷提高自動駕駛的能力,逐步構建自己的車輛規模和技術壁壘。
另一方面,對于確保自動駕駛行車安全運行方面,高質量的訓練數據極其關鍵。這就要求行業加強審核,避免“garbage in, garbage out”的情況發生。
這就要求,負責訓練模型的團隊不僅要面對自身專業度的挑戰,而且要面對確保數據標注過程質量的巨大挑戰。
在這方面,澳鵬可以說是當之無愧的模范生。
破解市場困局
相關研究發現,在AI行業中,有兩個層面符合二八法則。
首先,同一個算法的應用中,同樣類型技術方案的公司差異會很大。其中的關鍵就在于數據量。同一個算法對于最后結果的影響,80%來源于數據,20%來源于技術。
簡單來說,算法模型本身的優化對于提升AI應用輸出的準確率十分有限,而不同AI應用準確率的關鍵差別在于其中是否有大量的、高質量的訓練數據。
其次,很多AI或算法公司在做研發時,80%的時間或人力需要用于處理數據,只有20%用于處理算法與代碼。而實際上,這種做法并不合理。要想精進整體系統的魯棒性,工程師應該將更多的精力集中于算法或應用層面,而針對數據層面,則可以讓更專業的供應商幫助他們提升質量和效率。
另一方面,目前人工智能研究應用的算法,基本基于機器學習和神經網絡算法,實戰中對訓練數據的準確率要求起碼要到達90%以上,甚至有的項目要求能夠做到99.9%準確率。而更難的地方在于,這不僅是對某一批數據的要求,而是要持續達到這個要求。
有行業人員表示,自動駕駛領域的AI部署需要大量的高質量訓練數據,需求增長極快,且需求和場景越來越多樣、難度越來越大。隨業內需求從2D平面圖像轉向3D LiDAR數據為主,行業對于標注人員專業度的要求也隨之水漲船高。
而標注人員在完成這些數據任務時,可能面臨諸多挑戰,其中包括:內部標注人員不足和引入的偏差問題、時間限制下難以達到所需的數量規模及準確率。
此外,當前數據行業各個服務商的水平參差不齊,優質頭部數據服務商的服務資源稀缺,CR5的集中只有20~30%。業內也普遍缺乏進行復雜標注項目所需的專業工具。這無疑為數據質量帶來了更多挑戰。
“這也是澳鵬本身創立的初衷。”澳鵬Appen中國區市場拓展高級總監 董成表示。
作為澳大利亞的一家上市公司,澳鵬自1996年創建至今,始終專注于人工智能訓練數據的領域,目前在語音、文字、圖像和視頻等標注領域已積累了25+年的經驗。服務范圍覆蓋170多個國家,235+種語言。全球正式員工 1100+,擁有100萬+全球眾包資源。截至2020年,公司營收已達4.1億的美金。
其中國分公司成立于2019年,總部位于上海,在無錫、大連、北京設有交付中心和分公司,業務廣泛覆蓋全中國及亞太地區,擁有1000+名交付人員。目前,澳鵬合作客戶已遍及國內領先大型互聯網公司與高科技企業。
作為數據行業的優質典范,澳鵬擁有強大的交付產能及資源管理優勢,服務的客戶和項目數以百計。澳鵬無錫、大連交付中心經驗豐富的交付團隊,處理過2D、3DLiDAR等各種數據和不同客戶的業務需求,汽車2D和3D點云的周交付能力超過百萬幀;卓越運營中心的管理模式可保證持續的高質量交付。
在自動駕駛領域,澳鵬高精度高性能的自動駕駛工具套裝也是其為客戶構筑海量數據資產的利器,這也是澳鵬的核心優勢之一。
全面保障數據質量
為了適應高速變化的市場形式,澳鵬構建了完整的數據質量全生命周期管理體系,可以從數據的采集、標注、模型訓練、數據可視化、模型的部署及再訓練等全過程,實現實時自動的模型再訓練和改裝。
其自主研發的人工智能輔助數據標注平臺可支持像素級語義分割、2D圖像復合標注、3D點云拉框及語義分割等功能。采標一體的任務能夠實現采集-質檢-標注-質檢-客戶驗收的雙向協同流程,讓整個數據生產線上的各個環節實現無縫銜接。內置的多輪質檢模塊可以按需配置,滿足不同復雜度項目的需求。
2D圖像復合標注是全結構化的模型訓練利器,支持點、線、框、多邊型融合標注(常見工具是單模式的,點、線or折線,多邊形)與連續幀;另外,此工具還支持像素級語義分割,可將圖片中目標對象實例標記出來,并保證像素級的質量。其中豐富的可配置選項可靈活進行id處理,實戰中可以做到10分鐘/張圖。
澳鵬Appen中國區市場拓展高級總監 董成介紹,澳鵬利用ML輔助標注等技術手段提高數據質量,通過預識別系統,讓算法先進行預識別,再根據結果進行人為調整,最終在成本控制和質量上實現顯著提升。
比如在3D點云數據中,由于車道線本身的多樣性(環島、交叉線)以及外界光照、車輛遮擋等影響,3D點云數據中的車道線標注一直是一個困難且耗時的課題。澳鵬3D點云車道線自動識別的研發是解決這一難題的重大突破。
“我們3D點云拉框可支持自動貼合、連續幀映射,及3D/2D的融合標注,具備目標預識別功能,能靈活配置數據有效性驗證規則,可直接在線上讓客戶做最低交付粒度的驗收且可無縫打回。實戰中能夠做到99.9%準確率, 1秒/幀的極速質檢。”澳鵬Appen中國區市場拓展高級總監 董成表示。
此外,澳鵬的每個項目中除了配備專職的項目經理,還有專門的QA/質檢人員,Team Leader、等層層把關質量控制;大多數項目都采用多輪質檢的方案,保障數據質量無限接近完美。
值得一提的是,澳鵬內部對于安全合規的要求非常高,除了有健全的數據安全管理流程外,澳鵬還為了保障數據安全專門設置了DPO(Data Privacy Officer,數據合規官)。
所有的項目在簽單、立項前都需要通過數據合規官的審核、批準,并根據數據合規的要求在項目執行中采取相應的數據保障措施。
“我們對人工智能模型所使用的數據給予最大限度的關注和保護,致力于為客戶提供最高級別的數據安全標準,符合全球多項嚴格的數據安全資質認證。同時,我們的平臺每天都會進行漏洞掃描,最大限度的保證客戶數據資產安全。”澳鵬Appen中國區市場拓展高級總監 董成表示。
平臺中設有權限管控、數據加密傳輸、PII信息加密存儲等嚴格的數據安全管控策略,交付管理具體包括:平臺進行周期性系統漏洞掃描以免受惡意代碼/病毒攻擊; 24x7的全球IT支持團隊和緊急響應小組確保對IT事件及時響應等等。
目前,澳鵬已在全球獲得ISO 27001安全認證,包括位于上海的商務和研發總部、以及無錫和大連的數據服務交付中心。全球范圍內,澳鵬亦通過了GDPR,SOC 2 Type II,HIPAA等全球不同國家和地區的數據安全合規認證。
某位與澳鵬合作的客戶負責人表示:“澳鵬與我們團隊的合作非常順利,其平臺有助于我們確保流程根據項目需求不斷被優化。我們也期待這一試點項目能盡快投入生產。”
原文鏈接:https://mp.weixin.qq.com/s/xquKbVJUPUZfHEIZqj3VTA