當前,中國AI健康管理市場正迎來爆發式增長,市場規模預計將在2027年達到2.59萬億元,年復合增長率超20%。然而,醫療AI的發展正面臨算法進步與數據生產力滯后的突出矛盾。澳鵬MediGo平臺通過八大應用場景和七維技術矩陣,構建了從數據生產到模型訓練的全鏈路解決方案,有望顯著提升醫療AI模型的準確性和可靠性。
八大場景賦能智慧醫療全流程
在診療場景方面,平臺基于深度學習的病理圖片智能分析系統能夠自動標注病灶區域,幫助生成結構化診斷報告,顯著提升診斷效率。問診導診系統則通過醫療知識圖譜驅動,支持多輪問診場景模擬,為患者提供更精準的診療建議。健康科普功能整合了權威醫學知識庫,能夠對患者咨詢的保健、用藥等問題生成通俗易懂的解答。
平臺還特別強化了藥品咨詢功能,其高精度藥品信息OCR識別系統可以準確提取適應癥、用法用量等關鍵字段。針對科研需求,平臺的醫學論文解讀引擎能夠智能解析學術文獻,提取研究結論、實驗方法等核心要素。專業級影像標注工具,支持專業醫療數據逐層標注;多模態報告解讀系統支持病理報告、檢驗報告與影像數據的交叉驗證;基于真實世界數據的決策支持系統,可對診斷方案進行多維度評估,為臨床決策提供更全面的參考依據。
七維技術矩陣定義醫療數據生產力
澳鵬MediGo平臺的技術創新主要體現在七個維度。在智能化標注方面,平臺集成了醫療專用NER模型、問答對自動生成系統和自研預標注算法,包含藥品信息OCR識別、骨骼/細胞形態預識別等醫療專用模型,大幅提升了標注效率和準確性。多模態工具的統一數據中臺支持同時處理PDF、TXT、圖片等多種數據格式,實現了跨模態數據的協同處理;內置的醫療專用接口,輔助提升標注效率。
醫療影像工具采用2D/3D協同標注系統,通過智能色塊追蹤算法確保標注連貫性。平臺還提供可視化模板設計器,支持快速創建符合不同研究需求的標注模板。智能工作流引擎能夠根據標注難度自動分配任務,并通過實時質量監控看板確保項目進度可控。
在數據安全方面,平臺支持醫療級私有化部署方案,兼容企業內網環境,確保敏感醫療數據的安全流轉。同時,基于醫療知識圖譜的智能檢索系統和版本控制系統,為數據管理提供了專業化的解決方案。
澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士表示:"澳鵬(中國)MediGo醫療大模型數據開發平臺的推出,是我們深耕醫療AI數據領域的重要里程碑。未來,我們將繼續與醫療機構、科研團隊和產業伙伴緊密合作,共同推動智慧醫療時代的到來。"
法律垂類:合規與精準并重
澳鵬法律團隊由數十名全職法律專家組成,團隊匯聚民商法、刑法、勞動法、婚姻家庭法等領域的執業律師、法學專家及司法系統顧問,確保法律知識的權威性與實踐性。團隊為眾多頭部企業提供專業的法律數據服務,覆蓋多種大模型業務類型如SFT、RM、NLP等,能夠迅速響應客戶的個性化需求,包括法律文本優化、場景搭建、審核評估等。尤其是針對勞動糾紛、消費維權、婚姻財產等高頻問題,提供"口語化提問-結構化解答"等數據服務,為客戶提供精準、高效的法律支持。
醫療垂類:醫學專家疊加交付經驗
澳鵬醫療團隊由500多名全職醫學專家組成,其中20%擁有碩士學位,15%持有執業醫師資格證,覆蓋臨床醫學、中西醫結合醫學、中醫學、護理學、藥學、醫學心理學、健康管理學、營養學等多個學科。團隊已成功交付超過1000萬條醫療數據,服務于30多個客戶、500余個醫學項目,支持AI輔助診斷、AI醫患對話,電子病歷結構化等應用場景。
代碼垂類:技術棧全覆蓋
澳鵬代碼團隊由120多名全職工程師組成,涵蓋Python、Java、C/C++、JavaScript、Go、Rust等主流編程語言。團隊擁有多名持有PMP證書的管理人員,具備豐富的項目管理經驗,提供多樣化服務模式,通過持續建立工具、算法等方面的技術優勢,提升高難度任務的交付效率和質量。在代碼生成、調試和優化方面,幫助客戶顯著降低了開發成本和時間。同時,澳鵬持續積累高質量、行業特定的代碼數據集,注重數據集的多樣性與全面性,確保代碼模型在多種編程場景和任務類型上的泛化能力。
金融垂類:風控與決策賦能
在金融垂類領域,澳鵬團隊由數百名全職標注員組成,其中99%擁有金融或經濟本科學歷,70%持有基金從業資格或證券從業資格認證。以多年服務金融機構的歷史經驗積累為依托,團隊支持高客理財服務、智能投資顧問、投研解讀、金融產品管理以及保險內容評測等應用場景,幫助某券商客戶將模型推理準確率提升了25%以上。團隊目前還持續在金融領域進行前置資源儲備,可以迅速響應客戶業務的新需求,同時在數據安全合規、質量體系認證等各類資質認證方面也十分完備。
數理垂類:邏輯與算法攻堅
澳鵬數理團隊由數理競賽獲獎者組成,包括全國大學生數學、物理、化學、建模競賽一/二等獎獲得者,擅長高數證明、物理學研究和應用、化學材料學、生物醫學等數物化生領域模型評估。團隊擁有豐富的項目實戰經驗,包括:實驗室模型解題判斷,模型性能評估(數物化生),大學數物化生考題標注等,助力模型提升解題能力,高效解決復雜數理問題;同時,支持個性化學習和自動化猜想生成,快速驗證海量猜想,推動數學探索。
音樂垂類:藝術與技術的平衡
澳鵬音樂團隊擁有數十名全職人員及超過500位兼職音樂人,涵蓋作曲、聲樂、音響工程、聲音設計、音樂學、音樂表演等多個專業領域。團隊成員具備豐富的音樂項目經驗,涵蓋編曲、標注、制譜、問答、打軸、評測、檢索及音視頻匹配等多個方面,能夠高質量地完成項目交付。
多語言垂類:全球化交付能力
澳鵬多語言垂類團隊成員來自標注、翻譯、貿易、教培、新媒體等專業領域,全職員工支持英語、西班牙語、俄語、日語、韓語、法語、德語、波蘭語、阿拉伯語、意大利語、葡萄牙語、泰語、馬來西亞語、印尼語、越南語、菲律賓語、土耳其語等20多個語種,大部分成員為雙語或多語人才并獲得國內外認可的中高/最高等級以上證書;團隊同時具備來自世界各地的數百萬兼職人員,覆蓋全球200多種語言,具備豐富的多語言項目交付經驗。澳鵬在國內及海外均設有自營的交付中心,支持高數安項目室配置,可覆蓋標注、翻譯、審核、客服等全類型多語言數據服務。
TTS 垂類:高保真語音數據
澳鵬在TTS領域擁有數十個國家、數百小時的采集經驗,涵蓋中文普通話、方言、東南亞地區、日韓地區、歐美地區的各類語言及歌曲。聲優均具備超過5年配音經驗,涉及TTS錄制、影視劇配音、新聞主持、游戲解說等多個領域。澳鵬錄音棚覆蓋全國主要城市,均具備NC-20以及RT60<100ms的聲學環境和行業標準的錄音設備。
文學垂類:跨模態文化理解
澳鵬文學團隊由來自985/211高校的文學人才組成,涵蓋漢語言文學、傳播學等專業,團隊成員均具備深刻的文學理解與鑒賞能力,支持跨領域多模態融合與創新、情感交互與智能推薦系統等領域大模型的發展,例如,團隊幫助某網文平臺將內容生成效率提升40%以上。
在大模型技術快速發展的今天,高質量、高專業度的垂類數據已成為推動AI技術從通用領域向垂直領域落地的關鍵。澳鵬(中國)憑借在9大垂類領域的深厚積累,通過"技術平臺+垂類專家+全球化資源"的三重優勢,持續為客戶提供專業、安全、高精度的數據服務。
澳鵬重磅亮相 展示數據硬實力
2025中國生成式AI大會由智猩猩、智東西共同發起。澳鵬Appen攜全面的大模型數據解決方案亮相大會,展示了如何以專業、精準、安全的高質量訓練數據賦能大模型開發,特別是在垂直領域的深度應用。澳鵬展位吸引了眾多參會者駐足交流,尤其是來自金融、醫療、法律等垂直行業的專業人士。
澳鵬Appen 2024年年報顯示:中國業務營收突破4.2億,年增長達到71%,其中大模型/AIGC業務增長了526%,幾乎所有行業龍頭,特別是大模型AI企業都成為了澳鵬的客戶。展會期間,澳鵬團隊與與會者共同探討高質量訓練數據如何賦能大模型在垂直領域的精準應用,為金融風控、醫療診斷、法律檢索等專業場景提供更智能、更可靠的解決方案。
澳鵬副總裁董成發表精彩演講
在大模型峰會上,澳鵬Appen中國及韓國區副總裁董成發表了題為《大模型時代的AI數據服務》的主題演講,通過澳鵬在各領域大模型部署中的數據訓練最佳實踐,分享了對大模型應用趨勢的深刻觀察。
董成指出,以AI Agent為代表,未來大模型必定會深度應用到金融、醫療、代碼、音樂、文學等具體垂直領域中。這一趨勢對數據的高質量、專業度和多垂類覆蓋提出了越來越高的要求。面對這一挑戰,澳鵬提供了多種AI輔助的前沿數據采標工具和方案,包括文本對話、多模態交互、思維鏈推理工具等,以滿足不同垂直領域的專業化需求。
"大模型愈往垂類應用端發力,對數據質量要求愈高,"董成強調,"在通用語言任務上,第一梯隊模型的性能已經趨于一致,開源模型如Llama和DeepSeek的性能已經趕上甚至超過部分閉源模型。但在更復雜的垂直領域任務中,高質量的專業數據將成為決定模型性能的關鍵因素。"
澳鵬全面大模型數據解決方案
在演講中,董成系統介紹了澳鵬全面的大模型數據解決方案,覆蓋從通用能力到垂直領域的全鏈條數據需求,包括:
全面的大模型數據生產工具鏈:澳鵬開發了覆蓋文本對話、圖像/視頻描述、多模態融合、思維鏈和工具調用等場景的專業數據生產工具,滿足大模型訓練對多樣化數據類型的需求。
智能體訓練數據生產:針對快速發展的AI智能體領域,澳鵬專門開發了針對GUI Agent的數據解決方案,支持智能體在多步驟任務中的數據訓練需求。
自動化數據標注回環:澳鵬采用"以AI賦能AI"的開發策略,通過自研的預標注大模型與不同領域項目實踐相結合,構建了自動化數據標注回環系統,大幅提升數據生產效率。
高質量成品數據集:澳鵬提供大規模、高質量、多模態的成品數據集,包括多模態多步驟思維鏈數據集、千萬級多語種平行語料數據集、千萬級知識百科和垂類問答數據集、千萬級代碼數據集、億級高質量學科題目數據集以及百萬級圖像文本多模態數據集等。這些數據集為大模型的快速迭代提供了豐富的數據養料。
澳鵬Appen中國及韓國區副總裁董成表示:"澳鵬已在金融、醫療、法律、代碼、音樂等9大垂直領域建立了專業團隊,確保我們能夠為各垂直領域的大模型訓練提供高度專業化的數據支持,幫助客戶在特定領域實現模型性能的突破。"
2025中國生成式AI大會的成功舉辦,彰顯了高質量數據作為大模型發展核心引擎的重要價值。作為AI數據服務領域的領軍者,澳鵬Appen始終以專業、精準、安全的高質量訓練數據為全球AI部署提供強勁動力。站在大模型技術爆發與垂類應用落地的關鍵節點,澳鵬Appen將持續致力于為AI應用開發和落地打造堅實的數據基石,助力中國大模型產業在通用與垂直領域實現協同突破。
大模型與生成式AI無疑已經成為實實在在的效率和增長引擎,而DeepSeek的問世則證明了算力和算法對于大模型普及的制約正在迅速降低,規模化的高質量標注數據特別是行業垂直領域(垂類)數據,正在成為大模型普及的下一個戰場。2025年2月底澳鵬發布的年報顯示:2024年公司中國業務營收突破4.2億,年增長達到71% ,其中的大模型/AIGC業務增長了526%,幾乎所有AI龍頭,特別是大模型 AI企業都成為了澳鵬的客戶。
澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士表示,在大模型啟動AI數據服務超級周期的大門時,全球"知識"資源+高速技術迭代+高安全合規正在重新定義AI數據服務行業,所有的供應商都被重新洗牌,傳統人力資源型服務商正被迅速邊緣化,全力投入高質量技術研發和產品、實現供給全球"知識"資源、確保國內外數據合規和安全的AI數據服務商才能真正接住超級周期的大盤。澳鵬中國將持之以恒地全力投入技術研發、垂直領域、全球資源布局和數據合規與安全等方向,與AI龍頭企業一起夯實新十年的增長路徑。
超級周期正式啟動
2022年底,ChatGPT橫掃全球,開啟了全球AI超級周期的序幕。高盛2025年2月的研究顯示,自2022年11月ChatGPT面市以來,美國股市飆升50%,科技股市值增加13萬億美元,催生了美國歷史上最強勁的牛市之一。而開源大模型DeepSeek引領的第二波浪潮,以更低成本實現接近GPT-4和Claude的高性能,加速了全社會對大模型的采用。到2025年2月,全球已有超過200家公司接入DeepSeek,涵蓋互聯網巨頭、電信運營商、金融科技企業、車企及政府部門。
澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士表示,與全球大模型更側重通用性和多語言多語種模型泛化的模式不同,中國大模型更側重"通用+垂直領域",這意味著中國大模型在未來行業應用場景、特定垂直領域創新方面獨樹一幟,也更在"局部領域"更容易實現 AI 垂類實踐的突破,對特定行業和社會生產力的大幅快速提升。
在通用領域,中國大模型取得了顯著突破。根據智源研究院2024年底的"百模"評測,豆包文生圖模型和視頻生成模型分別位列全球第二,騰訊Hunyuan Image文生圖、快手可靈1.5文生視頻、阿里巴巴Qwen2-Audio語音語言水平均位居全球第一。在垂直領域,以DeepSeek為代表的中國大模型正深入傳統行業,如多地12345熱線接入后效率大幅提升,鎮江超級大腦單日數據處理量相當于全市公務員10年工作量,天津地鐵接入后故障發生率降低50%等等。
在DeepSeek等一系列 AI 大模型創新影響下,技術進步、應用生態、生產關系和生產力變革這三者正在形成閉環共振,形成從技術進步到生產力提升的"超級周期",其中包括了超級AI周期、超級經濟周期以及激活的超級AI數據服務周期。Gartner在2025年2月發布預測,認為到2028年,中國企業對人工智能就緒型數據(特別是非結構化數據)的投資將達到2024年的20倍!
AI數據服務市場洗牌,行業龍頭浮出水面
在ChatGPT階段,大模型的瓶頸已經從算力和算法推進到了數據;在DeepSeek階段,高質量數據進一步成為大模型的"燃料"。2024年底,就在DeepSeek即將橫掃全球前夕,中國國家發改委等部門發布了《關于促進數據標注產業高質量發展的實施意見》,引發了全社會對于數據標注的關注,迅速引爆了數據標注行業的熱度,市場認為數據標注行業井噴在即。
作為AI數據服務行業龍頭企業,澳鵬Appen公司的2024年全年報顯示,經調整后的公司年增長16%、2024年下半年大模型收入占28%。在澳鵬中國,大模型及大模型相關業務已經占據了營收的40%。澳鵬自2023年中旬推出大模型相關產品和服務,僅僅一年多的時間發展成為了第一大業務,用"爆發"形容并不為過。2024年,澳鵬中國全年實現了4.2億人民幣營收,其中大模型及大模型相關業務營收達到1億人民幣。
在被大模型"潑天富貴"砸中的同時,澳鵬清醒地看到了整個AI數據服務行業的洗牌。過去AI數據標注行業是手工作坊模式,國內有上千家服務商,主要是人力資源密集型,技術含量低,市場競爭激烈。
澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士表示,"大模型對于AI數據服務的綜合能力的要求比過去上了幾個臺階,億量級別數據(知識)的采集標注、數據高質量的精細化管理、數據復雜度和多樣性與模型泛化的矛盾、國內外數據安全與合規風險的升級、海外標注交付能力等等,都要求服務商具備更強的技術能力、平臺與產品,‘全球+技術+管理+垂類知識'的多維AI數據服務模式將逐步淘汰過去的單純的低端人力資源、單一區域密集型模式。"
"出海"和全球化是中國AI客戶的戰略布局之一。澳鵬中國目前在全球有9大高信安交付基地, 布局北美、歐洲、東南亞、中國等,同時更有覆蓋170+國家,290+種語言的超百萬的眾包資源,已經是中國頭部的AI客戶在海外市場的"攻城略地"的長期和信任AI數據合作伙伴。田小鵬博士認為:"真正的AI市場,不僅在國內,更在廣闊的全球。"
澳鵬是少數最早投資技術和技術平臺的AI數據標注服務商之一,澳鵬中國自2019年成立以來十分堅定投資技術,成立5年來向技術研發投資了1.1億人民幣,先后開發了MatrixGo企業級高精度數據標注平臺以及大模型智能開發平臺,通過雙技術平臺的建設,實現了效率、質量和安全性方面的顯著優勢,搶得了市場先機。
大模型對于標注數據的范圍、量級和復雜性要求,遠遠超過了之前的AI小模型。田小鵬博士認為:原先的AI小模型都是項目制,而大模型是一個世界通用模型,要解決所有人類的問題甚至是對未來的思考,涉及范圍"匪夷所思"、遠超想象;大模型對于標注數據量級要求則是上億條甚至是幾十億條的海量級,遠超之前AI小模型的幾百、幾千條;而基礎大模型的學習速度非常快,一兩年內就能消耗完所有的公開信息,接下來的難點在于專業和私域數據。
正是由于大模型對于標注數據的要求直接從TB級躍升到PB級、從單一模態和簡單標注跨越到多模態數據(文本、圖像、語音等)和復雜的標注任務(如多輪對話、思維鏈標注等),急需金融、法律、醫療、音樂、文學、數理、代碼、美學藝術等垂直領域的更高水平的專業知識等,這些都要求數據標注服務商具有強大的技術平臺和研發能力,通過智能化的標注平臺承載大模型"匪夷所思"的需求。除了開發智能標注工具和平臺外,澳鵬對技術的投資還包括構建多模態數據湖,統一管理文本、圖像、音頻等異構數據,支持靈活的數據組合與實驗,以及強化倫理與合規框架等。
自2023年率先在AI數據服務行業中推出大模型智能開發平臺以來,幾乎所有的互聯網、科技、AI和大模型頭部客戶都找到了澳鵬,與澳鵬團隊捆綁式緊密合作,共同應對大模型的數據洪流。例如,基于澳鵬大模型平臺多模態數據處理能力,澳鵬為某AI科技廠商提供圖像文本描述數據服務工作,提供高質量圖文對超過50億對,充分滿足了圖文大模型的數據需求。正是"笨鳥先飛",提前"押注"投資技術和研發,讓澳鵬在行業洗牌中脫穎而出,躍升為行業龍頭。
戰略投資兩大方向,布局新十年超級周期
雖然公司在2024年取得了跨越式發展,但澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士認為,以DeepSeek等大模型為代表的大模型紅利才剛剛開始,AI數據服務行業將進入10-20年的景氣周期,澳鵬中國將在技術、交付、安全和渠道等方向持續布局,其中的戰略重點是技術和交付。而澳鵬作為AI數據服務行業的龍頭,其面向未來十年超級周期的布局,也將影響整個行業的發展方向。
技術和研發是澳鵬中國持續性戰略投資的重要方向。田小鵬博士表示,技術是絕對生產力,未來5年,澳鵬中國將向研發再投入2-3億元人民幣,以確保公司在大模型超級周期中的持續競爭力,公司也將持續轉型為算法輔助型、深化垂直領域的數據服務能力,同時通過人機協同模式提升數據標注的專業性和準確性。
澳鵬中國研發負責人、產品和工程副總裁錢程介紹,公司目前80%以上的研發人員都參與了大模型相關的研發任務,主要研發方向包括面向大模型的數據服務平臺、面向大模型的數據標注工具以及大模型相算法的研發和應用等。2025年,澳鵬中國將投入研發資源打造智能化成品數據集生產管理平臺,通過自動化的數據標注、清洗挖掘和質量評估快速構建大規模高質量成品數據集,為大模型的模型訓練提供高質量數據養料。
此外,隨著大模型應用向垂直領域的不斷深入,澳鵬中國將結合自身在大模型和各垂直領域數據服務中積累的豐富經驗,研發高精尖垂類數據標注平臺,澳鵬中國計劃在2025年上半年推出專業的大模型醫療數據標注平臺和具身智能數據標注平臺,進一步賦能垂直領域客戶構建高質量模型訓練數據。
當前正處于超級周期的啟動階段,大模型發展迅猛且競爭激烈。許多AI數據標注項目具有實驗性質,澳鵬需要迅速調整相關的平臺和資源以適應不同的數據需求。錢程指出,大模型的發展,尤其在后訓練階段非常迅速,客戶不斷嘗試新方法以優化效果。澳鵬團隊與客戶緊密合作,支持模型訓練的數據需求,助力模型能力的不斷提升。
對于嘗試性實驗項目,澳鵬需要迅速構建數據處理工具和工作流程,采集和標注數據,并進行結果訓練和驗證。這需要一個靈活的平臺工作流、自定義標注模板和敏捷的項目管理。澳鵬的大模型智能開發平臺通過自定義模板引擎,能夠在幾分鐘內快速配置數據標注模板,而定制化小型工具的開發則可在幾天到一周內完成。
錢程指出,客戶需求快速迭代,創意層出不窮,澳鵬的產品研發團隊為深度參與在這一快速發展的賽道而感到興奮。一方面,他們積極跟進國內外大模型訓練的技術變化;另一方面,與客戶實時交流前沿發展趨勢,共同探討數據服務的構建方法。
"以AI賦能AI"是澳鵬產品研發團隊不斷提升數據服務效率的宗旨,為了提升團隊的生產力和效率,澳鵬在數據處理和生產管理中廣泛應用大模型,替代傳統算法。這不僅大幅提高了技術和工程團隊的代碼編寫效率,還幫助數據交付部門提升了數據服務和項目管理的智能化水平。
在大模型時代,盡管之前有不少科技企業都有自己的數據標注工具或平臺,但隨著大模型和生成式AI需求的激增,企業越來越依賴澳鵬這樣的外部專業數據平臺和服務商,既能滿足不斷變化的工具和平臺開發需求,又能結合垂直領域專業標注人員的RHLF強化學習,一體化滿足大模型和生成式AI的持續迭代要求。
面向垂直領域的交付能力也是澳鵬的戰略投資方向。繼通用知識后,專業知識是大模型下一步的重點發展領域。澳鵬在已有垂直領域能力的基礎上, 2024年開辟了金融、法律、音樂、多語種、文學、TTS、數學、醫療、代碼等九個大模型垂直領域團隊,專門負責開發和培養這些垂直領域的復合型人才,以及承擔相應的數據服務項目。
什么是面向垂直領域的復合型人才?簡單理解就是對傳統垂直領域的人才進行培養,例如金融、法律、醫療、音樂等,讓專業領域人才理解AI與大模型、AI數據與AI數據項目交付等技術和項目管理實踐,將專業領域知識與AI和數據項目交付結合起來,從而更好地服務客戶大模型對于多種垂直領域數據的需求。這些專業人才不僅能夠完成更高質量、更專業的數據標注,更能從專業邏輯上滿足大模型推理的連貫性要求。
澳鵬中國在醫療AI領域布局近5年,為國內最早在醫療AI領域大規模投入的公司,擁有500+全職醫療專業人員和1000+眾包團隊,覆蓋臨床醫學、中醫、中西醫、護理、藥學、心理、營養學等多個學科,已為國內30多個客戶交付500+醫學項目、超1000萬條數據。
自2023年下半年起,澳鵬組建了400+金融背景全職團隊,其中擁有金融、經濟或財會學本科及以上學歷占比99%,70%持有基金或證券從業資格,支持風險管控、數據分析等金融應用開發,并具備完善的數據安全合規體系。
2024年,澳鵬在代碼大模型領域取得顯著增長,擁有120+全職技術人員覆蓋主流編程語言,提供代碼生成、調試等服務,業務擴展至能力評估、運維、測試等場景,團隊規模翻倍,并持續積累高質量代碼數據集,確保代碼模型在多種編程場景和任務類型上的泛化能力。
此外,澳鵬在大模型各垂類領域都擁有豐富的專業人才資源:在法律領域,擁有專業的法律人才,涵蓋法律檢索、庭審、風控體系建設等核心能力;多語言領域,團隊覆蓋200+語種,具備豐富的多語言項目交付經驗;音樂領域,擁有500+兼職音樂專業人員支持編曲、標注、制譜等任務;TTS領域,擁有數十個國家TTS采集經驗,錄音棚覆蓋全國主要城市;文學領域,團隊成員均具備深刻的文學理解與鑒賞能力,支持跨領域多模態融合與創新、情感交互與智能推薦系統等領域大模型的發展……澳鵬憑借強大的專業團隊和豐富經驗,持續為大模型提供高質量數據支持。
值得一提的是,在專業人才招聘方面,澳鵬面向各個垂直領域,不僅有強大的全職招聘團隊,在中國無錫、大連、重慶,在海外菲律賓、越南、印度、馬來、英國、美國等部署高信安基地,還有獨有海內外的眾包資源和 2000+家供應商合作伙伴渠道,也與數百家學校展開深入合作,部署垂直領域人才的前置實訓培養,從而更好地儲備人才。
數據安全和合規一直是澳鵬的強項,特別是 2024 年澳鵬中國取得了中國 AI 數據行業首家 ISO 37301合規管理體系認證,覆蓋 AI 數據采集、數據標注和勞動合規等領域,這是繼澳鵬中國在 ISO 27001安全合規、ISO 27701個人和隱私安全合規、ISO45001 職業健康安全等進一步夯實和固守合規底線。澳鵬不斷地強化安全合規舉措,為所有客戶提供安全、可持續的數據服務,田小鵬博士表示,2024 年澳鵬各個基地順利通過了 50+多次的客戶"飛檢"和現場審計,為客戶的大模型高數安要求保駕護航。
總結而言:隨著以DeepSeek開源大模型為代表的大模型第二波浪潮剛剛開始,一個真正的技術、經濟和數據的超級周期才正式啟動。在大模型第一波浪潮中,啟動的主要是AI和科技公司;而在大模型第二波浪潮中,啟動的將是所有行業領域的公司和政府機構,并將從中國聚焦到全球拓展,形成了從技術進步到生產力提升再到營收增長以及更多技術投資的正向循環。
在超級周期的正向循環中,數據真正成為了經濟增長的"燃料",一個AI數據服務的多年期藍海正在形成。田小鵬博士表示,"到2030 年,澳鵬中國制定了非常遠大的營收目標——20+ 億人民幣,更重要的是澳鵬中國將不遺余力地成就我們中國 AI 客戶,通過持續創新讓中國的 AI 的產品和服務能領先于世界!"
隨著人工智能(AI)在各個領域的普及越來越迅速和廣泛,想要在AI領域取得成功,除了走在趨勢前沿,能夠高效獲取優質數據是企業快人一步進行AI部署的利器。《澳鵬AI全景報告2024》分析顯示,雖然機器學習 (ML) 和生成式AI (GenAI) 等前沿技術的采用率持續攀升,但缺乏準確、高質量的數據仍是AI部署之旅遭遇的關鍵挑戰。
澳鵬Appen戰略副總裁Si Chen表示:"盡管業界對GenAI等前沿AI技術的熱情高漲,但這些工具的前景也面臨著艱巨的挑戰。AI項目的成功很大程度上依賴于高質量的數據,隨著AI應用場景的復雜性和專業度不斷提升,獲取高質量數據變得愈發困難。那些構建未來AI工具和模型的公司比以往任何時候都更重視長期的數據戰略合作伙伴。"
《澳鵬AI全景報告2024》探討了生成式AI日益廣泛的應用及其對業務流程的影響,如何通過提升數據質量等關鍵因素來助力AI部署的成功,以及與數據專家合作把握AI生命周期、優化AI投資回報率等關鍵要點。主要調研結果包括:
數據管理是首要挑戰:隨著AI應用場景日趨復雜,與數據獲取、清洗和標注相關的瓶頸問題增加10%,數據準確性下降9%,數據可用性相關挑戰增加7%;
對外部數據提供商的需求高漲:超過90%的受訪者尋求專業、長期的AI生命周期數據合作伙伴,以提高其AI系統的質量和可擴展性;
看重數據多樣性和減少偏見:97%的受訪者認同數據多樣性、減少偏見和可擴展性是構建AI模型的重要組成部分,而定制數據集仍是有效獲取AI訓練數據的主要方法;
人類洞察力依然至關重要:80%的受訪者強調人機協同過程的重要性,凸顯了人類監督在完善AI系統中的重要作用。
作為全球圖像、文本、語音、音頻、視頻等AI訓練數據服務的主要提供商之一,澳鵬Appen擁有業內先進的人工智能輔助數據標注平臺、自研的大模型開發平臺及全球100多萬名技能嫻熟的眾包資源,支持290+種語言和方言。目前,澳鵬Appen數據解決方案已助力全球15,000+個AI項目的研發及商業化。未來,澳鵬作為產業鏈的重要一環,將繼續堅持以高質量的數據服務水平和持續不斷的研發創新為前沿技術落地賦能,為打造全方位優質的人工智能及大模型生態體系助力。
在AI與大模型數據服務這條賽道上,澳鵬Appen位于Everest Group 2024 AI/ML數據標注解決方案Peak Matrix領導者象限第一。2019年,澳鵬(中國)正式成立了,作為獨立于澳鵬Appen全球而在中國市場"白手起家"的澳鵬(中國),5年來闖過了中國AI數據"江湖",實現了在中國市場遙遙領先——從 2020 年到 2023 年,5年來澳鵬的復合營收增長率是 90+%以上,2023年澳鵬(中國)實現了近2.5億人民幣營收,剛剛發布的2024年上半年實現了1.83億人民幣(2540萬美元)營收,遠超業界頭部友商。預計2024年將實現3.5~4億人民幣營收,YOY 的收入增長率 50%~60%以上,2029年將跨入年營收10億人民幣大關。澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士表示:“過去5年澳鵬(中國)的成功,可以總結為五大因素:順勢而為、創新為要、資源多樣化、洞察客戶需求、員工滿意與數據合規。
AI數據三維度爆發式裂變
所謂AI數據,即經過人工或機器方式標注過的數據。澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士表示,澳鵬(中國)在近五年經歷了三大AI浪潮,同時收獲了AI數據在三個維度的爆發式裂變增長紅利:即從深度學習和機器學習浪潮、到自動駕駛浪潮、再到大模型的"滔天巨浪";相應帶來AI數據在數據規模、數據質量和數據復雜度等三個維度的裂變增長。
在數據規模方面,傳統深度學習模型訓練數據規模在GB級到TB級,自動駕駛模型和大模型訓練數據進一步上升至PB級。一輛智能汽車真實路況采集視頻數據可達PB到數十PB,而通用大模型訓練甚至已經耗盡了互聯網數據,并向更廣闊的私域數據高速拓展。
在數據質量方面,由于自動駕駛模型對于真實路況安全的重要性等,要求數據標注的準確性從之前的95%或96%進一步提升到99.5%甚至100%,這就意味著極大提高了數據標注的要求。而對于大模型訓練來說,高質量數據則意味著更高水平的人工標注,例如需要量子力學等小眾專業知識以及醫療、音樂、科技、金融、制造等垂直行業知識。
數據復雜度更在近年來急劇上升。在自動駕駛、VR/MR、機器人等領域,此前主要為2D、3D和 2D&3D融合標注,這兩年進一步發展到4D標注,也就是將時間作為新增維度,而4D標注對技術和復雜度要求非常高。此外,由于大量AI模型訓練和多頻次模型迭代的需求,數據流轉越來越復雜,數據處理的專業性要求越來越高,既有短周期甚至臨時性項目、高頻次數據標注需求,也有臨時數據耗盡而項目掛起的需求,還有要求安全可控數據標注環境、專業數據人才能力等等。
整體而言,經過了2019年到2024年的飛速發展,從深度學習/機器學習的精品式小模型訓練,到自動駕駛的規模化模型訓練和高頻次迭代,再到"百大"大模型和生成式 AI的規模化生產,引發了AI數據在規模、質量和復雜度三個維度的同時爆發式裂變,這對于AI數據服務商來說,既是機遇更是挑戰。
"押注"技術平臺產品,打造核心競爭力
技術能力是傳統數據標注服務商長期缺失的核心能力。隨著AI數據在三個維度的爆發式裂變,單純依靠手工方式進行數據標注已經遠遠不能滿足需求,更無法持續降低數據標注項目的成本、提高數據標注的質量、加快數據的有效流轉。
在數據標注技術工程平臺方面,特斯拉為整個行業立了一面旗幟。從2018到2021年,特斯拉的數據工程平臺經歷了3次迭代,通過自動標注與多種技術手段配合,一個clip(即最小標注單位,通常特斯拉的一個clip包括45秒到1分鐘的路段數據)的標注僅需0.5小時算力+0.1小時人工,效率較2018年提升了800倍之多。
在全球市場,2019年的時候也僅有包括澳鵬Appen在內的少數頂級AI數據標注服務商投資了自有的數據標注工程平臺。在2019年澳鵬(中國)成立的時候,當時除了從IBM等世界一流IT公司出來的幾位核心主創人員以及澳鵬Appen全球對中國團隊的初始投資外,可以說"一窮二白"。
與其它全球公司的中國分公司不同,由于數據行業的高度安全合規要求,澳鵬(中國)必須要獨立自主地在中國市場重建所有的資源、系統和流程。擯棄了"拿來主義",擺在澳鵬(中國)創始團隊面前的就是一張白紙,而團隊決定對技術進行"押注"式投入:目前公司有60余名全職資深研發技術工程師,其中一半專門聚焦于公司的技術平臺產品研發;另一半專門聚焦于和客戶在平臺數據接收和驗收的無縫對接。2023年,澳鵬(中國)投資近5000萬元用于技術和系統建設,包括對澳鵬MatrixGo企業級高精度數據標注平臺和大模型智能開發平臺的開發和增強。
今天的澳鵬(中國)有兩大拳頭產品:MatrixGo企業級高精度數據標注平臺和大模型智能開發平臺,并用這兩大平臺扛住了AI數據三維度裂變的"滾滾洪流"。澳鵬MatrixGo平臺和大模型智能開發平臺完全由澳鵬(中國)團隊在本地研發,擁有全部的知識產權和產品主導能力。
目前,澳鵬(中國)對MatrixGo平臺和大模型智能開發平臺每年迭代近百次,相當于每周都有產品更新,國內本地客戶的 AI 數據需求能夠快速反應到產品設計和開發中。同時澳鵬自主研發的預標注通用模型和交互式算法在數據標注任務中能產生25%至10倍以上的效率提升。
具體來看,澳鵬MatrixGo平臺主要針對深度學習和機器學習小模型的數據采集與標注需求,也服務于自動駕駛場景,覆蓋文本、語音、圖像、視頻、多模態等各種數據類型。目前澳鵬MatrixGo平臺已經演進到2.0版本,并不斷增強AI輔助智能標注引擎,持續提升人工標注的效率和質量,降低數據標注成本。
例如,澳鵬MatrixGo平臺在2D圖像類項目上可達到5倍以上的效率提升;3D語義分割數據標注效率提升可達到35%以上;2/3D物體檢測預標注模型效率提升15%-30%;數據交付準確率平均達到99%以上。在自動駕駛場景方面,澳鵬MatrixGo平臺支持單幀100億以上點云的加載、提供了多種4D數據標注工具,能夠為客戶增效30%以上。
澳鵬MatrixGo平臺針對各種中國客戶的不同信息安全性需求,還提供了客戶On-Premise、專屬安全屋On-premise、SaaS等多種不同的部署形式, 如On-premise的部署在48小時內可以完成,不僅極大地滿足了針對客戶的安全性需求適配,更解決客戶快速交付的緊急訴求,已在中國成功地提供幾十家客戶的On-Premise部署。
澳鵬大模型智能開發平臺是澳鵬(中國)在2023年全新開發的一個新技術工程平臺。針對大模型場景,澳鵬(中國)研發了專業的多模態數據標注工具、多輪對話數據標注工具、思維鏈數據標注工具、工具調用數據標注工具、知識庫數據標注工具等多種專業標注工具,支持RLHF、RLAIF、SFT等多種高質量數據的生產;該平臺對數據集管理、模型評估進行了針對性設計,通過A/B測試、紅藍對抗、排序打分等對大模型質量進行評估和分析;該平臺還集成了算力資源的調度和對接,可以進行算法的微調和部署,一站式完成大模型數據開發。
大模型智能開發平臺的快速上線讓澳鵬(中國)迅速抓住了大模型商機。2023年,澳鵬(中國)在中國、日本和韓國共拓展了82家新客戶,其中8家客戶帶來了20個大模型項目。2023年全年,澳鵬(中國)大模型業務營收接近3300萬,2024上半年更直逼5000萬,呈爆發式增長態勢。
澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士表示,正是依托澳鵬MatrixGO平臺和大模型智能開發平臺兩大平臺的技術能力,讓澳鵬(中國)在眾多數據項目中脫穎而出,也是獲得頭部客戶青睞的重要原因。
在自主創新方面,澳鵬(中國)目前累計申請的專利數達到24項(其中20個專利申請處于已遞交狀態);軟著登記共計62項,其中56項已獲證。澳鵬(中國)與很多高校和科研院所在計算機視覺、多模態算法、大模型等領域進行了項目合作,也與許多院校在人工智能訓練師、人工智能數據標注產業培養等方面深入合作。
正是因為堅持對核心技術進行布局,澳鵬(中國)成功入選艾瑞咨詢的《2024年中國AI基礎數據服務研究報告》,并作為行業標桿之一被列入AI基礎數據服務廠商案例。而在2024世界人工智能大會(WAIC2024)期間,澳鵬(中國)入選了億歐的2024 AI產業鏈圖譜,并被評選為2024中國AI企業商業落地基礎設施服務商Top20等。
躬身入局AI數據"江湖",闖出新天地
整個AI數據標注行業在過去5年經歷了全面重塑。2019年的數據標注市場,仍處于野蠻生長狀態,主要以勞動力密集型企業為主,其競爭優勢主要體現在低價格和傳統渠道,不少企業在四五線城市建立了低成本的數據標注基地。當時的數據標注員幾乎零門檻,整個行業良莠不齊,惡意競爭、低價競爭等種種亂象叢生,可以用"江湖"一詞來形容當時的市場狀態。
2019年澳鵬(中國)成立的時候,當時已經成立23年、上市4年的澳鵬Appen全球擁有百萬眾包資源,支持235+種語言和方言,具備成熟的眾包人力資源體系和項目管理能力。但對于2019年僅有不到10個人的澳鵬(中國)初創團隊來說,這些來自頂級IT公司的專業精英人才,卻要面對當時AI數據標注服務市場的各種亂象。
針對處于初級階段的中國AI數據標注市場,澳鵬(中國)投入了大量時間和精力進行眾包資源的招募、培訓、流程建設和管理,特別是在二線城市創造性地建立了自營數據服務交付基地,通過自有專職人員+眾包資源的方式,適配了中國數據標注行業的初級階段。
所謂自營數據服務交付基地,即在無錫、大連、重慶等地租用辦公樓,招聘專職數據標注服務員工入駐辦公,同時為項目提供安全封閉的項目辦公空間,供團隊與客戶共同完成高保密性的項目。而在項目管理方面,面對數據標注項目節奏快、數據需求量不穩定、數據規則不斷變化等挑戰,澳鵬(中國)從多個維度提升項目管理能力,保障對客戶項目交付的穩定性。
澳鵬(中國)非常重視AI數據服務項目的安全和隱私保護,不僅在中國的各個自營基地均已獲得ISO 27001、27701、9001、14001、45001、ISO 37301等安全及管理領域國際認證,還與客戶、眾包資源等100%簽訂NDA協議。此外,根據項目對數據的安全級別、隱私安全等要求,澳鵬(中國)為客戶定制專屬項目室,包括安全屋、網絡專線、信息安全管控等,特殊項目要求員工在進入項目前還需要上交手機。正是因為澳鵬(中國)不遺余力地建設數據安全與隱私保護,才在市場競爭中獲得了頭部客戶的青睞。
為什么要建自營服務交付基地?澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士介紹,盡管澳鵬自身非常重視數據安全與隱私保護,但很多BPO服務商特別是中小BPO服務其實在這方面并不重視,也很難具備高等級數據安保設施,相比之下只有自營服務交付基地才能滿足客戶高安全、高保密等高等級要求。澳鵬(中國)的自營服務交付基地也為中國AI數據標注行業建立了一個新規范、新標桿。有客戶表示在國內所有大型數據標注服務商中,只有澳鵬(中國)是真正將數據安保真正落地的服務商,也是少有的全員交社保的數據標注服務商。
選擇在二線城市建設自營數據服務交付基地,還有一個出發點就是為了滿足AI數據對于高知識專業人才的需求。田小鵬表示,團隊在成立之初就前瞻到了AI模型將越來越向垂直領域和專業化方向發展,對于知識的需求將越來越高。相比于四五線城市,二線城市有大量高水平的高校以及具備高知識的專業化人才,選擇在二線城市建設自營數據服務交付基地可就近招募高知識專業化人才,滿足AI模型的長期演進需求。
在澳鵬(中國)創業的5年中,經歷了中國AI數據標注行業從初期亂象走向規范化發展之路,在這期間還經歷了三年疫情這樣百年未遇的公共事件,這些都是澳鵬(中國)創業團隊在創業之初都始料未及的挑戰。
例如,有的客戶在項目進行過程中或項目結束就破產了,或因各種原因出現賴賬,導致無法收回上百萬的項目款或者打折結算,而與此同時很多眾包人員的工作已經在進行中或完成了,澳鵬(中國)團隊經過慎重考慮選擇自行墊款結算所有眾包人員和BPO商的項目款,因為對于很多地方上的眾包和 BPO人員來說,項目款是維持生計的重要來源,特別在疫情期間甚至是唯一生計來源。
從"科技向善"的公司理念出發,澳鵬(中國)并沒有因為AI數據"江湖"的亂象而放棄原則,而是知行合一地實踐了這一理念,杜絕各種"踩紅線"行為,為整個行業樹立科技向善的標桿,引領AI數據標注行業走出無序和不良競爭亂象,走向更加光明的未來。
下一個5年,勇攀高峰
在過去5年中,出現了大量不確定性的事件,包括全球疫情和中美科技競爭,但也幸運地趕上了自動駕駛和大模型浪潮以及由此引發的AI數據三維度爆發式裂變。由于澳鵬(中國)堅持以科技創新立身,堅定投入自有技術平臺,依靠更高效率、更高質量、更高安全性的技術平臺和人力資源優勢,在市場中站穩了腳跟。
過去5年澳鵬(中國)的成功,可以總結為五大因素:順勢而為、創新為要、資源多樣化、洞察客戶需求、員工滿意與數據合規。
順勢而為。澳鵬(中國)非常幸運地抓住了ChatGPT、LLM等AI科技突破性技術創新和成就所產生的商機,特別是敏銳察覺和把握了AI數據三維度爆發式裂變,堅定了對AI數據標注服務、AI和未來科技演進的信心與信念,在前瞻性戰略思考基礎上,謀定而后動。
創新為要。澳鵬(中國)將創新視為公司和行業發展的動力,以創新謀新局、開新篇:創造性地建立在中國自營 AI 數據服務交付基地模式;大膽投資開發了澳鵬MatrixGo平臺和大模型智能開發平臺并建立了技術護城河;率先嘗試各種AI數據服務,包括3D數據標注、4D數據標注、大模型數據服務、多模態數據服務、海外路采等等。
資源多樣化。通過眾包、BPO和專職數據標注與服務人員等多種資源布局與協同,解決了客戶在AI數據規模、質量與復雜性方面的挑戰,同時也解決了部分大眾就業、中小企業生存發展等民生問題,將創業與企業責任結合起來,用實踐向業界展現了AI向善的商業與社會價值,引領整個行業走上可持續發展之路。
洞察客戶需求。在AI數據服務行業,客戶真正關心的是優異的品質和合理的價格。澳鵬(中國)一直秉承"季布一諾千金"的優良文化,全心全意服務好客戶,不斷打磨精細化管理,以優異的數據質量品質,在業界形成了良好的口碑。
員工滿意和數據合規。澳鵬(中國)非常重視員工的滿意度,授予員工充分的自主權,讓員工全方位參與公司管理,獲得員工的高認可度。數據合規紅線是企業運營的根本,公司通過各種獨立項目交付合規室的建設和管控措施以及ISO信息安全認證等多種舉措建立了安全合規的企業文化。
目前,澳鵬(中國)客戶主要分布在互聯網/電商企業、算法科技公司、自動駕駛等行業,客戶包括國內前十大汽車公司、前十大互聯網公司和前四大移動互聯網公司等。鑒于AI數據與AI模型越來越密不可分,澳鵬(中國)為頭部客戶配置了專屬的客戶經理,從而深入理解客戶業務,并根據客戶業務發展,提前準備相應的資源和能力,靈活及時滿足客戶需求。
例如,在服務某中國頭部社交媒體海外實體公司的過程中,雙方在大模型文本生成和多模態數據處理等領域展開了深入合作。澳鵬(中國)在東南亞地區建立了多個大模型標注的基地,招募了當地優秀的本科、碩士畢業生以及部分垂直領域的專家。借助海外專業且穩定的人力資源以及澳鵬豐富的管理經驗,為該客戶實現了大模型高精度+高一致率的標注結果。目前該客戶大模型的業務量已經躋身澳鵬(中國)前三,成為重要的業務支柱。
在下一個5年到來之際,澳鵬(中國)又站在了一個新的起點。未來5年,在大模型的持續影響和應用需求激增下,全社會全面進入AI規模化應用階段,相關數據標注的需求也呈現爆發式增長。面對下一波AI浪潮,澳鵬(中國)已經做好了充分的準備。
首先,澳鵬(中國)將持續投入兩大平臺的研發,不斷提高產品力,從而提升產品在整個營收中的占比。在數據標注服務外,客戶對于數據處理平臺、數據處理工具和數據處理算法有大量需求。為此,澳鵬(中國)投入產品研發,打造可商業化的數據標注平臺、多模態數據標注工具、成品數據庫產品以及覆蓋數據采集、數據清洗、數據脫敏、數據挖掘等不同階段的自動化算法產品,為客戶提供全面的產品矩陣。
澳鵬(中國)的團隊與客戶團隊一起,共同探討算法研發的思路和數據標注工具的產品設計。澳鵬(中國)團隊每天都在為客戶定制化需求而研發,這些需求可能是為了客戶算法工程師的一個新思路而實現一個特殊的數據標注功能以標注特定的數據特征,也可能是為了讓客戶更好更快地驗收數據標注結果而開發更便捷、可視化功能和數據準確率看板。所有這些新算法、新功能、新工具都匯入澳鵬(中國)的兩大平臺,惠及更多客戶。
其次,澳鵬(中國)將繼續開拓大模型和中國企業出海兩大市場。在大模型市場,科技企業對于AI/LLM的研發投入巨大,迫切需要具有的高質量訓練數據交付能力的公司,幫助更好、更快地處理模型訓練數據,而澳鵬(中國)已經構建了強大的競爭力。
在中國企業出海市場,企業出海首先面對的就是語言和全球資源的挑戰,澳鵬在全球170多個國家擁有290多種語言的資源,同時在菲律賓、越南、美國等地區擁有大型交付中心,這是澳鵬在行業內獨一無二的優勢,可以很好地支持國內企業出海拓展海外市場業務。
第三,針對AI技術深入行業應用帶來的長期需求,包括代碼、醫療、教育、金融、工業、汽車等行業,澳鵬(中國)已經儲備了超過1500人的高學歷專業人士,而且還在無錫、大連、重慶等多地的交付基地同時招聘招募專業人員,從而打造全國性的專業資源能力池。
艾瑞咨詢預計到2028年,中國AI基礎數據服務市場規模將達170億元,未來五年的復合增長率為30.4%。澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士表示,有信心在5年后實現12億人民幣的年營收,以至少27.8%+的高速復合增長率,成為中國及亞洲區AI數據專業服務行業的領軍服務商。
其中,產品和服務兩條線更均衡發展,產品項目的占比將從2024年的4%至少提升到2029年的12%;進一步加速開拓亞洲市場,占比將從 2024年10%至少提升到2029年15%,澳鵬中國5 年后將完成亞洲、歐洲、非洲、中東、南美、北美等地所有AI數據服務的全覆蓋。
展望5年后乃至更長遠的未來,田小鵬認為廣闊天地在于突破AI數據標注服務窄領域,進入AI數據服務寬領域,即:AI數據服務將會有更廣泛行業的覆蓋拓展;AI 數據類型將向多模態、垂類細分顆粒度等演變;AI 數據產品將更國際化、全球化、多語言覆蓋。例如:大模型就將AI數據服務推進到了人工反饋算法迭代服務和模型評估服務,今后隨著AI技術的持續發展或將出現新的AI模型,相應帶來新的AI數據服務需求,這為澳鵬(中國)基業長青奠定了信心。
回顧過去5年走過的路,田小鵬笑說如果再來一遍,肯定不會選擇創業這條道路。因為在一個市場的初級階段搏殺,再疊加全球三年疫情這樣極具挑戰的公共事件,即便是老兵創業也是每日如履薄冰。
5年前創業之初,澳鵬(中國)從零起步,沒有客戶、沒有產品、沒有流程、沒有團隊、只有投資和勇氣;5年后,澳鵬(中國)已經有兩大產品平臺、3000+員工、3000+BPO合作伙伴、近百萬眾包資源、6大服務交付基地、完整的組織、流程與管理以及350+家優質客戶……
闖過了前面的險灘,后面就是奔騰不息的大江大河。面向下一個5年,田小鵬說"澳鵬(中國)并不完美,但一直在追求完美的道路上。在 AI 的未來浪潮中,在AI數據主航道上我們將勇往直前。澳鵬(中國)愿做客戶在 AI成功的幕后英雄和鋪路石,成就客戶是我們永遠不變的初心!"
高質量的訓練數據始終是人工智能產業鏈上的重要一環。自2019年始,澳鵬Appen(中國)已連續6屆參與這一人工智能產業盛會,與產業鏈各環節領袖共商人工智能領域前沿技術、產業動向、向善治理。今年,澳鵬Appen(中國)很榮幸攜技術驅動的雙平臺再次重磅亮相本次大會,展示如何以專業、精準、安全的高質量訓練數據賦能AI+,助力各行業、各領域AI模型的高效開發和落地。
澳鵬大模型智能開發平臺
澳鵬大模型智能開發平臺支持大模型定制開發的全流程需求,集大模型數據準備、訓練、推理、部署應用于一體,提供數據管理、模型調優、模型評估、模型管理等全棧產品,賦能醫療、金融、教育、代碼、法律等多垂直領域的大模型部署,助力企業輕松擁抱大模型。
作為大模型產業鏈的基礎環節,澳鵬Appen(中國)支持全棧式大模型數據服務,包括數據集、模型評估、模型調優、標注工具/訓練平臺部署、領域專家服務等;同時,平臺集成的全套標注工具,如大模型智能體標注、多模態數據標注、基于LLM的自動標注能力等,緊跟市場技術前沿,是快速部署大模型應用的利器。
澳鵬提供700+個成品數據集,其中包括五萬余小時ASR語音數據,一百六十萬余張圖片,81億token、千萬詞條的大語言模型相關文本數據集。澳鵬多模態、多領域、多場景的豐富數據集可高效支持各類模型的各階段訓練。
澳鵬MatrixGo®高精度數據標注平臺
持續優化數據精度是人工智能算法提升的關鍵。澳鵬MatrixGo®平臺集成強大的標注工具箱和靈活、可視的工作流,具備多樣化的平臺部署方式和精細化的人力資源管理。AI行業領軍者正在通過MatrixGo®平臺強大的標注工具,大幅提升非結構化數據處理能力,賦能全球創新性AI項目部署。
澳鵬MatrixGo®平臺自動化數據標注回環,具備場景篩選 + 數據挖掘能力,為下游提供高質量預標注結果;通過引入交互式智能標注工具,人機協同提高標注效率;可自定義的自動化質檢,實時反饋異常標注數據;動態迭代的模型推理能力,不斷提升自動識別準確率,真正做到"以AI賦能AI"。
除了技術水平之外,澳鵬全球化的數據采集能力和多場景、定制化的數據標注服務是客戶滿意度的保障。澳鵬支持全數據類型的標注,包括大模型、圖像視頻、3D、語音、文本及內容相關性的標注;在全球范圍擁有290+語言資源及100萬+眾包團隊,澳鵬全球化的數據定制采集服務為AI部署提供數據保障。
數據,鑄就非凡差異。一直以來,澳鵬Appen(中國)始終致力于以高質量的數據服務及持續不斷的技術研發為全球領先人工智能的部署提供動力源泉。澳鵬Appen全球高級副總裁、大中國區及北亞區總經理田小鵬博士表示,"未來,澳鵬將持續以不斷迭代的端到端數據平臺、靈活高效的數據服務以及深厚的細分領域專業知識,鑄就全球非凡的人工智能應用開發和落地,打造專業、精準、安全的高質量數據基石。"
隨著"數據二十條"等一系列政策措施相繼出臺,數據要素市場的探索與發展已步入高速增長階段。據億歐預計,2025年數據要素市場規模可達1990億元,年復合增長率可達25%。尤其是在人工智能快速迭代、大模型與數據相得益彰的發展態勢中,數據要素的戰略地位進一步凸顯。
澳鵬(中國)自主研發的大模型智能開發平臺集大模型數據準備、訓練、推理、部署應用于一體,支持從數據集管理、數據標注、模型評估、模型調優、訓練平臺部署及標注工具部署等大模型定制開發的全流程需求,助力企業輕松擁抱大模型。
澳鵬大模型智能開發平臺涵蓋三大核心技術:自研的預標注模型、交互式分割模型及算法賦能的文檔智能。首先,澳鵬通過海量圖像、點云等數據,結合豐富的實際項目經驗,預訓練了車輛行駛、交通燈、停車位、人像識別等多場景預標注模型,可實現2D 3D聯合拉框、視頻連續幀mask追蹤等全方位的預識別結果輸出,大幅提高后續標注效率。
為適應2D圖像標注中多樣化的物體類別分割與檢測,澳鵬結合豐富的圖像數據訓練了交互式分割模型并內嵌于標注工具中。僅需通過點擊的方式標記正確區域并糾正輸出結果,即可完成物體識別;再結合連續幀信息引入,大幅提升2D圖像標注效率。模型支持微調訓練,可適應定制化的場景需求。
為解決各類場景下的文檔信息轉化提取難題,澳鵬基于海量文檔數據預訓練了智能文檔處理模型。支持輸入圖片或PDF格式文檔,對帶陰影圖片、傾斜圖片、手寫表格、各類學科公式等多類信息進行識別,并轉化成word文檔輸出,便于人工編輯校對。
隨著大模型技術的演進,其賦能千行百業的能力不斷提升。在數據集方面,澳鵬LLM數據庫覆蓋教育、法律、醫療、金融、百科等眾多熱門垂直領域,提供超過290種語言和方言的文本、語音數據庫,并創建了一系列大模型專用數據集,如:百科類人工泛化文本問答數據集,知識類百科文本語料對數據庫,58億圖文對數據庫等等。澳鵬提供JSON格式的多學科題目,并擁有20萬余條各種不同類型的高質量指令集文本及法律醫療百科類文本,通過多重質檢環節嚴格把關數據質量,助力通用大模型和各種細分垂類大模型的訓練和落地。
澳鵬Appen全球高級副總裁、大中華區及北亞區總經理田小鵬博士表示:"數據是決定機器學習模型性能的三大要素之一。隨著各類大模型的智能涌現,數據,尤其是高質量的行業數據,正在成為決定大模型高速發展的關鍵因素。澳鵬自研的算法模型和核心技術,以及一系列大模型數據集,充分給予AI應用優質的數據養料,為大規模的大模型場景落地提供支持。"
在醫療領域,大模型的智慧生態正在逐步建立。由于學科門檻和專業要求的限制,醫療大數據平臺模型往往具有高要求的數據訓練標準。對專業和理論化的內容進行整理、審核、分類、排序,獲得大規模、高質量的數據集,需要一定數量具備專業醫學知識背景的從醫人員完成。
在國內,擁有專業醫學管理團隊和具規模的專業醫學標注人員的公司非常少。零散的訓練量始終達不到模型訓練所需的數據要求。澳鵬Appen醫療團隊充分利用自身的專業知識和及時的權威資料學習更新,為醫療大模型部署提供了高效、大規模的數據訓練養料。
澳鵬Appen擁有一支專業的醫學標注團隊,由具有執業醫師資格、醫學項目經驗豐富的醫學項目管理者組成;擁有多學科、近百位三甲級醫院主治及以上職稱醫師作為專家顧問,近百人醫學專業多學科的全職質檢團隊,以及近千人的醫學資源池;涵蓋700w+醫學文本數據,8w+醫學圖像數據,以及中英等多語種醫學數據。
澳鵬Appen醫療團隊提供專業知識、資源和創新型解決方案。針對醫學大模型訓練,澳鵬Appen提供專業的醫學審核、改寫、排序、打分;并轉換成自然語言。保障多醫療場景(醫患問答、執業考試等)下的專業嚴謹性和醫學邏輯性。
同時,澳鵬團隊基于開源通用大語言模型,利用指令精調/指令微調(P-Tuning v2)技術,訓練開發了澳鵬版本的中文醫療大模型。澳鵬醫療大模型在保留基座模型通用知識能力的基礎上,在醫療垂直領域進行優化加強,覆蓋醫療咨詢、醫學問答、導診、預問診、檢查建議、用藥建議等常見實用的醫療場景。
除了醫學大模型數據訓練,澳鵬還提供醫學影像學(放射)圖像標注服務。例如,在AI預測的基礎上,進行肺部CT數據的醫學后處理,糾正標簽判斷錯誤,增加未檢出病灶,提高數據的病灶檢出率并降低假陽率;對于MRA頭部血管數據,在AI預測的腦動脈、靜脈、微小血管基礎上修改AI識別的錯誤,要求分割精度不低于2個馬賽克位點等等。
在臨床醫學、病理學和心電圖圖像方面,澳鵬同樣能夠提供高質量的標注服務。例如,對胃鏡圖像中的病灶選擇對應標簽并沿邊緣進行分割,保證圖像內病灶標注的完整和精準;對胃部組織進行拉框選擇ROI,并針對ROI內目標細胞(如慢性胃炎)進行精準的標注;在AI預測的基礎上,進行心電圖數據的醫學后處理,糾正AI預測的錯誤,添加AI未檢出異常等等。
對于醫學內容審核和編輯,澳鵬團隊針對醫學文本、圖像、視頻等形式中的內容,根據相關規則進行專業審核,糾正文中的醫學科學性、醫學邏輯、醫學名詞不準確等錯誤;同樣地,團隊能夠對醫學文本的內容根據相關規則進行專業的編輯,對文中的相關名詞做出專業的解釋、分類、打標簽等。
澳鵬智慧醫療數據是經HIPAA認證的高安全性解決方案,安全設備、現場服務、安全眾包模型和技術解決方案亦獲得ISO 27001,ISO 9001和ISO 27701認證,確保智能時代醫療數據的合法、合規、安全。未來,澳鵬Appen將持續以高質量訓練數據賦能AI提高診斷和治療的效率、幫助改善醫療從業者的體驗,為更多病人提供更快、更好的服務,助力智慧醫療新生態建立。
澳鵬Appen全新推出文檔智能識別接口,可將圖片、不可編輯的PDF等文檔一鍵識別轉換成可編輯的Word或Markdown格式,方便對其中數據作進一步利用。接口支持識別文檔中不同模態的數據,如文本、插圖、公式、表格等,并支持對不同版面進行識別和還原。
在大模型的訓練過程中,許多企業或行業數據沉淀在不可編輯的PDF、甚至是紙質文檔中。若要將這些數據利用起來,無論是用作基礎大模型的訓練數據,還是用于RAG或微調,都需要先轉化成可編輯的文檔格式。
這些文檔包含的內容有文本、表格、公式、插圖等內容,現有的內容識別技術大多只能識別文字,而對其他形態的內容無法進行識別和轉換。若要開發一個能識別所有格式內容的算法,其研發成本往往較高,識別速度和準確率亦無法得以保證。
澳鵬一站式文檔智能識別解決方案集成了多種算法能力:首先使用版面識別算法,可識別出PDF中每一頁的內容類型,包括文本、表格、公式、插圖等;如頁面中包含多種內容,則將每個獨立的內容塊截取出來;再根據內容塊的內容類型,調用不同的識別算法,包括文本識別算法、表格識別算法、公式識別算法等。
識別完成后再將內容拼接到一個文檔中,可還原成原始版面。同時,澳鵬也提供人工復核服務,進一步提升識別準確率。
在實際應用中,澳鵬一站式文檔智能識別解決方案的優勢主要包括:
-高效率低成本:使用澳鵬文檔智能識別處理文檔時,一個上百頁的PDF只需耗時數分鐘即可完成,遠快于人工轉寫;可批量處理大量文件,降低人力成本。
-高安全性:無需企業外部人員參與文檔內容轉寫過程,降低了敏感數據泄露的風險。
-易于集成:澳鵬文檔智能識別方案可與企業現有的業務流程和系統集成,自動輸入、輸出數據。
助力高科技企業開發行業大模型,澳鵬一站式文檔智能識別解決方案能夠對專業細分學科數據進行結構化處理,將沉淀在紙質版、PDF等形態的數據應用于大模型訓練中,幫助企業自動化地將各種類型的文檔轉化為結構化數據,為高效訓練行業大模型賦能。
依托于該平臺,澳鵬中國還提供大模型的數據定制和模型定制等全鏈路解決方案,幫助企業輕松擁抱大模型,構建高質量的生成式AI應用,為最終用戶實現變革性體驗。澳鵬中國大模型智能開發平臺主要包含4大優勢:
第一, 數據優勢
澳鵬中國大模型智能開發平臺集成多模態的數據標注工具,支持文本、圖像、代碼、公式等多模態數據融合標注。平臺具備完善的數據可視化工具,支持可視化查看數據集和數據標簽。完整的數據使用閉環,提供從數據準備、數據存儲、數據評估到數據使用的全鏈路數據閉環。成熟的標注資源管理、標注工作流功能,便于管理大規模的標注人員,并支持自定義工作流。
第二,微調優勢
澳鵬中國大模型智能開發平臺提供多種不同的模型微調腳本,適用于各類應用場景,有助于降低開發成本;同時,有效提升模型泛化能力,對用戶輸入內容的理解更準確。大模型經過特定數據集的學習和訓練后,可對相應場景做出更相關、優質的回答。
第三, 模型評估優勢
澳鵬中國大模型智能開發平臺具備完善的評估流程,支持使用數據集批量觸發模型生成結果,將結果一鍵生成為評估任務,并引入行業專家評價。平臺提供了大模型評價的通用指標和數據集,并提供了第三方大模型的評估結果作為對標參照。與此同時,平臺還支持對評估結果進行可視化展示。
第四, 算力優勢
澳鵬中國大模型智能開發平臺支持對接不同云廠商資源,避免資源切換帶來的遷移成本。全面擁抱國產化算力資源,為用戶提供多元化的算力選擇。同時,通過對算力資源虛擬化、集中調度等手段,提升算力利用率。
此外,在大模型項目部署服務方面,澳鵬擁有豐富的大模型相關項目經驗,在各垂類領域進行了近百個實戰項目打磨,幫助企業加快部署和落地進程。澳鵬高效率、高準確率的交付能力,以及高質量的人員專業素養和精益的項目管理水平,可以快速應對數據規則的多樣和靈活,為項目整體的成本效益提升提供有效助力。澳鵬始終采取高標準的數據安全管理措施,多個維度上為數據安全保駕護航。
無論是剛剛開啟AI部署之旅,還是加強現有的解決方案,澳鵬Appen作為值得信賴的高質量AI數據合作伙伴,始終致力于以專業的技術產品和數據服務滿足各行各業的前沿部署需求。
行業領軍者們正在通過澳鵬MatrixGo平臺及其強大的標注工具,大幅提升非結構化數據處理能力。正式上線的MatrixGo SaaS版本主要包含3大優勢:
第一,經驗優勢
澳鵬MatrixGo平臺自上線以來,經歷了數千個標注項目的實戰打磨,累積了來自各行各業、各種類型項目豐富的實戰經驗。例如:某大型自動駕駛公司私有化部署MatrixGo平臺,構建了對點云、圖像數據的標注能力,高效提升自動駕駛算法迭代速度的同時,確保數據安全。又如:某大型人工智能公司,通過使用MatrixGo SaaS平臺,集成了平臺的Open API,以及對圖像、視頻、語音、文本等各種數據的標注能力,搭建了完整的人工智能數據閉環。
第二,功能優勢
澳鵬MatrixGo平臺集成了多種多樣、極致高效的標注工具集,切實幫助提高生產效率。在更新上線的SaaS版本上,同樣可以使用到這些專業多樣的工具集創建高質量、精細化的數據,滿足復雜的標注需求。
在MatrixGo平臺的研發方面,澳鵬團隊使用的是自研的AI算法,讓平臺最大化集成AI算法輔助,大幅提升標注效率。與此同時,通過使用平臺Open API,開發者可以與澳鵬MatrixGo平臺進行深度集成,打造數據閉環。
澳鵬MatrixGo平臺工作流靈活可視,用戶可以根據項目的具體需求設置數據流轉方案。例如,數據流轉路徑靈活、項目進度盡在掌控、數據狀態一覽無遺,等等。
第三,服務優勢
澳鵬MatrixGo平臺SaaS版本,在盡享平臺優質功能的同時,可實現最快一天內開通使用的快速部署。選擇配置、免費試用、簽署合同、投入生產,簡單4步的服務流程即可輕松投入生產。
此外,澳鵬MatrixGo平臺SaaS版本還配有專業的使用培訓及客服支持,更可以同步享受到MatrixGo即時更新的最新版本。低成本、高效率,澳鵬MatrixGo平臺SaaS版本支持按年或按季度付費,最大化單位人力輸出,提升投入產出比。
無論剛剛開啟AI部署之旅,還是加強現有的解決方案,澳鵬作為值得信賴的高質量AI數據合作伙伴,始終致力于以專業的技術產品和數據服務滿足各行各業的前沿部署需求。
澳鵬智能LLM大模型開發平臺面向行業AI提供集大模型數據準備、模型訓練、模型推理、模型部署應用于一體,涵蓋從數據集管理、數據標注、計算資源調度、模型評估、模型微調等全棧能力,幫助企業輕松擁抱大模型,構建生成式AI應用,為最終用戶實現變革性體驗。此外,澳鵬LLM產品線還包括基礎數據、基線模型、模型評估&微調、應用開發等全鏈條產品、平臺與服務。
"2023年下半年,LLM大模型和生成式AI市場將呈現巨大的迸發與成長態勢。生成式AI的大時代,才剛剛開始",澳鵬全球高級副總裁、大中華區及北亞區總經理田小鵬博士表示。"澳鵬聚焦于高效經濟量產行業大模型與生成式AI應用,為各行業智能化轉型全面賦能!"
戰略升級正當時
2023年上半年可謂是LLM基礎大模型的"春秋戰國"時期,從全球到中國紛紛誕生了眾多基礎大模型,還有更多的團隊在跑步入場基礎大模型的研發。截止2023年6月底,在Github上已經收錄了來自中國的85家大模型——主要為LLM基礎大模型,以及部分面向行業和特定領域的大模型,再加上全球頂級的基礎大模型,"百模大戰"已經不是夸張的表達。
"百模大戰"仍在鏖戰中,但也成功讓AI突破了科技圈,引發了更廣泛人群的關注與重視。在全球,根據IBM商業價值研究院在6月底發布的年度CEO調查,四分之三受訪CEO認為,擁有最先進的生成式人工智能的企業將擁有競爭優勢。在中國,Gartner中國企業人工智能趨勢浪潮3.0指出,中國企業正在將人工智能項目從原型轉向生產,大多數企業已不再糾結于為何需要AI能力,而更加關注AI工程化能力的建設。
在2023年下半年,LLM大模型工業化量產和工程化落地的趨勢,正從"百模大戰"中清晰地浮現出來,特別是眾多的行業和企業客戶更加關注如何選擇已有的LLM大模型并微調后適配本行業和企業的業務場景,真正將AI用于提高行業和企業生產力。簡單理解,就是高效經濟地量產行業LLM大模型以及將行業大模型端到端落地到企業中真正提升生產力,這將是2023年下半年的AI市場重點。
在2023年初,長期致力于為AI企業和企業AI提供高質量標注數據的澳鵬,審時度勢、大膽"押注",全面展開了公司戰略升級——從AI數據服務擴展向全棧AI服務,致力于成為面向垂直行業的AI服務商。澳鵬新任全球CEO Armughan Ahmad在公司2022年報中表示,AI數據標注是基礎,而生成式AI所代表的全棧AI服務是增長S曲線,也是澳鵬接下來的戰略重點。澳鵬已經有強大的AI數據標注工具、平臺和服務,接下來就是在此基礎上,快速推動工業化量產行業大模型以及生成式AI應用,打開萬億新增經濟體量。
大模型開發一站打盡
想要快速工業化量產行業LLM大模型以及生成式AI應用,就需要面向行業的大模型開發平臺,這也是2023年下半年的AI市場熱點和重點。在2023年上半年,已經有部分科技企業推出了面向行業的大模型定制化開發或解決方案,而專業化的第三方大模型開發平臺及端到端AI大模型開發服務,還是市場空白點。
澳鵬智能LLM大模型開發平臺由澳鵬中國團隊研發,是面向LLM大模型微調(Fine-tune)的開發平臺,主要是對業界已有的開源基礎大模型進行選型的基礎上,再針對游戲、醫療、客服等行業和業務場景大模型進行微調。澳鵬中國產品負責人周波介紹,澳鵬智能LLM大模型開發平臺包括數據、模型和計算資源管理三大模塊。
對于LLM大模型研發來說,高質量的標注數據十分關鍵。ChatGPT之所以能脫穎而出,就是引入了高質量的人工標注數據。而對UC伯克利的LLM排行榜分析發現,高質量的微調數據集比模型規模更重要,特別是在預訓練和微調階段管理高質量的數據集,是縮小模型規模同時保持模型高質量的關鍵方法。越來越多的研究發現,高質量的標注數據對于模型微調結果以及縮小模型規模同時保持模型質量來說,是十分重要甚至是關鍵方法。
澳鵬智能LLM大模型開發平臺的數據模塊來自于澳鵬中國的另一個拳頭產品:MatrixGo企業級高精度數據標注平臺,MatrixGo是面向深度學習和機器學習數據標注的企業級平臺,不僅有強大的標注工具集,還有AI輔助標注,靈活、可視的工作流,以及Open API與外部數據平臺的集成和數據閉環。澳鵬中國開發團隊針對LLM的開發需求,結合MatrixGo的技術,開發了LLM大模型開發平臺的數據模塊,可確保數據標注質量和效率,同時不斷降低標注成本。
澳鵬智能LLM大模型開發平臺的數據模塊包括數據集管理與數據采集標注,其中:數據集管理包括數據處理、數據檢索、數據可視化、數據切片等功能;數據采集標注包括人員管理、工作流引擎、標注工具引擎和自動標算法等功能。
澳鵬智能LLM大模型開發平臺的核心為模型模塊,包括模型評估、模型微調和模型部署三大部分,其中:模型評估提供了A/B測試、標準語料測試、自定義測試、測試結果可視化和模型分析等功能,模型微調提供了開源模型庫、模型管理、訓練任務管理等功能,模型部署提供了自動化部署、運行監控、標準API和自動封裝SDK等。
模型評估主要服務于開源大模型的選型,包括用標準語料包或是自定義語料包進行測試,針對不同的開源大模型或同一大模型的不同版本進行A/B測試后,對相關測試結果進行分析和可視化,再結合模型參數、占用資源等,選定要進行微調的大模型。
模型微調則是在對選定的大模型,用高質量標注數據和RLHF人工反饋增強學習,針對不同的場景進行微調。模型微調的結果將返回到模型評估,兩者聯動完成模型迭代,直到達成預期效果。模型部署則是將微調成功后的大模型部署到客戶的計算資源環境中,并可以API或SDK方式對外服務。
澳鵬智能LLM大模型開發平臺的計算資源管理則是對客戶的計算資源進行任務管理和資源調度,包括CPU和GPU的資源,以及對上層應用的支持與調度等。
澳鵬智能LLM大模型開發平臺可以使用澳鵬中國自研的基礎大模型,也可以使用客戶自有或是第三方的開源基礎大模型。
在自研基礎大模型方面,澳鵬中國研發團隊主要基于開源社區的工作,也在橫向評估其它的選型方案。澳鵬中國自研大模型的特色,主要是在自有數據集上進行微調,包括通用話題對話以及具有專業性背景的語料等。澳鵬本身就對外提供了超過250個預標注的音頻、圖像、文字和視頻等數據集,這些高質量標注數據集對于大模型預訓練來說十分珍貴。此外,澳鵬中國研發團隊還在關注學界、工業界的進展,從模型結構、優化方式和部署效率等方面,不斷優化自研大模型。
在第三方大模型的合作方面,澳鵬全球與NVIDIA、AWS等深入合作,特別是與NVIDIA等大模型以及企業級AI開發平臺的深入合作,將澳鵬的數據工具鏈、標注眾包團隊以及數據服務等與大廠的大模型、AI平臺和工具等結合,為行業和企業提供端到端的一站式生成式AI解決方案。此外,澳鵬還與Cohere、Reka AI等企業級大模型初創公司合作,強強聯合提供高度安全的定制專有模型。在中國,澳鵬中國也與知名基礎大模型深入合作,了解這些大模型的特點及可適用場景,為客戶提供專業的選型方案和咨詢服務。
技術共創,與AI領軍者共同成長
作為交付數據經驗豐富的提供方,澳鵬智能LLM大模型開發平臺的最大差異化競爭優勢在于,從零樣本、半監督學習的角度,快速響應迭代模型和數據交付。
作為長期從事有監督學習數據標注服務商,澳鵬在項目交付方面擁有大量的實踐經驗,可為LLM訓練與微調任務以及生成式AI應用,持續挖掘數據價值。主要優勢包括:
第一,與客戶的算法應用共同成長。由于行業客戶在早期實踐生成式AI的時候,很難在一開始就明確項目需求,需要邊合作、邊探索、邊開發,通過不斷迭代而最終完成應用構建。
澳鵬善于管理和統籌交付周期,可以分批次向客戶交付數據采標、模型優化、應用測試等,模型優化可以與數據采標交替進行;可以用小樣本、增量學習的方式驅動模型在項目中快速迭代,數據采標更快地集成到應用測試中;甚至可以將標注工程視為客戶LLM性能測試之前的"預質檢",這樣相當將客戶行業或業務場景的知識前置,也就是預訓練的預訓練。
第二,更好地把握"Human in the loop"。該開發平臺會分析人工在采集標注過程中的種種交互行為,而澳鵬在這方面有豐富的經驗,可以將其轉換為RLHF算法中的"獎勵功能",并可挖掘更細粒度的標注信息等等,為制備大模型提供更多的數據養料,體現了對于數據挖掘維度的深刻理解。
第三,長期合作可帶來數據采標的規模效應。澳鵬的開發平臺具備大規模、安全、高質量的數據,以及完整的視覺、文本、語音類的行業基準模型,且在多個采標項目上實踐過。在每一個項目完結階段,都能產出一個性能不俗、與客戶需求完全鏡像的模型算法和高質量的數據benchmark。
新澳鵬:全鏈條AI服務商
自從LLM大模型在全球爆紅以來,就一度有大模型將統治AI界的論調。但經過2023年上半年的"百模大戰",大家逐漸認識到深度學習與LLM大模型對于AI應用來說,都同等重要。所謂LLM大模型,即模型參數達到百億、千億以上,具有"智能涌現"的通用基礎AI大模型,但由于參數和占用計算資源龐大等特點,并不適用于企業和行業場景,深度學習和機器學習則在實際應用中有著不可取代的價值。
澳鵬全球高級副總裁、大中華區及北亞區總經理田小鵬博士表示,對于未來的AI市場和智能經濟,澳鵬的策略是深度學習與大模型,兩手抓、兩手硬。
首先,深度學習、機器學習等對于當下的數字化轉型來說正在發揮實效,特別是適用于實時計算和邊緣計算等企業級場景,在智能汽車、智能物聯網、智能制造等領域發揮著重要的作用,澳鵬仍將堅持面向深度學習和機器學習領域的AI數據服務,同時與頂尖AI企業的深度學習和機器學習平臺形成端到端解決方案,滿足企業當下的AI工程化落地需求。
2023年6月底,澳鵬Appen企業級高精度人工智能輔助數據標注平臺——MatrixGo正式上線SaaS版本。MatrixGo自發布以來,已經經歷了數千個AI數據標注項目的實戰打磨,累積了來自各行各業、各種類型項目豐富的實戰經驗。MatrixGo SaaS版本的上線,讓企業客戶能夠更快速地部署MatrixGo,最快一天開通使用、投入生產,同時可以獲得專業的使用培訓和客服支持,SaaS版本還將持續為客戶提供即時更新的MatrixGo最新版本,讓企業客戶使用最新和最先進的數據服務,打造高質量深度學習和機器學習應用。
此外,澳鵬也將LLM技術用于改善數據標注工具和平臺,不斷強化澳鵬在深度學習和機器學習數據服務方面的競爭優勢。新推出的文檔智能產品可以從非結構化文檔中自動提取信息,例如從掃描文檔或文檔照片中提取內容,準確率達到99%,這極大拓展了企業AI數據源。NLP自動標注則采用小樣本或零樣本學習和LLM模型,對數據進行自動化標注,從而加速數據供應。澳鵬在2022年還投資了全球頂尖的視覺AI合成數據供應商MindTech,可以提供一系列高質量多維度多角度的合成逼真圖片,應對小樣本甚至零樣本問題。
其次,澳鵬將對LLM大模型進行戰略投入,推出以澳鵬智能LLM大模型開發平臺為代表的LLM產品線。澳鵬LLM產品線包括基礎數據、基線模型、評估與微調以及上層生成式AI應用等四大部分。
LLM基礎數據提供成品數據集、數據爬取、數據清洗和開源數據等,為LLM基礎大模型訓練以及微調大模型提供高質量數據集。
基線模型則提供自研模型和第三方開源或商用模型,以及支持客戶自有模型,澳鵬自研模型可根據使用場景定制化、模型私有化體積可以根據運行資源要求進行限制,支持私有化部署、云平臺API調用等,第三方合作模型則包括Reka、Cohere等國內外優秀的商用和開源大模型。
評估和微調包括專家語料、RLHF、A/B測試和模型評價等LLM大模型訓練服務。澳鵬在全球有上百萬的眾包數據收集和標注員,支持235+種語言和方言,也有專門面向金融、零售、工業和醫療等行業的專家眾包資源。過去,這些資源服務于深度學習和機器學習的數據標注;未來,面向LLM大模型的訓練需求,這些資源還能夠提供提示詞-輸出語料包、專業領域語料包,以及將人工嵌入到LLM大模型訓練的人工反饋增強環節,實現RLHF算法,提升模型的專業領域能力。
模型評估包括A/B測試、模型評價、紅藍對抗和基準測試等方法,主要是由澳鵬的LLM專家和眾包資源一起,評估不同大模型以及同一大模型不同版本的輸出結果,對模型輸出進行評價以避免歧視和涉黃等風險,在多輪對話對抗中評估模型的能力,以及使用行業標準語料包對大模型進行基準測試。
第三,在更遠期,澳鵬將把深度學習和機器學習與LLM大模型結合起來,端到端為企業客戶開發生成式AI應用,從數據到模型再到應用開發,提供全鏈條的咨詢與應用開發服務,進而成為核心AI供應商。
相比于其它LLM和生成式AI賽道的參與者,澳鵬有非常扎實的數據"底盤"和全鏈條的數據工具鏈、平臺和人力資源,而數據能力才是LLM和生成式AI的王道。此外,澳鵬還與全球AI企業、AI生態有著長達27年的合作關系歷史,也參與了大量企業和行業AI落地的項目實踐,有著豐富的企業級項目實施經驗。這些都為澳鵬在LLM和生成式AI時代的自我顛覆,打下了堅實的基礎。
展望未來:LLM大模型和生成式AI是全球智能進化的"奇點",而一個全新姿態的澳鵬正在LLM大模型和生成式AI中崛起。從頂級AI數據服務商,到快速切入行業LLM大模型和生成式AI賽道,再向生成式AI應用以及全鏈條AI咨詢開發發展,澳鵬正基于過去27年的積累,在全球智能進化"奇點"時刻,把握機會、迅速蝶變,并與全球AI生態一起,打開生成式AI的大未來。
ChatGPT等創新應用的崛起讓大型語言模型(LLM)實現了突飛猛進的發展。LLM可以助力企業提升運營效率,并為最終用戶提供耳目一新的體驗。然而,大型企業在LLM的部署過程中常會遇到摩擦和挑戰,因為這些LLM對于企業而言并非現成的解決方案。為充分利用LLM的強大功能,企業需要針對其應用場景對基礎模型進行微調,并持續評估和監控這些模型在現實世界中的性能。
Reka AI依托團隊深厚的行業專業知識開發出高級專有算法,此前還曾在Google Brain和DeepMind等公司領導實現AI研究領域的一些重大突破,可經濟高效地針對任何數據和應用場景定制模型。而在AI訓練數據和語言服務領域深耕26年的澳鵬Appen,具有獨特的優勢助力企業加快LLM部署,充分解鎖生成式AI的潛能。
此次澳鵬Appen和Reka AI的強強聯手,將為企業開發有效、全面的生成式AI解決方案,助力企業創建并擁有滿足其特定部署要求的企業級生產模型。
澳鵬Appen CEO Armughan Ahmad表示:“攜手Reka將使領先企業能夠構建高度安全的定制專有模型。業界目前僅限于依賴公共API,這使得企業很容易受到數據泄露和高度敏感數據隱私問題的影響。澳鵬和Reka將聯手為企業提供一種前所未有的保護其LLM應用的能力。”
將生成式AI解決方案產品化,不僅需要數據監管方面的專業知識,還需要持續的人類反饋幫助提高模型性能,以及強大的模型評估平臺。依托澳鵬Appen強大的人類測試數據,Reka能夠更快地構建、測試和部署LLM,使得其專有算法可根據諸多用例快速定制Yasa。此次合作使企業能夠擁有全棧式解決方案,將Yasa用于企業部署的諸多應用場景。
Reka AI CEO Dani Yogatama表示:“我們的方法靈活,讓企業能夠在不同的質量、延遲和隱私限制下部署Yasa。與澳鵬合作,我們的客戶能夠進一步受益于澳鵬的世界級數據服務專業知識,大大簡化生產就緒的創建流程。”
在超過25年的發展歷程里,澳鵬Appen一直是創新型AI的領軍企業。伴隨整個行業的發展,始終致力于為客戶提供高質量的AI訓練數據,助力最先進AI系統的開發。澳鵬Appen提倡“AI向善的力量”,即利用這種呈指數級增長的技術幫助解決全球不平等的挑戰,從而對人類和地球產生可持續的積極影響,建立大眾對AI的信任,讓AI成為世界的美好源泉。
構建值得信賴的生成式AI需要堅持四個原則:信任、質量、多樣性和持續反饋。澳鵬Appen將行業領先的平臺、深厚的專業知識和全球AI數據訓練專家團隊結合,推出三款新產品如下:
1. 基于人類反饋的強化學習(Reinforcement Learning with Human Feedback):用以解決大型語言模型中存在偏見的風險;
2. 文檔智能(Document Intelligence):使企業能從非結構化文檔中提取關鍵洞察;
3. 自動化NLP數據標注(Automated NLP Labeling):利用生成式AI功能和零樣本/少樣本學習技術加快數據標注。
澳鵬Appen首席執行官Armughan Ahmad表示:"正如本次推出的生成式AI產品,我們將繼續打造滿足客戶數據需求的產品和服務。我們正在開發垂直行業AI解決方案,擴大與系統集成商、軟件供應商和超大規模企業的合作,為客戶提供影響深遠的解決方案。"
ChatGPT和大型語言模型的崛起引發了人們對生成式AI潛力的關注,它將徹底改變人機交互方式。然而,生成式AI還面臨一項挑戰,即如何使模型產生的結果足夠準確且合乎道德。這就是澳鵬Appen基于人類反饋的強化學習的用武之地。該產品使客戶能夠生成由AI訓練專家設計的快速問答,并由不同的AI訓練專家組對其準確性和偏見進行審核。
生成式AI面臨的另一項挑戰是,如何從掃描件和照片文件形式的非結構化數據中提取洞察。澳鵬Appen的文檔智能產品可以將任何文檔轉化為可用的數據源,且準確率高達99%。通過利用高質量的數據,企業可以更好地了解客戶的需求、偏好和行為,再使用這些信息與客戶進行個性化交互,并預測他們的需求。
交付速度亦是澳鵬Appen數據解決方案中重要的一環。利用零樣本或少樣本學習技術和生成式AI大型語言模型自動標注數據,澳鵬Appen自動化NLP數據標注可以為企業節省大量部署時間。
澳鵬Appen首席產品官Sujatha Sagiraju表示:"生成式AI將以超乎我們想象的方式改變人類體驗。我們很高興能夠助力客戶構建生成式AI應用,確保品牌誠信,防止出現有偏見的結果。"
澳鵬Appen新產品基于行業領先的變革模型和生成式AI研究,無論是剛剛開啟生成式AI之旅,還是加強現有的解決方案,澳鵬Appen作為值得信賴的高質量AI數據合作伙伴,始終致力于以專業的知識和數據服務滿足前沿部署需求。
除了本次三款新產品的發布,澳鵬Appen還在不斷擴大產品范圍,納入下一階段發展愿景:為人工智能生命周期企業的戰略部署擴展數據,致力于成為一家AI平臺公司,助力各行各業領軍者創造AI支持的高質量用戶體驗。
在加入澳鵬Appen之前,Armughan曾擔任跨行業創新數字轉型服務全球領導者——畢馬威公司的數字總裁兼管理合伙人。在加入畢馬威之前,他曾擔任戴爾科技公司的高級副總裁兼總經理,負責云、高性能計算和解決方案業務。Armughan曾管理產品、工程、銷售、營銷和服務等,并將其收入提升至數十億美元,尤其在集成戴爾收購的EMC數據存儲技術、構建多種成功的多云平臺方面,發揮了至關重要的作用。
澳鵬Appen CEO Armughan Ahmad表示:“我很高興能加入澳鵬成為新任CEO,期待能幫助我們的客戶構建任務關鍵型AI應用程序,提供全新的客戶體驗。隨著Open AI公司的ChatGPT和DALL.E等生成型AI不斷創新,AI的發展速度大大提升。作為快速增長的AI行業領導者,澳鵬在2021財年創收超4.4億美元,并能夠隨著AI需求的變化而不斷發展,我相信我們憑借這種獨一無二的能力,能夠不斷創造合乎道德且值得信賴的AI。作為AI行業的領先數據提供商,我們有責任為行業的卓越性和完整性樹立標準。我們將繼續拓展AI的應用邊界,并對世界產生積極和可持續的影響。”
在超過25年的發展歷程里,澳鵬Appen一直是創新型AI的領軍企業。伴隨整個行業的發展,我們始終致力于為客戶提供高質量的AI訓練數據,幫助客戶開發出最先進的AI系統,例如搜索算法、自動駕駛和語音接口系統等。澳鵬Appen為全球許多大型科技公司和財富500強客戶提供AI產品和服務:微軟、谷歌、亞馬遜、Salesforce、空中客車、彭博、Pinterest、家得寶、西門子等重要客戶,都信任澳鵬Appen為其AI應用程序提供支持。
Armughan表示加入澳鵬Appen最重要的一個原因,是“AI for good”,即為了讓AI朝著好的方向發展。利用這種呈指數級增長的技術幫助解決全球不平等的挑戰,從而對人類和地球產生可持續的積極影響。在近期的合作項目中,澳鵬Appen與一家全球領先的安全及航空航天公司合作,通過計算機視覺應用增強其撲滅山林野火的能力;澳鵬Appen還作為CLEAR Global的長期公益合作伙伴,幫助研究開發斯瓦希里語的AI應用等,以建立大眾對AI的信任,讓AI成為世界的美好源泉。
而當前,生成型AI正通過使高度重復性的任務實現自動化,為我們邁向AI輔助員工的時代鋪平了道路。在AI輔助下,員工現在可以騰出時間來專注于制定和落實戰略,進行創造和創新。Armughan表示:“AI可優化我們的任務,但并非我們的最終目的。它們只是工具,我們人類才是創造奇跡的關鍵。AI加速了人類和機器之間的協作,在保留人類創造力的同時為娛樂和工作添加了一些奇妙的元素,使我們能夠為人類成就新時代的崛起做出貢獻。通過我們的技術和全球多元化的眾包團隊,澳鵬有很大的機會抓住AI的下一波增長。”
人工智能將在很大程度上改變醫療服務的方式。它可以提高診斷和治療的效率,在使用相同醫療資源的前提下,為更多病人提供更快、更好的服務。人工智能也可以幫助改善醫療從業者的體驗,將他們從繁重而機械的工作中解放出來,有更多的時間直接接觸和幫助患者。
然而,醫學內容的特殊性和專業性對于訓練機器模型的數據提出了更高的要求。澳鵬Appen以專業、精準、安全的高質量訓練數據賦能AI醫療,助力提升算法精度,讓公眾享受更精準、更智能、更高品質的智慧醫療服務。
澳鵬Appen擁有一支專業的醫學標注團隊,由具有執業醫師資格、醫學項目經驗豐富的醫學項目管理者組成;擁有多學科、近百位三甲級醫院主治及以上職稱醫師作為專家顧問,以及近千人的醫學資源池。團隊能夠做到對醫學文本內容審核編輯、醫學圖像處理、醫學語音轉寫等進行專業、高效地標注。
例如,醫學影像學(放射)圖像標注——肺部結節CT數據:在AI預測的基礎上,進行肺部CT數據的醫學后處理,糾正標簽判斷錯誤,增加未檢出病灶,提高數據的病灶檢出率并降低假陽率。
再例如,臨床醫學圖像標注——皮膚科痤瘡數據:對皮膚圖像中的痤瘡選擇對應標簽類型進行打點,保證圖像內病灶標注的完整和精準。
病理學圖像標注——胃組織病理數據:對胃部組織進行拉框選擇ROI,并針對ROI內目標細胞(如慢性胃炎)進行標注,保證ROI內目標細胞標注的完整和精準。
心電圖圖像標注——心電圖數據:在AI預測的基礎上,進行心電圖數據的醫學后處理,糾正AI預測的錯誤,添加AI未檢出異常,以提高數據的異常檢出率、降低檢出錯誤率。
澳鵬Appen能夠提供的智慧醫療數據服務包括:醫學內容審核、醫學內容編輯、醫學名詞標簽判斷、醫藥學數據庫編寫、醫療音頻標注ASR、醫學輔助診斷圖像標注等。澳鵬Appen醫療團隊擁有300w+醫學文本數據、3w+醫學圖像數據、10+位具有豐富臨床經驗的醫學管理人員、近百位多學科專家、近千人醫學資源池及中英日多語種醫學數據。
澳鵬Appen智慧醫療數據是經HIPAA認證的高安全性解決方案,安全設備、現場服務、安全眾包模型和技術解決方案亦獲得ISO 27001, ISO 9001和ISO 27701認證,確保智能時代醫療數據的合法、合規、安全。
隨著社會經濟發展水平的提高及民眾對于健康愈發重視,醫療數據行業應AI及互聯網醫療的黃金浪潮而生,催生了醫療智慧化的多種場景,輔助醫院診療及國民就醫更加智能、便捷。澳鵬Appen始終以專業的醫療標注團隊、高響應度的醫療數據項目管理水平、HIPAA認證的醫療解決方案來支持AI醫療服務的多類型數據需求,以高質量的數據作為各類智慧醫療產品及服務的基石,賦能更精準、更智能、更高品質的智慧醫療時代。
根據ML大牛吳恩達提出的著名二八定律:80%數據+20%模型=更好的AI。他認為,一個機器學習團隊80%的工作應該放在數據準備上,確保數據質量是最重要的工作。如果更多地強調以數據為中心而不是以模型為中心,那么機器學習的發展會更快。
而隨著中國自動駕駛產業商業化落地的高速推進,市場對于數據的需求也正在呈現急速上升的趨勢。根據公開數據,預計至2030年,中國運營的自動駕駛車輛將達3000萬輛,或將成為全球最大的自動駕駛市場。
總體來看,整個自動駕駛正處于L2級自動駕駛向L3級發展的階段,場景越來越復雜的同時,也帶來了對于3D等更高維度、更高質量數據的巨大需求。而另一方面,自動駕駛全產業鏈的企業數量正在飛速擴展,包括傳統車企、車企相關互聯網公司、跨界互聯網公司、新型自動駕駛相關公司等在內的企業,也讓我們看到了更大的數據需求。
自動駕駛數據的重要程度正在持續上升
如果說智能化1.0階段,車企拼的是技術的快速落地和高階能力的標桿效應,那么2.0階段就是拼規模化搭載。
根據高工智能汽車研究院發布的《2023-2025年智能網聯產業趨勢報告》顯示,今年1-10月,前向ADAS(L2含NOA)同比上年增長67.11%。NOA(導航輔助駕駛)同比上年增長116.25%。
當前,軟件和數據已成為智能汽車的核心增量。在很多業內人士看來,打造一套可用的智能駕駛系統并不難,但開發和維護可擴展和可靠的完整數據驅動解決方案才是真正面臨的挑戰。這意味著,智能駕駛系統真正實現基于數據+軟件定義的全新模式。
眾所周知,數據貫穿了整個AI的生命周期,從數據獲取,數據準備、模型訓練和部署、再到人工模型評估。可以看到,在中國市場,數據服務的價值也已然明朗。
高工智能汽車研究院預計,接下來兩三年仍是攝像頭上車的市場紅利期,預計到2025年中國市場單車搭載攝像頭將提升至7-8顆。同時前向雙目、三目,周視等更多攝像頭配置成為主流,基于數據認知的訓練也成為剛需。
另一方面,4D毫米波雷達以及激光雷達的搭載也正處于最關鍵的導入期,這帶來了一個全新的市場:多傳感器感知的數據融合。此外,艙內人機交互的體驗升級,也同樣需要數據迭代支持。這也再次表明,無論是在自動駕駛還是輔助駕駛領域,數據標注的需求量都將迎來增長的高峰期。
自動駕駛數據標注當前面臨的難點
作為產業鏈的重要一環,澳鵬Appen同樣深刻感受到自動駕駛市場需求的火熱:尤其在今年,自動駕駛的數據標注需求更是呈現爆發式增長。
2020年澳鵬Appen(中國)做到4.7m美金的營收,2021年是24.7m美金,實現了421%的增長;2021年上半年141%增長大部分是來自自動駕駛,目前自動駕駛占總業務量60%以上,澳鵬Appen(中國)一半以上的客戶來自自動駕駛。
然而,隨著業界對于數據標注需求量的爆發,過去簡單粗暴的“人力堆疊”已無法滿足當前對于“高質高量”數據供不應求的行業痛點。
要知道,在自動駕駛領域,數據標注幾乎沒有出錯的余地,也不容缺少關鍵用例。這就導致自動駕駛汽車的數據采集和標注是非常耗時的資源密集型過程。同時這也是為什么一直以來自動駕駛企業會面臨上市時間延遲、產品性能堪憂以及推廣困難等問題。
澳鵬Appen(中國)產品及研發總監錢程表示,伴隨L3級自動駕駛的進階升級,自動駕駛廠商對艙外數據服務的需求與日俱增,其中既包括數據需求量的增長,也有更復雜的數據類型的變化。行業對于激光雷達3D點云數據的大量需求,也讓數據標注的工作變得更為復雜,數據成本急劇上升。
而對于下游企業而言,如何低成本獲取高質量數據就成了他們在這個時代的剛需。
澳鵬Appen(中國)產品及研發總監錢程認為,自動駕駛數據標注當前的技術主要面臨以下難點:
1:隨著自動駕駛市場的爆發式增長,總體數據量增大使得平臺業務吞吐量增大,這對于工作流的數據流轉效率、穩定性提出了更高要求;
2:采集到的數據精度提高、數據稠密度的提升,導致需要處理的單條數據變大,標注員設備可能比較低端,需要加大力度在研發上支持工具在各種高低端設備上的正常使用;
3:采集設備越來越多樣化和復雜,使得數據類型增多,產生包括4D傳感器數據等多傳感器數據融合標注的需求;
4:數據成本和企業降本增效的需求,對標注效率和管理能力的要求越來越高,需要不斷打磨和優化工具功能以及項目管理功能;
5:隨著自動駕駛商業化落地進程的加快,客戶需求也越來越細化和多變,需要加大投入模型輔助標注的研發并針對不同項目進行定制化的模型開發。
可以看到,為了解決以上難點,數據服務企業采用的數據標注技術已然從最早的單機標注工具演進為數據標注平臺,繼而升級為現階段的智能數據標注平臺/企業級AI數據標注平臺。
目前,行業已涌現出多家較為優質的“平臺”。然而如果論經驗與深厚積淀的話,澳鵬Appen則當屬其中的第一梯隊。
澳鵬Appen(中國)三年的飛速增長
作為一家成立于1996年的元老級AI訓練數據服務企業,澳鵬Appen早已在智能駕駛的春風吹拂過神州大地之前,就將服務遍布于170個國家和70,000個地區中。
2019年,中國的智能駕駛行業進入了如火如荼的發展階段。而彼時的澳鵬Appen早已擁有了全球AI數據服務細分領域行業第一的光環。同年10月,澳鵬Appen帶著不足10人的原始團隊來到中國市場。憑借20余年的深厚技術積淀,這支白手起家的團隊僅歷經短短3年時間,便完成了從“0”到“行業TOP1”的閃電般飛躍。
據2022年公開數據顯示,澳鵬中國在專注于人工智能數據服務商中營收排名第一。在疫情肆虐的2021年依然實現了財年營收421%的爆炸性增長。
三年以來,澳鵬中國通過高質量、高效率的數據服務在自動駕駛領域積累了具有相當規模的客戶群體,其中包括知名互聯網企業、新勢力造車、整車廠的創新研發部門等。究其緣由,技術、服務、資質、經驗缺一不可。
澳鵬Appen深諳,企業需要一套成熟的技術體系,如無縫的接口開發/API對接等。由此,澳鵬中國借鑒全球經驗自主研發的MatrixGo高精度AI數據標注平臺,專門面向企業本地部署環境,幫助CIO們以高度自動化、標準化和規模化方式建立AI標注數據供應鏈。
該平臺可支持像素級語義分割、2D圖像復合標注、3D點云拉框及語義分割等功能;同時采標一體的任務能夠實現采集-質檢-標注-質檢-客戶驗收的雙向協同流程,讓整個數據生產線上的各個環節實現無縫銜接;內置的多輪質檢模塊可以按需配置,滿足不同復雜度項目的需求;2D圖像復合標注是全結構化的模型訓練利器,支持點、線、框、多邊型融合標注(常見工具是單模式的,點、線or折線,多邊形)與連續幀;
總體上,其標注工具可實現99.9%的準確率,并達到5分鐘一張、1秒一幀極速質檢,在交互、超大數據加載、實時切幀進行渲染等方面都達到了行業第一。根據案例顯示,可助力客戶提升3倍效率的成功部署速度。
值得一提的是,在今年,其在自動駕駛領域的模型輔助標注(自動化標注)進一步取得了技術進展,如交互式語義分割、信號燈預標注、停車位自動識別等,經過不斷迭代優化,大部分工具可使標注效率提升30%-50%。
目前,點云檢測、2D障礙物檢測等工具也在計劃上線中,且平臺版本平均每兩周就會做一次迭代更新。
在服務方面,公司擁有專業的評估和項目團隊全程跟進試標、采集、標注、質檢、驗收和交付流程。在自動駕駛領域,澳鵬中國單月的巔峰產值可達600萬人民幣以上,資源數目可達2000人以上。
同時,公司具備快速、低成本召集資源并靈活交付的能力:其在全球擁有超過100萬名技能嫻熟的眾包資源,支持235+種語言和方言,遍布170+個國家和70,000個地區。澳鵬(中國)總部位于上海,在無錫、大連、重慶均設有大型交付中心。
目前,澳鵬(中國)擁有超過千余名全職員工、1000+BPO資源、數萬名高質量的本土眾包人員并持續擴張中。澳鵬Appen可以提供一套專業的項目管理方法論,尤其是在自動駕駛領域積累的大量實戰經驗,幫助企業在項目部署中快速應對如數據規則的對齊、數據波動、人員穩定性等問題。
在數據安全方面,澳鵬Appen始終助力智能時代安全保障體系的構建,始終致力于為客戶提供最高級別的管理標準:
目前,澳鵬中國已獲ISO 27001, ISO 9001和ISO 27701認證,在信息安全管理、質量管控和數據隱私保護方面達到受國際認可的“黃金標準”。全球范圍內,澳鵬Appen亦通過GDPR,SOC 2 Type II,HIPAA等全球不同國家和地區的數據安全合規認證,確保數據來源和渠道正規、安全、合法。
此外,其自主研發的人工智能輔助數據標注平臺MatrixGo也具有權限管控、數據加密傳輸、PII信息加密存儲等嚴格的數據安全管控策略,并專門設有DPO進行數據安全管理,最大限度地保證客戶的數據資產安全。澳鵬Appen高水平的數據管理平臺,數據通過阿里云存儲,也可以做到在客戶的平臺上進行私有化部署。
在經驗方面,針對自動駕駛諸多特有的數據類型和難點,澳鵬Appen配備了具備相關經驗和知識的專業人才。例如,澳鵬中國產研團隊配備專門的算法人員負責自動駕駛等領域的算法研發,能夠更好地理解自動駕駛客戶的技術需求。
作為自動駕駛汽車的“燃料”,一個合格的數據合作伙伴提供的高質量數據能夠幫助企業在自動駕駛領域乃至整個汽車行業占得先機。“我們致力于幫助企業完成全球最具創新性的自動駕駛汽車項目。” 澳鵬Appen(中國)產品及研發總監錢程表示。
近日,澳鵬Appen全球副總裁、大中華及北亞區總經理田小鵬博士對過去三年的發展歷程進行了回顧:"澳鵬的定位很清晰,就是一家AI的數據服務公司。在AI的世界,80%靠數據,20%靠模型本身,澳鵬參與AI數據全鏈的服務,澳鵬和許許多多AI應用合作伙伴一起影響和訓練AI不斷改善、向善。"
從零到"第一"
澳鵬進入中國市場的步伐與許多全球化企業頗為相似,但卻又非常不同。
2019年,中國的AI生態和市場如春風吹過,快馬加鞭步入高速增長期,而此時的澳鵬已是全球AI數據服務細分領域的行業第一。同年10月,頂著行業領導者的光環,澳鵬來到中國,田小鵬回憶,當時的創始團隊不足10人,正是這批創業者白手起家,開始了澳鵬在中國市場的傳奇發展歷程。
自2020年,受疫情、地緣沖突等多種因素影響,全球經濟正面臨空前嚴峻的挑戰。根據2022年4月國際貨幣基金組織(IMF)發布的報告顯示,2022年和2023年全球經濟增速將由2021年的6.1%下降至3.6%,較1月發布的預估值分別下降0.8%和0.2%。具體到亞洲地區,博鰲亞洲論壇2022年年會報告中稱,亞洲區域經濟增速還有可能低于IMF預測值5.2%,預計為4.8%。
但是短短3年之后,澳鵬中國完成了"從零到‘第一'"的驚人一躍。與成立之初相比,至2022年中報發布,澳鵬中國在專注于人工智能數據服務商中營收排名第一。澳鵬中國在2021財年營收年實現421%的爆炸性增長。
三年中,澳鵬中國一直在高速成長的賽道上,并成為AI數據服務行業的領頭羊。在其他同業上市企業的財報中,中國AI數據服務的前三甲企業必提澳鵬,且其他本土友商要與澳鵬中國進行全方位對標。如今,中國排名前十位的互聯網企業、以及前十位自動駕駛公司中的九家企業都是澳鵬中國的客戶。
相較于此前國際巨頭在國內頻頻遇上的水土不服,澳鵬中國卻以閃電速度在中國市場崛起。"我們的快速發展讓競爭對手都覺得不可思議。"田小鵬表示,站在今天回望三年前,"也許我們從第一天開始就注定了與別人不一樣,其他人可能會按一套固有的模式運作,因為我們新進入這個市場,所以沒有太多的條條框框,澳鵬中國帶著這種天生的友好創新基因,開始重塑行業。"
田小鵬博士表示:"澳鵬中國通過這3年來的經驗,總結出"4+2"發展戰略,希望這些經驗能為AI數據服務這個新興行業帶來更多有益的思考:
除了上述四項核心能力之外,澳鵬中國在行業和地域寬度和縱深方面也早已面向AI世界張開了自己的雙臂。
澳鵬母公司持續看好中國市場,迄今為止已在中國市場投資數千萬美元,未來將持續加大對澳鵬中國發展的投資。在澳鵬全球已有的9大服務中心的基礎上,澳鵬中國還將進一步持續部署海外交付中心,助力中國企業出海至歐洲以及東南亞等地區,為更多中國本土客戶的出海業務擴張提供貼身的交付服務。
做AI最好的"數據老師"
"伐來噻""接翎子""扎臺型"……讓AI聽懂上海話,對一些頭部國內智能語音服務巨頭來說已經不是難事,而在這背后,如果想教會AI一門新語言或方言,澳鵬也許就是那位最好的"老師"。
在某個語音類國家級項目中,澳鵬中國就為客戶提供了類似上海話語音包這樣的服務。為了讓AI擁有最好的上海話"素養",澳鵬邀請上海師范學大學專門研究華東地區方言的專家合作,對照上海話正字轉寫方言字典,訓練AI學到最正宗的上海話。
其實,上述案例僅僅是澳鵬中國海量案例中的一個縮影。無論上海話,還是拉脫維亞語,又或是多維圖像標注、自動駕駛數據服務,澳鵬中國都致力于提供最高質量的數據標準。"有時候客戶只要求數據準確率達到95%,但澳鵬最終做到了99.5%。"田小鵬強調,"質量、質量,在澳鵬的字典里,數據質量一定是被強調最多次的"。
澳鵬在行業、文化、語種等維度跨度廣泛,并擁有語言學專家。例如在小語種轉寫場景,交付資源日活躍量超過5000人;在自動駕駛領域,2D/3D 融合標注產能達到 2個月1000萬幀,覆蓋商用車、乘用車等各類車型。
在而平臺技術方面,有專家把澳鵬中國的AI數據標注平臺比作"AI數據標注的智能ERP",堪比改變了企業現代化、自動化流程管理的老牌IT公司經典ERP平臺。
對于什么樣的數據才是高質量的數據,田小鵬博士表示:"首先,訓練AI的'種子選手',一定得是最專業的。例如,上述案例中,高校的漢語言文學專家,就提供了最佳的培育AI的數據資源;又如,澳鵬在醫療類項目中,也會邀請專業的醫師來幫助進行數據標注,這些都保證了最終AI算法獲得的數據基礎是高質量的。"
其次,AI數據標注工具也得是最好的。企業需要一套成熟的技術體系,MatrixGo是澳鵬中國借鑒全球經驗自主研發的高精度AI數據標注平臺,好的數據治理工具能幫助企業事半功倍地高效達成目標。
再次,交付質量也是很關鍵的一環。澳鵬擁有非常強大的三輪質檢,在采集、標準、交付等各個環節上都進行數據把關,確保最終數據的高準確率。
最后,AI數據服務行業與傳統IT服務行業不同,AI在行業中的應用成熟常常需要一個漫長的過程,從"5%~10%的冷啟動"到99%的數據成熟度,可能涉及多輪數據采集、標注、治理和訓練,這需要AI數據服務提供商與客戶同頻,通過多次循環和演化,最終得到了滿意的數據訓練效果,這就需要在全流程上都保證高質量,并最終實現AI應用的商業化,甚至全球化落地。"
近年來,澳鵬發現,以自動駕駛為代表的圖像、影像數據服務需求增長迅速,自動駕駛汽車需要識別交通標志、行人、路況等。同理,線上課堂需要知道哪些孩子正在舉手、哪些注意力不集中;醫療行業則在電子病歷和醫療影像等領域發力……
根據澳鵬的觀察,AI應用正在滲透進入流通、教育、醫療等千行百業,澳鵬的優勢是可以接觸到所有這些行業,并與AI行業客戶一起研判未來趨勢,看準行業變遷的動向。最近,澳鵬與國內多家頂級制造業企業都有接觸,AI在工業、電力等領域的應用也正呈現快速發展趨勢。
把數據關在"籠子"里
越來越多企業正意識到,數據是它們的核心競爭力之一,是"命根子"。但在AI應用的研發落地過程中,企業又必須與AI數據服務商合作,如何保證自己公司的數據在全流程中安全、可控,是幾乎每個AI應用開發商都非常看重的關鍵環節,而這同樣也是澳鵬和所有AI數據服務商的一道必答題。
"無論在美國、歐洲,還是中國,澳鵬都嚴格遵守當地的數據相關法規,并一如既往在整個項目數據周期中采取最嚴苛的數據權限管控、數據加密等數據安全管理和技術手段。"田小鵬博士表示,"數據不會跑出去,從平臺到接口,所有流程都在非常高標準的安全環境下完成"。
"所有客戶數據不會保存在澳鵬的數據服務器上,而是采用第三方的中立云服務提供商,如果客戶有需要,我們可以把平臺直接部署在客戶的私有云或服務器上,這樣一來,所有的數據都被留在了客戶的'倉內'。"
澳鵬中國保障在封閉的安全空間內為客戶提供高保密性的數據服務,主要是由位于大連和無錫的自建全職團隊完成,團隊規模 1000 人左右,而在非固定場地的項目,主要是借助澳鵬全球的超過100萬眾包資源實現交付。
在傳統IT服務中,也許10家客戶中只有一家需要簽署NDA保密協議,而在AI數據服務項目中,澳鵬與客戶之間100%都簽訂NDA協議。澳鵬在安全和隱私保護領域都通過了國際權威機構BSI頒發的認證。
田小鵬博士表示:"澳鵬有一個概念叫做'項目室',在澳鵬辦公室內,人們會看到一間又一間的項目室,通常都是大門緊閉的,只有通過人臉識別門禁才能進入,只有該項目成員才能進入。不僅如此,澳鵬員工在進入工作狀態前,是需要上交手機的,個別安全級別高的項目,工作人員還需要通過安檢。所以,不管物理側,還是網絡側,澳鵬都進行了徹底的安全隔離和管控。"
借AI傳遞向善的力量
光山縣,位于河南省東南部的一個小縣城,曾是定點扶貧縣。有一次,田小鵬意外地收到了來自光山縣的特殊禮物,都是當地的土特產,用來感謝近年來澳鵬公司為當地鄉親父老謀的"福利"。
"人心總是向善的"。由于澳鵬提供的AI數據標注項目,當地一部分人的收入得到了提升,這個小縣城的人們做夢想不到自己能以AI為生,讓AI數據服務成為自己的收入來源之一,"至少,這是一份嶄新的收入,可以緩解就業問題,而且非常安全可靠",田博士表示。
2022年10月14日,國家農業農村部公布《關于公布2022年國家鄉村振興示范縣創建名單的通知》,光山縣赫然上榜。
在科技飛速發展的時代,人類本身應該不斷改善、向善,人類也同時應該影響和訓練AI不斷改善、向善,"澳鵬中國雖然幫助了一些人,但我認為我們還在努力的路上,我們幫的人還不夠多,也許未來某一天,我們可以幫助10萬、甚至100萬人。"
田小鵬博士表示:"AI數據服務行業是一個人賦能機器和算法的行業,所以首先我們最需要尊重的就是人。澳鵬不希望這個行業走偏,雖然價格永遠是商業競爭中躲不過去的關口,但我們絕不能通過降低員工和從業者收入來提升商業競爭力。在澳鵬,拼的是管理和技術,好的管理可以省錢,好的技術同樣可以提高效率。我們希望能把行業蛋糕做大,讓從業者都能獲得公平的報酬。"
"我曾經收到過一封來信,寫信的人是一位在讀博士,他在東北的黑龍江,他不希望自己在這個年紀還向家里要錢,他希望用自己的知識打一份工,而我們的某個AI數據標準項目恰恰很符合他的專業,他可以憑借自己的知識和勞動獲得相應的報酬,對此他表示感恩和感謝。
我甚至可以感覺到這是一個很上進的孩子,他在AI和自己擅長的領域之間找到自身的價值,并獲得了回報。這是我們行業非常需要的 -- 向善的力量。"
作為全球和國內行業的領導者,澳鵬Appen始終倡導AI數據服務行業走向更加健康的競爭生態,讓更多的人來到AI這個新興行業,并收獲幫助。
作為具有全球影響力的創新中心,上海在其主辦的2022年世界人工智能大會(WAIC)上設立"亞洲科技倫理治理與可持續發展論壇"。本次論壇由上海現代服務業聯合會主辦、上海現代服務業聯合會大數據中心承辦,CCF計算法學分會、上海自然辯證法研究會、上海交通大學計算法學與AI倫理研究中心、商湯科技及澳鵬Appen協辦,匯集眾多亞洲地區知名專家學者及企業領袖,圍繞"科技倫理治理與可持續發展"這一主題展開深入討論和交流,推動亞洲數字科技繁榮和亞洲科技倫理觀形成,為全球科技倫理治理貢獻中國智慧和中國方案。
澳鵬Appen全球副總裁、大中華及北亞區總經理田小鵬博士受邀發表主題為《以數據信任共建AI生態,擁抱負責任的智能時代》的精彩演講并積極呼吁科技向善。田博士表示:"在科技飛速發展的時代,人類本身應該不斷改善、向善;人類應該影響和訓練人工智能(AI)不斷改善、向善。"
事實上,人工智能(AI)領域倫理法規的制定和相關探討一直在積極進行中。在我國,AI治理行業規范的制定已進入深化發展和落實階段。例如在信息安全方面,繼"網絡安全法"之后,一系列關于數據安全、信息保護等法律法規的出臺,正在加速智能時代安全保障體系構建。全球范圍內,世界經濟論壇近期推出的洞察報告《AI治理之旅:發展和機遇》通過業界權威專家建議,共同探討AI治理和應用的最佳實踐。澳鵬Appen作為全球人工智能理事會的成員,積極參與了該報告的制定并表示:創造負責任的AI,需要在整個開發過程中全面轉變思維方式。
負責任的AI已經成為當今企業發展高質量AI的基石。在澳鵬Appen最新發布的《2022人工智能與機器學習全景報告》中,93%的受訪企業認為,負責任的AI是開展所有AI項目必備的基礎。澳鵬Appen全球副總裁、大中華及北亞區總經理田小鵬博士表示:"隨著AI產業的爆發式增長,負責任的AI應該將整個AI生態系統考慮在內,成為AI產業鏈各環節都積極采用的方法。"
數據是AI生產鏈的關鍵一環。負責任的AI始于數據。澳鵬Appen作為倡導AI治理的同行者,始終積極致力于以高質量的訓練數據為負責任的AI賦能。在構建負責任的AI時,澳鵬Appen攜手產業鏈領軍者共同踐行:
積極的社會影響
在AI項目部署之前和之后,積極考慮AI將產生什么樣的社會影響。澳鵬Appen致力于以高質量數據助力履行社會責任和推動商業進化,讓AI更好地造福人類。
可信AI -- 可解釋、高質量、高準確性
可解釋性有助于描述AI支持的決策模型的準確性、公平性、透明度和有效結果。澳鵬Appen致力于從數據結構、輸入、輸出等用于開發模型的訓練數據方面助力提升可解釋性。
真實世界再現,最小偏差思維
在AI部署的數據標注階段,無論是數據本身還是數據標注者都需要實現多元化。作為一家可信賴的AI全生命周期數據合作伙伴,澳鵬Appen在全球擁有超過100萬名來自170+個國家的具有不同觀點的眾包資源,擁有超過292種語言和方言的專業知識,并邀請各行各業、不同學科的專家加入數據集的創建。
合法、合規、安全
對于數據的質量管控、安全管理及隱私保護,澳鵬Appen始終致力于提供最高級別的管理標準。澳鵬(中國)已獲ISO 27001, ISO 9001和ISO 27701認證;自主研發的人工智能輔助數據標注平臺MatrixGo也具有權限管控、數據加密傳輸、PII信息加密存儲等嚴格的數據安全管控策略,最大限度地保障數據資產安全。
人工智能應該使多元人群受益,無論其種族、性別、國籍或背景如何。負責任的AI不僅僅是一個概念,更是 AI 領域的所有企業都必須采用的方法論。澳鵬Appen全球副總裁、大中華及北亞區總經理田小鵬博士表示:"澳鵬Appen作為AI治理同行者,期待與產學研政合作,持續踐行業界高標準,以高質量的數據和成熟、可持續的管理流程共建AI生態,共同開啟負責任的智能時代。"
【關于澳鵬Appen】
澳鵬Appen Limited (ASX:APX) 是全球領先的圖像、文本、語音、音頻、視頻等AI訓練數據服務提供商,擁有業內最先進的人工智能輔助數據標注平臺、一體化的AI數據及資源管理平臺及全球100多萬名技能嫻熟的眾包資源,支持292+種語言和方言,遍布170+個國家和70,000個地區。澳鵬Appen的解決方案可為全球科技、汽車、金融服務、零售、制造和政府等行業的領導者提供優質、安全、高效的服務。澳鵬Appen成立于1996年,客戶和辦事處遍布全球。
【關于澳鵬(中國)】
自2019年進入中國市場以來,澳鵬Appen持續深耕中國市場,為國內領先的大型互聯網公司、高科技企業等各行業人工智能領軍者提供高質量數據服務。澳鵬(中國)總部位于上海,在無錫、大連、重慶均設有大型交付中心。進入中國市場后,澳鵬(中國)迅速組建起一支來自互聯網、金融、AI等行業頭部企業的產研精英團隊,獨立自主打造了適合本土行業特點的高精度人工智能輔助數據標注平臺——MatrixGo。目前,澳鵬(中國)擁有超過千余名全職員工并持續擴張中。
]]>