┊文章閱讀:次
? 作為全球優秀科技青年的溝通橋梁,劍橋國際青年學術論壇圍繞人工智能、光電信息技術、新能源、生物醫藥等全球應用廣闊的新興技術展開,邀請了英國皇家工程院院士David Cardwell、中科院外籍院士王中林以及來自哈佛大學、帝國理工、諾丁漢大學、清華大學等高校極具影響力的教授學者與學術代表匯聚一堂,共話技術革新,吸引全球數千名學者觀看討論。
近日,以“技術革新,十年可期”為主題的首屆劍橋國際青年學術論壇開幕。第四范式、華為、Google DeepMind作為僅有的三家AI企業代表,分享了AI領域最新的學術成果及前沿趨勢。其中,第四范式副總裁、主任科學家涂威威發表了題為Towards AI for Everyone的主題演講,并詳細介紹了第四范式在推動人工智能應用普及過程中的思考與實踐。
涂威威觀察到,近年來,機器學習在推薦系統、在線廣告、金融市場分析、計算機視覺、語言學、生物信息學等領域都取得了成功。但其背后,頂尖的機器學習專家團隊參與了包括定義問題、收集數據、數據預處理、特征工程、選擇或設計模型架構、調整模型超參數、性能評估等機器學習的所有階段。極高的技術門檻、人才匱乏、專家經驗難以復制、高成本投入等因素成為阻礙AI在各領域落地的“絆腳石”。
為了推動機器學習技術在更廣泛的場景得以應用,AutoML自動機器學習成為了學術界和工業界的研究重點。其目的是將機器學習過程自動化,以低門檻的形式實現AI構建和應用。而真正讓AutoML從學術走向應用,解決真實業務場景需求,則需要從性能、效率等方面著手,提高模型精度與計算效率,降低計算成本,擴展AutoML應用范圍。
目前,以Google為首的AutoML主要以非結構化數據自動化技術為研究方向,覆蓋了語音、圖像、文本、NLP等領域。事實上,表數據等結構化數據在AutoML應用方面同樣具有廣闊應用范圍,并帶來了極高的業務價值。且隨著業務需求的飛速發展與急速擴張,半結構化數據異構信息網絡、知識圖譜等也在AutoML技術探索應用中占據一席之地。
現如今,AutoML算法層出不窮,AI頭部公司以及研究機構都將其列為重要研究方向。第四范式已實現結構化數據自動特征組合、自動時序特征、自動半監督學習等、半結構化數據、非結構化數據AutoCV、AutoSpeech、AutoNLP等、自動決策優化AutoRL、AutoDFO等的AutoML算法全覆蓋。然而,在實際落地中,算法只是其中一環,解決業務問題,還面臨數據、模型應用系統等諸多挑戰。以數據為例,僅依靠高質量標注數據遠遠不夠,離線數據分析時數據不一致,也會極大影響算法效果。此外,AutoML技術在落地過程中還需進一步解決多目標優化、可解釋性等問題。
在涂威威看來,人機結合的交互式AutoML能有效解決上述挑戰,正在成為AutoML落地的新路徑。該理念采取人與機器協作的方式優化目標與配置空間,各自負責擅長的領域,通過人的少量輔助提高AutoML在業務應用的效果和落地效率。具體來說,企業業務人員基于業務經驗定義問題,設定目標,使AutoML始終朝向效果提升的方向迭代。機器則負責計算,算出特定目標下的較優配置選擇。這樣的組合可以使AutoML快速高效應用于各業務場景中。
在計算效率方面,除了提升配置優化算法效率以外,還需要在底層計算架構上進行深度優化,其原因在于目前主流計算框架如 Tensorflow、PyTorch 等只為單次機器學習模型訓練優化,而非針對AutoML重復迭代的計算方式所優化,這影響了AutoML在主流計算框架的計算效率。第四范式則為AutoML設計了專屬的底層計算架構,對多次模型學習提供了配置評估和橫向、縱向的動態計算,同時在參數上探索共享計算,只用增加單次模型學習60左右的計算代價,就可獲得數十次的配置評估,極大提高了計算效率。此外,算法與底層硬件的深度融合同樣重要,需從在計算、存儲、網絡、調度等方面進行軟硬一體化設計,進一步降低AI算力投入。
通過持續不斷的研究和投入,第四范式已覆蓋了多方向的AutoML算法研究,并在效率、泛化性、動態環境AutoML、安全性、可解釋性等方面取得了突破。未來,第四范式還將從學術、應用兩個角度出發,在算法層面有更深層次研究的同時,更好地解決數據治理、模型應用等AutoML上下游問題,推動技術在更多行業、更多場景中落地應用。
Copyright @ 2013-2020 中國福建網 版權所有
聯系我們
免責聲明:本站為非營利性網站,部分圖片或文章來源于互聯網如果無意中對您的權益構成了侵犯,我們深表歉意,請您聯系,我們立即刪除。