┊文章閱讀:次
近日,國際頂級綜合學術會議WWW2020?(The Web Conference 2020)在中國臺灣如期舉辦。本次會議,百度研究院共有6篇論文入選,位居國內科技企業前列。而且其中大部分論文的全部作者均來自百度,展現出百度公司超高的科研水準和領先的技術實力。
創辦于1994年,WWW會議由國際萬維網會議委員會(IW3C2)和主辦地地方團隊合作組織,每年召開一次,今年是第29屆。WWW會議被中國計算機學會(CCF)推薦為A類國際學術會議,每次都會吸引大批學者、研究人員、技術專家、政策制定者等人的廣泛關注和參與。自2018年開始,WWW會議有了另外一個別名——“The?Web?Science?(互聯網科學)”,旨在為世界提供一個主要的論壇,以討論和辯論Web的發展,其相關技術的標準化以及這些技術對社會和文化的影響,成為互聯網領域最受關注的頂級學術會議之一。
下面將詳細解讀一下此次百度入選論文中的4篇,向行業分享研究成果:
論文1:Extracting?Knowledge?from?Web?Text?with?Monte?Carlo?Tree Search
每一天,互聯網都會產生海量的非結構化文本數據,這些文本數據(比如新聞、博客等)包含了大量的非結構化的信息。對于人類而言,這些非結構化的信息是易于理解的,但是計算機很難直接利用這些非結構化的文本數據進行運算和邏輯處理。因此,從大量的非結構化信息中提取出結構化的知識,為后續自動化的信息處理、知識計算等任務構筑了有力的基石。
在本篇論文中,百度把信息抽取任務通過蒙特卡洛過程建模,提出了基于蒙特卡洛樹搜索的開放領域信息抽取方法。在基于蒙特卡洛樹搜索的強化學習架構中,信息抽取模型探索了大量的、可能的結構化知識,通過獎勵函數的評價,反哺給信息抽取模型,從而在訓練過程和推理過程中顯著的提升了信息抽取模型的效果。在目前最大的人工標注中文結構化知識抽取數據集SAOKE中,模型取得了最好的效果。
論文2:Improved?Touch-screen?Inputting?Using?Sequence-level?Prediction?Generation
近年來,各種移動觸屏設備不斷的深入普及,在觸屏軟鍵盤上的輸入效率則深深影響著人們的交流速度和用戶體驗。本篇論文對“觸屏輸入結果預測”的問題進行了形式化總結,闡述了依據“用戶所輸”和“用戶所見”來預測“用戶所想”的一般框架。同時,論文給出了在保證用戶隱私的前提下,以輸入效率為優化目標的特化問題描述。此外,論文描述了兩種評價方法,以適應不同的用戶輸入習慣假設。實現方面,目前已有的輸入效率提升方法包含輸入糾錯(包括字符替換、調序、刪除、插入)、單詞補全和候選打分排序等多個子步驟。本文提出了從“輸入坐標序列”到“期望字符串”端到端的訓練方法,并利用柱狀搜索進行解碼,實現了多個候選的一次性生成與排序。較分步驟的人工規則方法,這一方法有效提升了準確率,同時降低了特征構建成本,達到降本增效的成果。
論文3:Efficient?Online?Multi-Task?Learning?viaAdaptive?Kernel?Selection?
因為無法在線性不可分的數據上應用,傳統的多任務學習限制任務間結構為線性相關。為了解決這一難題,百度提出在線多任務核方法來解決分類任務,這個方法所在的再生核希爾伯特空間能夠提供更準確的分類函數。特別的是,此方法為每一個子任務維持一個局部-全局高斯分布模型,以此指導參數更新的方向和規模。然而,在計算上優化這一方法會相當昂貴。大多數多任務方法需要獲取整個數據來訓練算法,這就限制了其在大規模數據流場景的應用。
為此,百度提出了一個隨機采樣的方法來為模型進行可適應素描。此方法不需要所有的數據標簽,它會通過相似任務對標簽預測的自信度,來決定是否需要數據的標簽。理論上證明,與學習所有標簽的方法比,此方法在采樣樣本上學習能夠得到相似的結果。實驗上,此方法能夠提高準確性,同時減少了計算復雜度和標簽成本。
論文4:Estimate?theImplicit?Likelihood?of?Gas?with?Application?to?Anomaly?Detection
本篇論文提出了一種計算對抗生成網絡(GAN)隱含似然值(implicit likelihood value)的方法,并應用于異常檢測。不同于基于極大似然估計的方法,訓練良好的GAN可以學習和生成尖銳的圖像局部信息。但是,GAN是一種隱含模型,很難直接估計給定數據點的似然值。這是由于直接通過GAN獲取給定數據點(Data Sample)的隱藏變量(Latent Variable)比較困難,再者,對抗學習到的生成網絡(Generator)的雅可比矩陣(Jacobian Matrix)通常不是滿秩的,無法直接用變量變換的形式來通過隱藏變量(Latent Variable)計算數據點的似然值。
為克服上述困難,本篇論文提出通過對抗生成模型增加推理網絡(Inference Network)和方差網絡(Variance Network)?;赗BF核的方差網絡,可以把生成網絡的輸出拓展到整個生成空間,并且可以學習數據點的局部不確定性。對于給定的數據點,可以用學習到的推理網絡直接獲取數據點的隱藏變量。此外,通過方差網絡和推理網絡的結合,可以避免雅可比矩陣的奇異值的問題。本篇論文提出的模型在MNIST,CIFAR10,Imagenet32獲得優于其他基于神經網絡的成模型的似然估計,在MNIST和 CIFAR10等數據集上有不錯的異常檢測的表現。
以上介紹的4篇論文是百度研究院眾多出色研究成果的一小部分。百度研究院由百度CTO王海峰博士兼任院長,已經取得了一系列前瞻的研究成果和技術落地應用。后續還將持續向行業介紹更多來自百度研究院的學術論文成果。
Copyright @ 2013-2020 中國福建網 版權所有
聯系我們
免責聲明:本站為非營利性網站,部分圖片或文章來源于互聯網如果無意中對您的權益構成了侵犯,我們深表歉意,請您聯系,我們立即刪除。