中國福建網

              當前位置:中國福建網 > 科技 > 正文

              Google發布“多巴胺”開源強化學習框架,三大特性全滿足

              作者: 編輯 來源:互聯網 發布時間:2018-09-07

              ┊文章閱讀:

              Google發布“多巴胺”開源強化學習框架,三大特性全滿足

              編譯整理 | Just

              編輯 | 阿司匹林

              出品 | AI科技大本營

              強化學習是一種非常重要的 AI 技術,它能使用獎勵(或懲罰)來驅動智能體(agents)朝著特定目標前進,比如它訓練的 AI 系統 AlphaGo 擊敗了頂尖圍棋選手,它也是 DeepMind 的深度 Q 網絡(DQN)的核心部分,它可以在多個 workers 之間分步學習,例如,在 Atari 2600 游戲中實現“超人”性能。

              麻煩的是,強化學習框架需要花費大量時間來掌握一個目標,而且框架往往是不靈活和不總是穩定的。

              但不用擔心,Google 近日發布了一個替代方案:基于 TensorFlow 的開源強化學習框架 Dopamine(多巴胺)。

              Google 的博文中提到,這個基于 Tensorflow 的強化學習框架,旨在為 RL 的研究人員提供靈活性,穩定性和可重復性的研究。受到大腦中獎勵動機行為的主要成分的啟發,以及反映神經科學與強化學習研究之間強烈的歷史聯系,該平臺旨在實現可推動激進發現的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個框架的 colabs。

              除了強化學習框架的發布,谷歌還推出了一個網站(https://google.github.io/dopamine/baselines/plots.html),允許開發人員快速可視化多個智能體的訓練運行情況。他們希望,這一框架的靈活性和易用性將使研究人員能積極嘗試新的想法,不管是漸進式還是激進式的想法。

              以下為 Google 博客詳細內容:

              Google發布“多巴胺”開源強化學習框架,三大特性全滿足

              引入靈活和可重復的強化學習研究的新框架

              強化學習(RL)研究在過去幾年中取得了許多重大進展。這些進步使得智能體可以以超人類級別的能力玩游戲。比如 Atari 游戲中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。

              具體而言,在 DQN 中引入 replay memories 可以利用以前的智能體經驗,大規模的分布式訓練可以在多個 workers 之間分配學習過程,分布式方法允許智能體模擬完整的分布過程,而不僅僅是模擬它們期望值,以學習更完整的圖景。這種類型的進展很重要,因為出現這些進步的算法還適用于其他領域,例如機器人技術。

              通常,這種進步都來自于快速迭代設計(通常沒有明確的方向),以及顛覆既定方法的結構。然而,大多數現有的 RL 框架并沒有結合靈活性和穩定性以及使研究人員能夠有效地迭代 RL 方法,并因此探索可能沒有直接明顯益處的新研究方向。此外,從現有框架再現結果通常太耗時,這可能導致科學的再現性問題。

              今天,我們推出了一個新的基于 Tensorflow 的框架,旨在為 RL 的研究人員提供靈活性、穩定性和可重復性。受到大腦中獎勵動機行為的主要成分的啟發,以及反映神經科學與強化學習研究之間強烈的歷史聯系,該平臺旨在實現可推動激進發現的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個框架的 colabs。

              Google發布“多巴胺”開源強化學習框架,三大特性全滿足

              易用性

              清晰和簡潔是該框架設計中要考慮的兩個關鍵因素。我們提供更精簡的代碼(大約 15 個Python 文件),并且有詳細記錄。這是通過專注于 Arcade 學習環境(一個成熟的,易于理解的基準)和四個基于 value 的智能體來實現的:DQN,C51,一個精心策劃的 Rainbow 智能體的簡化版本,以及隱式分位數網絡(Implicit Quantile Network)智能體,這已在上個月的 ICML 大會上已經發表。我們希望這種簡潔性使研究人員能夠輕松了解智能體內部的運作狀況,并積極嘗試新的想法。

              Google發布“多巴胺”開源強化學習框架,三大特性全滿足

              可重復性

              我們對重復性在強化學習研究中的重要性特別敏感。為此,我們為代碼提供完整的測試覆蓋率,這些測試也可作為其他文檔形式。此外,我們的實驗框架遵循 Machado 等人給出的關于使用 Arcade 學習環境標準化經驗評估的建議。

              Google發布“多巴胺”開源強化學習框架,三大特性全滿足

              基準測試

              對于新的研究人員來說,能夠根據既定方法快速對其想法進行基準測試非常重要。因此,我們為 Arcade 學習環境支持的 60 個游戲提供四個智能體的完整培訓數據,可用作 Python pickle 文件(用于使用我們框架訓練的智能體)和 JSON 數據文件(用于與受過其他框架訓練的智能體進行比較);我們還提供了一個網站,你可以在其中快速查看 60 個游戲中所有智能體的訓練運行情況。

              下面展示我們在 Seaquest 上的 4 個代理的訓練情況,這是由 Arcade 學習環境支持的一種 Atari 2600 游戲。

              Google發布“多巴胺”開源強化學習框架,三大特性全滿足

              在 Seaquest 上的 4 名智能體參加了訓練。x 軸表示迭代,其中每次迭代是 100 萬個游戲幀(4.5 小時的實時游戲);y 軸是每場比賽獲得的平均分數。陰影區域顯示的是來自 5 次獨立運行的置信區間。

              我們還提供已經訓練好的深度網絡,原始統計日志以及用 Tensorboard 繪圖的 Tensorflow 事件文件。這些都可以在網站的下載部分找到。

              希望我們框架的靈活性和易用性將使研究人員敢于嘗試新的想法,包括漸進式和激進式的想法。我們已經積極地將它用于我們的研究,并發現它能夠靈活且快速迭代許多想法。我們很高興可以為更大的社區做些貢獻。

              GitHub 鏈接:

              https://github.com/google/dopamine/tree/master/docs#downloads

              參考鏈接:

              • https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

              • https://venturebeat.com/2018/08/27/google-releases-open-source-reinforcement-learning-framework-for-training-ai-models/




              上一篇:AI芯片的過去、現在與未來
              下一篇:沒有了
            1. 新浪新聞
            2. 百度搜索
            3. 搜狗搜索
            4. 京東商城
            5. 企業慧聰
            6. 新浪科技
            7. 科技訊
            8. 鵪鶉蛋價格
            9. 唯美圖片
            10. 主站蜘蛛池模板: 里番acg里番本子全彩| 丁香狠狠色婷婷久久综合| 欧美日韩精品一区二区在线播放| 再深点灬舒服灬太大了添老师| 青青热久免费精品视频在线观看 | 久久99精品久久久久子伦| 欧美a级毛欧美1级a大片| 亚洲欧美日韩国产精品专区| 男人j进女人p免费视频不要下载的 | 女人色毛片女人色毛片中国| 中文在线√天堂| 无翼乌无遮挡h肉动漫在线观看| 久久精品国产99精品最新| 最近日本免费观看直播| 亚洲国产成人久久一区二区三区| 没带罩子让老师捏了一节课| 伊人久久大香线蕉综合影院首页| 精品久久久噜噜噜久久久| 四虎成年永久免费网站| 色视频综合无码一区二区三区 | 日韩精品成人一区二区三区| 亚洲中文字幕久久精品无码喷水| 欧美成人另类人妖| 亚洲欧美一区二区三区九九九| 热99在线视频| 人人妻人人澡人人爽超污| 男女性接交无遮挡免费看视频| 公交车上被弄进走不动| 精品国产a∨无码一区二区三区 | 成人免费视频网址| 中文字幕亚洲欧美日韩不卡| 无人高清影视在线观看视频| 久久9精品久久久| 日日摸日日碰夜夜爽亚洲| 久久久亚洲精品国产| 日本大臿亚洲香蕉大片| 久久精品99久久香蕉国产| 日韩国产欧美在线观看一区二区| 久久精品国产99久久久古代 | 国产精品视频白浆免费视频| 97精品在线播放|