人工智能學習技術可以解釋大腦獎賞路徑的功能

來自DeepMind、大學學院和哈佛大學的一組研究人員發現,將學習技術應用于人工智能系統的經驗和教訓可能有助于解釋獎勵路徑在大腦中的工作方式 。在《自然》期刊上發表的論文中,該小組描述了計算機中的分布式強化學習與小鼠大腦中的多巴胺處理的比較 , 以及他們從中學到了什么 。
【人工智能學習技術可以解釋大腦獎賞路徑的功能】

人工智能學習技術可以解釋大腦獎賞路徑的功能

文章插圖
之前的研究表明 , 大腦中產生的多巴胺與獎勵過程有關——當有好事發生時產生,它的表達會帶來愉悅感 。一些研究還表明,大腦中對多巴胺的存在做出反應的神經元都以相同的方式做出反應——事件可以使人或小鼠感覺良好或不好 。其他研究表明,神經元反應更多的是一種梯度 。在這項新工作中,研究人員發現了支持后一種理論的證據 。
分布式強化學習是一種基于強化的機器學習 。在設計《星際爭霸2》或《圍棋》等游戲時經常用到 。它會跟蹤好動作和壞動作的關系,學會減少壞動作的數量,發揮更多的性能 。然而,這樣的系統不會平等地對待所有好的和壞的行為——每個行為在被記錄時都被加權,并且權重是在做出未來行為選擇時使用的計算的一部分 。
研究人員指出,人類似乎使用類似的策略來提高自己的游戲水平 。倫敦的研究人員懷疑 , 人工智能系統和大腦處理獎勵的方式之間的相似之處可能也是相似的 。為了確定他們是否正確,他們在老鼠身上做了實驗 。他們植入了一種能夠將單一多巴胺神經元反應植入大腦的裝置 。然后,這些老鼠被訓練去完成一項任務,在這項任務中,它們會得到想要的獎勵 。
小鼠的神經元反應表明,它們并不都像先前理論預測的那樣做出相同的反應 。相反,它們以一種可靠而不同的方式做出反應——正如該團隊所預測的那樣 , 這表明老鼠體驗到的快樂更多的是一種梯度 。

    推薦閱讀