人工智能學習技術可以解釋大腦獎賞路徑的功能

來自DeepMind、大學學院和哈佛大學的一組研究人員發現，將學習技術應用于人工智能系統的經驗和教訓可能有助于解釋獎勵路徑在大腦中的工作方式。在《自然》期刊上發表的論文中，該小組描述了計算機中的分布式強化學習與小鼠大腦中的多巴胺處理的比較，以及他們從中學到了什么。
【人工智能學習技術可以解釋大腦獎賞路徑的功能】

文章插圖
之前的研究表明，大腦中產生的多巴胺與獎勵過程有關——當有好事發生時產生，它的表達會帶來愉悅感。一些研究還表明，大腦中對多巴胺的存在做出反應的神經元都以相同的方式做出反應——事件可以使人或小鼠感覺良好或不好。其他研究表明，神經元反應更多的是一種梯度。在這項新工作中，研究人員發現了支持后一種理論的證據。
分布式強化學習是一種基于強化的機器學習。在設計《星際爭霸2》或《圍棋》等游戲時經常用到。它會跟蹤好動作和壞動作的關系，學會減少壞動作的數量，發揮更多的性能。然而，這樣的系統不會平等地對待所有好的和壞的行為——每個行為在被記錄時都被加權，并且權重是在做出未來行為選擇時使用的計算的一部分。
研究人員指出，人類似乎使用類似的策略來提高自己的游戲水平。倫敦的研究人員懷疑，人工智能系統和大腦處理獎勵的方式之間的相似之處可能也是相似的。為了確定他們是否正確，他們在老鼠身上做了實驗。他們植入了一種能夠將單一多巴胺神經元反應植入大腦的裝置。然后，這些老鼠被訓練去完成一項任務，在這項任務中，它們會得到想要的獎勵。
小鼠的神經元反應表明，它們并不都像先前理論預測的那樣做出相同的反應。相反，它們以一種可靠而不同的方式做出反應——正如該團隊所預測的那樣，這表明老鼠體驗到的快樂更多的是一種梯度。

人工智能學習技術可以解釋大腦獎賞路徑的功能

推薦閱讀

如何找尋自我

縫紉機調線器怎么安裝平車方法如何

強組詞強字組詞

火筍雞翅的做法（增肥食譜）

閨女生日快樂祝福語朋友圈

LV請來潮牌設計師做藝術總監，看中的是啥

老虎豆怎么做好吃老虎豆圖片怎樣弄來吃

暖氣有流水聲是什么原因

皮球是什么體

手機怎樣開通QQ空間

男生發mua說明 mua是什么意思

手指蓋凹陷怎么回事

對自己的生活失去掌控咋調整

小米10s怎么沒有月亮模式

我想找個偏僻的地方搞養殖！有沒有推薦的地方？

南京養老金認證上門服務怎么申請南京市養老金認證

如何評價豬場閹割豬？

最后一個字是豹的成語

泰山散酒怎么樣

貓發情的聲音(貓發情的叫聲)