介紹

記憶和學習之間的動態相互關系是智能生物系統的基本標志。它使有機體不僅能夠吸收新知識,而且能夠不斷完善現有能力,使它們能夠熟練地應對不斷變化的環境條件。這種適應性特征與各種時間尺度相關,包括通過短期可塑性機制進行的長期學習和快速短期學習,突出了生物神經系統的復雜性和適應性1–3。從大腦中提取高層次靈感的人工系統的開發是跨越幾十年的長期科學追求。雖然早期的嘗試取得了有限的成功,但最新一代的人工智能(AI)算法在許多具有挑戰性的任務中取得了重大突破。這些任務包括但不限于根據人類提供的提示生成圖像和文本4–7復雜機器人系統的控制8–10、以及對國際象棋和圍棋等策略游戲的掌握11 以及這些的多模式融合12。

雖然人工神經網絡在各個領域都取得了顯著的進步,但在控制神經網絡的能力方面仍有很大的局限性。

像生物大腦一樣不斷學習和適應13-15。與當前的機器智能模型不同,動物可以在整個生命周期中學習,這對穩定適應不斷變化的環境至關重要。這種被稱為終身學習的能力仍然是人工智能的一個重大挑戰,人工智能主要優化由固定標簽數據集組成的問題,使其難以概括新任務或在重復學習迭代中保留信息14。應對這一挑戰是一個活躍的研究領域,開發具有終身學習能力的人工智能的潛在影響可能會對多個領域產生深遠的影響。

在本文中,我們提供了一篇獨特的綜述,旨在識別啟發了當前人工智能算法的大腦機制。為了更好地理解自然智能背后的生物學過程,第一部分將探索塑造神經調節的低水平組件,從突觸可塑性到塑造神經活動的局部和全局動力學的作用。這將與第三部分的人工神經網絡相關,我們將人工神經網絡與生物神經系統進行比較和對比。這將為我們提供一個邏輯基礎,試圖證明為什么大腦可以為AI提供更多,超越當前人工模型的繼承。接下來,我們將深入研究模擬這些過程的人工學習算法,以提高人工智能系統的能力。最后,我們將討論這些人工智能技術在現實世界中的各種應用,強調它們對機器人、終身學習和神經形態計算等領域的潛在影響。通過這樣做,我們旨在提供對生物大腦和人工智能學習機制之間相互作用的全面理解,強調這種協同關系可能帶來的潛在好處。我們希望我們的發現將鼓勵新一代大腦啟發的學習算法。

支持大腦學習的過程

神經科學的一項重大努力旨在確定大腦中學習的深層過程。已經提出了幾種機制來解釋不同粒度水平的學習的生物學基礎——從突觸到種群水平的活動。

?

圖一 突觸生物神經元的長時程增強(LTP)和抑制(LTD)的圖示。A 突觸連接的突觸前和突觸后神經元。B 突觸末端,神經元之間的連接點。C 突觸生長(LTP)和突觸減弱(LTD)。D 頂部,神經元軸突小丘中的膜電位動力學。底部,突觸前和突觸后棘波。E 描繪LTP和LTD的實驗記錄的尖峰時間依賴性可塑性曲線

然而,絕大多數生物學上看似合理的學習模式都具有可塑性的特征,這種可塑性來自于局部和全局事件之間的相互作用16。下面,我們將更詳細地介紹各種形式的可塑性以及這些過程是如何相互作用的。

突觸可塑性 大腦中的突觸可塑性是指經驗改變神經回路功能的能力。突觸的可塑性具體指基于活動的突觸傳遞強度的改變,并且是目前最廣泛研究的大腦適應新信息的機制17,18。(Plasticity in the brain refers to the capacity of experience to modify the function of neural circuits. The plasticity of synapses specifically refers to the modification of the strength of synaptic transmission based on activity and is currently the most widely investigated mechanism by which the brain adapts to new information) 突觸可塑性有兩大類:短期和長期可塑性。短期可塑性在幾十毫秒到幾分鐘的范圍內起作用,并且在對感覺刺激的短期適應和短期記憶形成中具有重要作用19。長期可塑性在幾分鐘到更長的時間內起作用,被認為是長期行為變化和記憶儲存的主要過程之一20。

神經調節 除了突觸的可塑性,大腦適應新信息的另一個重要機制是神經調節3,21,22。神經調節是指通過化學信號分子(通常稱為神經遞質或激素)對神經活動的調節。這些信號分子可以改變神經回路的興奮性和突觸的強度,并對神經功能產生短期和長期影響。已經確定了不同類型的神經調節,包括乙酰膽堿、多巴胺和血清張力素,它們與各種功能如注意力、學習和情緒有關23。神經調節已經建議在各種形式的可塑性中發揮作用,包括短-19和長期可塑性22。

元可塑性 神經元根據活動改變其功能和結構的能力是突觸可塑性的特征。發生在突觸上的這些變化必須精確地組織起來,以便在正確的時間以正確的數量發生變化。這種可塑性的調節被稱為元可塑性,或“突觸可塑性的可塑性”,在保護不斷變化的大腦免于飽和方面起著至關重要的作用24–26。本質上,變塑通過誘導神經元或突觸生理狀態的變化來改變突觸產生可塑性的能力。超可塑性被認為是記憶穩定性、學習和調節神經興奮性的基本機制。雖然相似,但化生可以與神經調節區分開,在突觸的改變過程中,化生和神經調節事件經常在時間上重疊。

神經發生 新形成的神經整合到現有神經回路的過程稱為神經發生。神經發生在胚胎發育期間最為活躍,但也已知在整個成年期都會發生,特別是在側腦室的腦室下區27杏仁核28和海馬結構的齒狀回29。在成年小鼠中,與標準實驗室條件相比,當生活在豐富的環境中時,神經發生被證明增加30。此外,許多環境因素,如鍛煉31,32和壓力33,34已經證明可以改變嚙齒類動物海馬體中的神經發生率。總的來說,雖然神經發生在學習中的作用還不完全清楚,但它被認為在支持大腦中的學習中起著重要的作用。

神經膠質細胞 神經膠質細胞或神經膠質,通過調節突觸處的神經遞質信號,在支持學習和記憶中起著至關重要的作用,突觸是神經元之間釋放和接收神經遞質的小間隙35。星形膠質細胞是一種神經膠質細胞,可以釋放和再攝取神經遞質,并對其進行代謝和解毒。這有助于調節大腦中神經遞質的平衡和可用性,這對正常的大腦功能和學習至關重要36。小膠質細胞是另一種神經膠質細胞,也可以調節神經遞質信號,并參與受損組織的重新配對和再生,這對學習和記憶很重要37。除了修復和調節,突觸強度的結構變化需要不同類型的神經膠質細胞的參與,其中最不明顯的影響來自星形膠質細胞36。然而,盡管他們的參與至關重要,我們還沒有完全了解膠質細胞的作用。了解神經膠質細胞支持突觸學習的機制是正在進行的研究的重要領域。

深度神經網絡和可塑性

人工神經網絡和脈沖神經網絡。在過去的幾十年里,人工神經網絡在機器學習中發揮了至關重要的作用。這些網絡在解決各種挑戰性問題方面催化了巨大的進步。人工智能中許多最令人印象深刻的成就都是通過使用經過大量數據訓練的大型人工神經網絡實現的。雖然有許多技術進步,但人工智能的許多成就可以用計算技術的創新來解釋,如大規模GPU加速器和數據的可訪問性。雖然大規模人工神經網絡的應用帶來了重大的創新,但仍存在許多挑戰。人工神經網絡的一些最緊迫的實際限制是它們在功耗方面效率不高,并且它們不太擅長處理動態和噪聲數據。此外,人工神經網絡無法學習超出其訓練周期(例如,在部署期間)的數據,這些數據呈現獨立且同分布(IID)的形式,而沒有時間,這不能反映信息在時間和空間上高度相關的物理現實。這些缺陷已經導致它們的應用在大規模設置中需要大量的能量38并且也向集成到諸如機器人和可穿戴設備的邊緣計算設備提出了挑戰39。

從神經科學中尋找解決方案,研究人員一直在探索脈沖神經網絡(SNNs)作為人工神經網絡的替代方案40。SNNs是一類人工神經網絡,其設計更接近于生物神經元的行為。ann和SNNs之間的主要區別在于SNNs將時間的概念結合到它們的通信中。尖峰神經元以膜電位的形式積累來自相連(突觸前)神經元(或通過感覺輸入)的信息。一旦神經元的膜電位超過閾值,它向所有傳出(突觸后)連接發出一個二進制“尖峰”。盡管尖峰信號是二進制的并且在時間上是稀疏的,但是理論上已經證明它比基于速率的信息表示(例如在人工神經網絡中)包含更多的信息41。此外,建模研究顯示了SNNs的優勢,例如更好的能量效率、處理噪聲和動態數據的能力,以及更健壯和容錯計算的潛力42。這些益處不僅歸因于其增加的生物合理性,還歸因于脈沖神經網絡的獨特性質,其將它們與傳統的人工神經網絡區分開來。下面描述了一個簡單的漏積分觸發神經元的工作模型:

盡管有這些潛在的優勢,snn仍然處于發展的早期階段,在它們能夠被更廣泛地使用之前,還有幾個挑戰需要解決。最緊迫的挑戰之一是如何優化這些模型的突觸權重,因為傳統的基于反向傳播的人工神經網絡方法由于離散和稀疏的非線性而失敗。不考慮這些挑戰,確實有一些工作突破了現代尖峰網絡的極限,例如基于大尖峰的SpikeGPT模型43。尖峰模型對這篇綜述非常重要,因為它們構成了許多大腦啟發的學習算法的基礎。

Hebbian and spike-timing dependent plasticity。Hebbian和STDP(spike-timing dependent plasticity)是突觸可塑性的兩個重要模型,在神經回路和行為的形成中起著重要作用。唐納德·赫布于1949年首次提出的赫布-邊學習規則44假設神經元之間的突觸在它們相互作用時得到加強,這樣一個神經元的激活會導致另一個神經元的激活。另一方面,STDP是最近提出的突觸可塑性模型,它考慮了突觸前和突觸后尖峰的精確定時45 以確定突觸的增強或減弱。人們普遍認為,STDP在發育過程中神經回路的形成和完善以及回路對經驗的不斷適應中起著關鍵作用。在下面的小節中,我們將提供hebb學習和STDP的基本原理的概述。

Hebbian學習 Hebbian學習基于這樣一種觀點,即如果兩個神經元同時活躍,那么它們之間的突觸強度應該增強,反之則減弱。赫布認為,當一個細胞“重復或持續地參與激發”另一個細胞時,這種增加就會發生(有因果關系)。然而,這一原則往往是相互關聯的,如著名的格言“細胞一起開火,電線在一起”(不同地歸因于sie grid lwel46 或者卡拉·沙茨47)1

Hebbian學習通常用作無監督學習算法,其目標是在沒有顯式反饋的情況下識別輸入數據中的模式48。這個過程的一個例子是Hopfield網絡,其中通過對(對稱的)權重應用Hebbian規則,大的二進制模式可以容易地存儲在全連接的循環網絡中49。它還可以適用于監督學習算法,其中規則被修改以考慮網絡的期望輸出。在這種情況下,希伯恩學習規則與指示給定輸入的正確輸出的教導信號相結合。

一個簡單的Hebbian學習規則可以用下面的等式進行數學描述:

其中▲wij是神經元I和神經元j之間的權重變化,η是學習速率,神經元I中的xi“活動”,通常被認為是神經元放電速率。這條規則規定,如果兩個神經元同時被激活,它們的連接應該得到加強。

基本赫比規則的一個潛在缺點是它的不穩定性。例如,如果xi和xj最初是弱正相關的,這個規則將增加兩者之間的權重,這將反過來加強相關性,導致甚至更大的權重增加,等等。因此,需要某種形式的穩定。這可以簡單地通過限制權重來實現,或者通過更復雜的規則來實現,這些規則考慮了額外的因素,例如突觸前和突觸后活動的歷史或者網絡中其他神經元的影響(參見參考文獻50對于許多這樣的規則的實際回顧)。

三因素法則:Hebbian強化學習 通過引入關于獎勵的信息,Hebbian學習也可以用于強化學習。一個明顯可行的想法是簡單地將Hebbian更新直接乘以獎勵,如下所示:

R是獎勵(對于這個時間步或對于整個情節)。不幸的是,這種想法不能產生可靠的強化學習。通過注意到如果wij已經處于其最佳值,這可以直觀地感覺到,上述規則仍然會產生凈變化,從而驅使wij遠離最佳值。

更正式地說,正如弗雷莫等人所指出的53,以正確跟蹤輸入、輸出和回報之間的實際協方差,xixjR乘積中的至少一項必須居中,也就是用圍繞其期望值的零均值波動代替。一個可能的解決方案是通過從R中減去一個基線來計算回報,這個基線通常等于這個試驗的R的期望值。雖然有幫助,但實際上這種解決方案通常是不夠的。

更有效的解決方案是從輸出中去除平均值。這可以通過使神經活動xj受到偶然的隨機擾動(取自適當的零中心分布)來容易地完成,然后在三因子乘積中使用擾動xj,而不是原始的突觸后活動xj:

這就是Fiete和Seung提出的所謂的“節點擾動”規則54,55。直觀地說,注意xi xj增量的作用是將未來的XJ響應(當抵消相同的Xi輸入時)推向擾動的方向:如果擾動為正,則更大;如果擾動為負,則更小。如果R為正,將這一位移乘以R會將未來的響應推向擾動,如果R為負,則遠離擾動。即使R不為零均值,凈效應(在預期中)仍將驅使wij向更高的R移動,盡管方差會更高。

這個規則實現了加強算法(Williams的原始論文56 實際上提出了一種算法,這種算法對于脈沖隨機神經元來說是精確的節點擾動),從而估計了wij上R的理論梯度。它也可以用生物學上可行的方式實現,允許循環網絡從稀疏、延遲的獎勵中學習非平凡的認知或運動任務57。

Spike-timing dependent plasticity (STDP)是突觸可塑性的理論模型,允許神經元之間的連接強度根據其spike電位的相對時序進行修改。與依賴于突觸前和突觸后神經元同時激活的赫比學習規則不同,STDP考慮了突觸前和突觸后尖峰的精確定時。具體來說,STDP認為,如果一個突觸前神經元恰好在一個突觸后神經元之前激活,那么它們之間的聯系應該得到加強。相反,如果突觸后神經元恰好在突觸前神經元之前觸發,那么這種連接應該會被削弱。

已經在多種生物系統中觀察到STDP,包括新皮層、海馬和小腦。該規則已被證明在神經回路的發育和可塑性中起著至關重要的作用,包括學習和記憶過程。STDP還被用作開發人工神經網絡的基礎,人工神經網絡是用來模仿大腦的結構和功能的。

STDP的數學公式比赫比學習規則更復雜,并且可以根據具體的實現而變化。然而,一個常見的公式是:

觀點,布朗和他的同事引用威廉·詹姆斯的話:“當兩個基本的大腦過程一起或連續活躍時,其中一個在重復出現時,傾向于將其興奮傳播到另一個。

圖二 人工和類腦學習算法之間有很強的相似性。左,頂端,嚙齒動物和一群相互連接的神經元的圖形描述。中間,嚙齒動物正在參與莫里斯水迷宮任務,以測試其學習能力。下圖描述了生物突觸前和突觸后錐體神經元。右,頂端,具有人工神經網絡策略和調節學習和控制的批判頭的嚙齒動物肌肉骨骼物理模型(參見參考文獻。51)。中間,用于基準學習算法的虛擬迷宮環境(參考文獻。52)。底部,一種具有正向傳播方程的人工突觸前和突觸后神經元。

其中,wij是神經元I和神經元j之間的權重變化,t是突觸前和突觸后尖峰之間的時間差,A+和A分別是增強和抑制的幅度,τ+和τ分別是增強和抑制的時間常數。該規則規定,兩個神經元之間的連接強度將根據它們相對于彼此的尖峰的時間而增加或減少。

支持人工神經網絡學習的過程

在人工神經網絡中有兩種主要的權重優化方法:錯誤驅動的全局學習和大腦啟發的局部學習。在第一種方法中,通過將全局誤差驅動到其最小值來修改網絡權重。這是通過將誤差分配給每個權重并同步每個權重之間的修改來實現的。相比之下,大腦啟發的局部學習算法旨在通過使用局部可用信息修改動態方程的權重,以更符合生物學的方式進行學習。這兩種優化方法都有獨特的優點和缺點。在下面的部分中,我們將討論最常用的錯誤驅動全局學習形式,即反向傳播,然后深入討論大腦啟發的局部算法。值得一提的是,這兩種方法并不相互排斥,為了補充它們各自的優勢,通常會將它們集成在一起58-61。

反向傳播。反向傳播是一種強大的誤差驅動的全局學習方法,它改變神經網絡中神經元之間連接的權重,以產生期望的目標行為62。這是通過使用定量指標(目標函數)實現的,該指標描述了給定感覺信息(如視覺輸入、書面文本、機器人關節位置)下的行為質量。反向傳播算法包括兩個階段:前向傳遞和后向傳遞。在前向傳遞中,輸入通過網絡傳播,然后計算輸出。在反向傳遞期間,計算預測輸出和“真實”輸出之間的誤差,并且通過將誤差反向傳播通過網絡來計算損失函數相對于網絡權重的梯度。然后,使用諸如隨機梯度下降的優化算法,將這些梯度用于更新網絡的權重。這個過程重復多次迭代,直到權重收斂到一組使損失函數最小的值。

讓我們來看看反向傳播的簡單數學解釋。首先,我們定義一個期望損失函數,它是網絡輸出和真實值的函數:

其中y是真實輸出,y’是網絡輸出。在這種情況下,我們將最小化平方誤差,但可以很好地優化任何平滑和可微分的損失函數。接下來,我們使用鏈式法則來計算

相對于網絡權重的損失。設wl是層l中的神經元I和層l + 1中的神經元j之間的權重,并且設al是層l中的神經元I的激活。然后,損失相對于權重的梯度由下式給出:

其中,α是學習率。通過重復計算梯度和更新權重,網絡逐漸學會最小化損失函數并做出更準確的預測。在實踐中,梯度下降法通常與將動量引入梯度估計的方法相結合,這已被證明能顯著提高泛化能力63。

反向傳播令人印象深刻的成就促使神經科學家研究它是否能更好地理解大腦中的學習。盡管關于反向傳播變異是否會發生在大腦中仍有爭議64,65很明顯,目前的反向傳播在生物學上是不合理的。另一種理論認為,復雜的反饋回路或局部活動與自上而下信號的交互作用(第三個因素)可能支持類似的反向傳播學習形式64。

盡管它的性能令人印象深刻,但仍然存在基本的算法挑戰,這些挑戰來自于對網絡權重重復應用反向傳播。其中一個挑戰是一種被稱為災難性遺忘的現象,即神經網絡在對新數據進行訓練時會忘記之前學習的信息13。當網絡根據新數據進行微調時,或者當網絡根據一系列任務進行訓練而沒有保留從以前的任務中學到的知識時,會發生這種情況。災難性遺忘是開發能夠從多樣化和不斷變化的環境中持續學習的神經網絡的一個重大障礙。另一個挑戰是反向傳播需要通過網絡的所有層反向傳播信息,這在計算上是昂貴和耗時的,尤其是對于非常深的網絡。這可能會限制深度學習算法的可擴展性,并使其難以在有限的計算資源上訓練大型模型。盡管如此,對于涉及人工神經網絡的應用,反向傳播仍然是最廣泛使用和最成功的算法

進化和遺傳算法。另一類近年來受到廣泛關注的全局學習算法是進化和遺傳算法。這些算法受自然選擇過程的啟發,在人工神經網絡的背景下,旨在通過模擬進化過程來優化神經網絡的權重。在遺傳算法中66用隨機權重初始化一組神經網絡,并對每個網絡的特定任務或問題進行評估。在這項任務中表現較好的網絡被選擇出來進行繁殖,由此它們產生的后代在權重上略有變化。這一過程會重復幾代的操作類似于進化算法,但使用不同的方法來逼近隨機梯度67,68。這是通過擾動權重并結合網絡目標函數性能來更新參數來實現的。這導致更全面的搜索在尋找最優解時比像back-這樣的局部搜索方法更有效傳播69。

這些算法的一個優點是它們能夠有效地搜索巨大的參數空間,使它們適合于具有大量參數或復雜搜索空間的問題。此外,它們不需要不同的目標函數,這在目標函數難以定義或計算的情況下是有用的(例如脈沖神經網絡)。然而,這些算法也有一些缺點。一個主要的限制是評估和發展大量網絡所需的高計算成本。另一個挑戰是算法可能陷入局部最優或收斂過快,導致次優解。另外,隨機突變的使用會導致學習過程中的不穩定性和不可預測性。

無論如何,進化和遺傳算法已經在各種應用中顯示出有希望的結果,特別是在優化不可微和非平凡的參數空間時。正在進行的研究集中于提高這些算法的效率和可擴展性,以及發現何時何地使用這些方法代替梯度下降是有意義的。

人工神經網絡中學習的腦啟發表征

局部學習算法。與要求信息通過整個網絡傳播的全局學習算法(如反向傳播)不同,局部學習算法專注于基于來自附近或突觸連接的神經元的局部信息來更新突觸權重。這些方法經常受到生物突觸可塑性的強烈啟發。正如我們將看到的,通過利用局部學習算法,人工神經網絡可以更有效地學習,并適應不斷變化的輸入分布,使它們更適合現實世界的應用。在這一節中,我們將回顧大腦啟發的局部學習算法的最新進展,以及它們在提高人工神經網絡的性能和魯棒性方面的潛力。

反向傳播衍生的局部學習。反向傳播衍生的局部學習算法是一類試圖模仿反向傳播的數學特性。不同于傳統的反向傳播算法,它涉及通過整個網絡反向傳播誤差信號,反向傳播導出的局部學習算法基于使用反向傳播計算的局部誤差梯度來更新突觸權重。這種方法計算效率高,并允許在線學習,使其適合于訓練數據不斷到達的應用。

反向傳播衍生的局部學習算法的一個突出例子是反饋校準(FA e Feedback Alignment ()算法70,71這用固定的隨機矩陣代替了反向傳播中使用的權重傳輸矩陣,允許誤差信號從直接連接傳播,從而避免了對反向傳播誤差信號的需要。反饋校準的簡單數學描述如下:假設wout是連接網絡最后一層到輸出的權重矩陣,而win是連接輸入到第一層的權重矩陣。在反饋對準中,誤差信號使用固定隨機矩陣B從輸出傳播到輸入,而不是wout的轉置。然后,使用輸入和誤差信號的乘積來計算權重更新,win = ηxz其中x是輸入,η是學習速率,z是通過網絡反向傳播的誤差信號,類似于傳統的反向傳播。

直接反饋校準71(DFA)通過將輸出層誤差直接連接到每個隱藏層,與FA相比簡化了權重傳輸鏈。符號對稱(SS)算法類似于FA,除了反饋權重對稱地共享符號。雖然FA在MNIST和CIFAR這樣的小數據集上表現出了令人印象深刻的結果,但它們在ImageNet這樣的大數據集上的性能通常是次優的72。另一方面,最近的研究表明,即使在大規模數據集上,SS算法也能夠獲得與反向傳播算法相當的性能73。

資格傳播59,74 (e-prop)擴展了脈沖神經網絡反饋校準的思想,結合了傳統誤差反向傳播和生物學似是而非的學習規則的優點,如脈沖定時相關的可塑性(STDP)。對于每個突觸,e-prop算法計算并維護一個合格軌跡

輸出神經元的誤差,通過使用對稱的

反饋權重或通過使用固定的反饋權重,如在反饋校準中。e-prop的一個可能的缺點是,它需要在每個時間點的實時誤差信號Lt,因為它只考慮過去的事件,而對未來的誤差視而不見。特別是,它不能從超出個人時間范圍的延遲誤差信號中學習神經元(包括短期適應)59與加強法和節點擾動法相反。

在本參考文獻的工作中75,76 。基于最近遺傳學發現的突觸學習規范理論77神經元信號傳遞結構的研究。他們提出,神經元通過細胞類型特異性的局部神經調節將它們對學習結果的貢獻傳達給附近的神經元,并且神經元類型多樣性和神經元類型特異性的局部神經調節可能是生物學分分配難題的關鍵部分。在這項工作中,作者建立了一個基于eligibility propagation的簡化計算模型來探索這一理論,并表明他們的模型,包括多巴胺樣時間差和神經肽樣局部調節信號,導致了對先前方法如e-prop和反饋校準的改進。

泛化屬性 深度學習中的泛化屬性技術在理解其學習算法的泛化方面取得了巨大的進步。一個特別有用的發現是平坦的極小值傾向于導致更好的一般化78。這意味著,給定參數空間(突觸權重值)中的擾動?,在更窄的最小值附近觀察到更顯著的性能下降。在參數空間中找到更平坦的最小值的學習算法最終導致更好的泛化。

最近的工作已經探索了由(大腦啟發的)反向傳播導出的局部學習規則所表現出的泛化特性79。與通過時間的反向傳播相比,反向傳播導出的局部學習規則表現出更差和更多變量的泛化,由于梯度近似與真實梯度不太一致,這種泛化不能通過縮放步長來改善。雖然優化過程的局部近似比它們的完整對應物具有更差的泛化屬性可能不足為奇,但這項工作為提出新的問題打開了大門,即設計大腦啟發的學習算法的最佳方法是什么。這也提出了一個問題,即反向傳播衍生的局部學習規則是否值得探索,因為它們從根本上來說將表現出低于標準的一般化。

總之,雖然反向傳播衍生的局部學習規則作為設計大腦啟發的學習算法的一種有前途的方法出現,但它們具有必須解決的局限性。這些算法的通用性差,突出了進一步研究的需要,以提高它們的性能,并探索替代的大腦啟發的學習規則。這也提出了一個問題,即反向傳播衍生的局部學習規則是否值得探索,因為它們基本上會表現出低于標準的泛化能力。

元優化可塑性規則。元優化的可塑性規則在錯誤驅動的全局學習和大腦啟發的局部學習之間提供了有效的平衡。元學習可以被定義為自動搜索學習算法本身,而不是依賴人類工程學為了描述一個學習算法,采用了一個尋找該算法的搜索過程80。元學習的思想自然延伸到大腦啟發的學習算法,這樣大腦啟發的學習機制本身可以被優化,從而允許發現更有效的學習,而無需手動調整規則。在接下來的部分,我們將從可微分優化的突觸可塑性規則開始,討論這一研究的各個方面。

可微分可塑性 在文獻中這一原理的一個實例是可微分可塑性,它是一個框架,專注于通過梯度下降優化神經網絡中的突觸可塑性規則81,82。在這些規則中,塑性規則以這樣的方式描述,即控制其動力學的參數是可微的,允許反向傳播用于塑性規則參數的元優化(例如,簡單赫比規則中的η項或STDP規則中的A+項)。這允許權重動態精確地解決需要在執行時間期間優化權重的任務,這被稱為壽命內學習。

可微分的可塑性規則也能夠對神經調節動力學進行可微分的優化60,82。這個框架包括神經調制的兩個主要變體:全局神經調制,其中權重變化的方向和幅度由網絡輸出相關的全局參數控制,以及追溯神經調制,其中過去活動的效果由短時間窗口內的多巴胺樣信號調制。這是通過使用資格跟蹤來實現的,資格跟蹤用于跟蹤哪些突觸促成了最近的活動,多巴胺信號調節這些跟蹤到實際塑性變化的轉換。

涉及可微可塑性的方法在順序聯想任務的廣泛應用中得到了改進83熟悉度檢測84和機器人噪音適應60。這種方法也被用來優化短期塑性規則84,85其在強化和時間監督學習問題中表現出改進的性能。雖然這些方法顯示出很大的前景,但不同的可塑性方法需要大量的內存,因為反向傳播用于隨時間優化每個突觸的多個參數。這些方法的實際進展可能需要參數共享86 或者更節省內存的反向傳播形式87。

脈沖神經元的可塑性 最近在通過具有替代梯度的脈沖神經元的不可微分部分反向傳播方面的進展已經允許使用不同的可塑性來優化脈沖神經網絡中的可塑性規則60。參考文獻。61這種優化范例的能力通過使用可微分的尖峰時間相關的可塑性規則來展示,以在在線單次連續學習問題和在線單次圖像類別識別問題上實現“學會學習”。類似的方法被用來優化第三個因子信號使用e-prop的梯度近似作為塑性規則,引入e-prop的元優化形式88。由進化調整的遞歸神經網絡也可以用于元優化的學習規則。進化神經單元89 (枚舉)引入門控結構,控制如何處理、存儲輸入和更新動態參數。這項工作證明了單個神經元體細胞和突觸間隔模型的進化,并表明神經元網絡可以學習解決T-迷宮環境任務,獨立發現脈沖動力學和強化型學習規則。

Plasticity in RNNs and Transformers 獨立于旨在使用更新規則學習可塑性的研究,變壓器最近被證明是良好的終生學習者5,90,91。情境學習的過程不是通過更新突觸權重來進行的,而是純粹在網絡激活中進行的。像變形金剛一樣,這個過程也可能發生在遞歸神經網絡中92。雖然情境學習似乎是一種不同于突觸可塑性的機制,但這些過程已被證明表現出很強的相關性。文獻中討論的一個令人興奮的聯系是認識到元學習者的參數共享經常導致將激活解釋為權重93。這表明,雖然這些模型可能具有固定的權重,但它們表現出與具有塑料權重的模型相同的學習能力。另一個聯系是,變形金剛中的自我關注包括外部和內部產品,它們可以被轉換為學習到的重量更新94甚至可以實現梯度下降95,96。

進化和遺傳元優化 很像可微塑性,進化和遺傳算法已被用于優化各種應用的塑性規則的參數97,包括:適應機器人系統的肢體損傷98,99。最近的工作還通過使用笛卡爾遺傳程序優化了塑性系數和塑性規則方程100,提出了一種基于正在解決的特定任務來發現生物學上的可塑性規則的自動化方法。在這些方法中,遺傳或進化優化過程類似于微分過程,使得它在外環過程中優化可塑性參數,而可塑性規則在內環過程中優化回報。這些方法是有吸引力的,因為與可微分方法相比,它們具有低得多的內存足跡,因為它們不需要隨時間反向傳播誤差。然而,雖然內存效率高,但它們通常需要大量數據才能獲得與基于梯度的方法相當的性能101。

自我參照元學習 突觸可塑性有兩個層次的學習,元學習者和發現的學習規則,自我參照元學習102,103擴展了這種層次結構。在可塑性方法中,僅更新網絡參數的子集(例如突觸權重),而元學習更新規則在元優化后保持固定。

圖3 前饋神經網絡通過向下游傳播輸入信息來計算給定輸入的輸出。輸出的精確值由突觸系數的權重決定。為了在給定輸入的情況下提高任務的輸出,突觸權重被修改。突觸可塑性算法*代表了一種計算模型,它模擬了大腦根據神經元的活動來加強或削弱突觸(神經元之間的連接)的能力,從而促進學習和記憶的形成。三因素可塑性*指的是一種突觸可塑性模型,其中神經連接強度的變化由三個因素決定:突觸前活動、突觸后活動和調節信號,促進了更細致和適應性更強的學習過程。反饋校準算法*是一種學習技術,其中使用隨機的、固定的反饋連接而不是對稱的權重矩陣來訓練人工神經網絡,證明了成功的學習可以在沒有精確的反向傳播的情況下發生。反向傳播是機器學習和人工智能中的基本算法,用于通過計算損失函數相對于網絡中權重的梯度來訓練神經網絡

自引用架構使神經網絡能夠以遞歸方式修改其所有參數。因此,學習者也可以修改元學習者。這在原則上允許任意級別的學習、元學習、元元學習等。一些方法對這種系統的參數初始化進行元學習102,104。找到這個初始化仍然需要一個硬連線的元學習者。在其他作品中,網絡自我修改的方式甚至消除了這種元學習者103,105。有時,待發現的學習規則具有結構搜索空間限制,這簡化了自我改進,其中基于梯度的優化器可以發現自身106或者進化算法可以優化自身107。盡管它們有所不同,但突觸可塑性和自我參照方法都旨在實現神經網絡的自我改進和適應。

元優化學習規則的泛化 所發現的學習規則推廣到多種任務的范圍是一個重要的未決問題——特別是,它們何時應該取代人工導出的通用學習規則,如反向傳播?對這些方法提出挑戰的一個特別觀察是,當搜索空間很大并且對學習機制幾乎沒有限制時92,108,109概括變得更加困難。然而,為了修正這一點,在變量共享元學習93靈活的學習規則由參數共享的遞歸神經網絡來參數化,該網絡局部交換信息以實現學習算法,該算法概括了在元優化期間沒有看到的分類問題。對于強化學習算法的發現也顯示了類似的結果性110。

腦啟發學習的應用

神經形態計算 神經形態計算代表了計算系統設計中的范式轉變,其目標是創建模擬生物大腦的功能結構的硬件42,111,112。這種方法旨在開發人工神經網絡,不僅復制大腦的學習能力,還復制其能量效率和固有的并行性。神經形態計算機系統通常包含專門的硬件,如神經形態芯片或憶阻設備,以實現大腦啟發的學習算法的有效執行112。這些系統有可能極大地提高機器學習應用程序的性能,特別是在邊緣計算和實時處理場景中。

神經形態計算的一個關鍵方面在于開發專門的硬件體系結構,這些硬件體系結構有助于實現脈沖神經網絡,這更類似于生物神經元的信息處理機制。神經形態系統基于大腦啟發的局部學習原理運行,這使得它們能夠實現高能效、低延遲處理和抗噪聲的魯棒性,這對于現實世界的應用來說是至關重要的113。腦啟發學習技術與神經形態硬件的集成對于這項技術的成功應用至關重要。

近年來,神經形態計算的進步導致了各種平臺的發展,如英特爾的Loihi113,IBM的TrueNorth115,和SpiNNaker116,它為實現SNNs和大腦啟發的學習算法提供了專門的硬件架構。這些平臺為進一步探索神經計算系統提供了基礎,使研究人員能夠設計、模擬和評估新的神經網絡結構和學習規則。隨著神經形態計算的不斷進步,預計它將在人工智能的未來發揮關鍵作用,推動創新,并實現更高效、多功能和生物合理的學習系統的開發。

機器人學習 神經網絡中大腦啟發的學習有可能通過啟用機器人來克服機器人領域中目前存在的許多挑戰以更靈活的方式學習和適應他們的環境117,118。傳統的機器人系統依賴于預編程的行為,這些行為在適應不斷變化的條件的能力方面受到限制。相比之下,正如我們在這篇綜述中所展示的,神經網絡可以通過基于它們接收的數據調整它們的內部參數來訓練以適應新的情況。

由于它們與機器人的天然關系,大腦啟發的學習算法在機器人領域有著悠久的歷史117。為此,突觸可塑性規則已被引入,以適應機器人的行為領域的變化,如運動增益和粗糙的地形60,119-121 以及用于避障122-124和鉸接(臂)控制125,126。大腦啟發的學習規則也被用來探索學習如何在昆蟲大腦中發生,使用機器人系統作為具體化的媒介127-130。

深度強化學習(DRL)代表了大腦啟發的學習算法的重大成功,它將神經網絡的優勢與大腦中的強化學習理論相結合,以創建能夠通過與環境交互來學習復雜行為的自主代理131-133。通過利用模擬多巴胺神經元活動的獎勵驅動的學習過程134與最小化例如分類或回歸誤差相反,DRL算法指導機器人學習最佳策略以實現它們的目標,即使在高度動態和不確定的環境中135,136。這種強大的方法已經在各種機器人應用中得到證實,包括靈巧操作、機器人移動137,以及多智能體協調138。

終身學習和在線學習 終身學習和在線學習是腦啟發學習在人工智能中的重要應用,因為它們使系統能夠適應不斷變化的環境并不斷獲得新的技能和知識14。相比之下,傳統的機器學習方法通常在固定的數據集上訓練,缺乏適應新信息或變化環境的能力。成熟的大腦是終身學習的一個不可思議的媒介,因為它在一生中不斷學習,同時保持相對固定的大小139。正如這篇綜述所表明的那樣,與大腦類似,被賦予大腦啟發的學習機制的神經網絡可以被訓練來不斷學習和適應,隨著時間的推移提高它們的性能。

使人工系統能夠展示這種能力的腦啟發學習算法的發展有可能顯著增強它們的性能和能力,并對各種應用具有廣泛的影響。這些應用在數據缺乏或收集費用昂貴的情況下特別有用,例如在機器人領域140 或者自治系統141因為它允許系統實時學習和適應,而不是在學習發生之前需要收集和處理大量數據。

終身學習領域中的一個主要目標是緩解與人工神經網絡中持續應用反向傳播相關的一個主要問題,即一種現象被稱為災難性遺忘13。災難性遺忘是指人工神經網絡在學習新數據時突然忘記以前學習過的信息的傾向。發生這種情況是因為最初為早期任務優化的網絡中的權重被徹底改變以適應新的學習,從而擦除或覆蓋了先前的信息。這是因為反向傳播算法在促進新的學習的同時,并不固有地考慮保存先前獲取的信息的需要。幾十年來,解決這個問題一直是人工智能領域的一個重大障礙。我們假設,通過使用模擬大腦動態學習機制的大腦啟發學習算法,我們可能能夠利用生物有機體固有的熟練解決問題的策略。

了解大腦 人工智能和神經科學的世界已經從彼此身上受益匪淺。專門為某些任務定制的深度神經網絡在處理空間信息的方式上與人腦有著驚人的相似之處142-144 和視覺145-147 信息。這種重疊暗示了人工神經網絡(ann)作為有用模型的潛力,有助于我們更好地理解大腦的復雜機制。一個被稱為神經連接主義者研究計劃的新運動148 體現了這種結合的方法,使用人工神經網絡作為計算語言來形成和測試關于大腦如何計算的想法。這種觀點匯集了不同的研究成果,提供了一個通用的計算框架和工具來測試關于大腦的特定理論。

雖然這篇綜述強調了一系列模擬大腦功能的算法,但我們仍然有大量的工作要做,以完全掌握學習在大腦中實際上是如何發生的。使用反向傳播和類似反向傳播的局部學習規則來訓練大型神經網絡可以為大腦功能建模提供良好的起點。人們進行了大量卓有成效的研究,以了解大腦中哪些過程的運作與反向傳播相似64,導致神經科學的新觀點和理論。盡管目前形式的反向傳播可能不會在大腦中發生,但盡管學習機制如此不同,大腦可能會發展出與人工神經網絡相似的內部表示,這一想法是一個令人興奮的開放性問題,可能會導致對大腦和人工智能的更深入理解。

探索現在正從靜態網絡動力學擴展到揭示時間功能的網絡,就像大腦一樣。隨著我們在持續和終身學習中進一步開發算法,我們的模型需要更緊密地反映自然界中觀察到的學習機制,這一點可能會變得很清楚。這種焦點的轉移要求將局部學習規則——那些反映大腦自身方法的規則——整合到人工神經網絡中。

我們確信,在人工神經網絡中采用更具生物學真實性的學習規則不僅會產生上述益處,而且還會為神經科學研究者指明正確的方向..換句話說,這是一個有雙重好處的策略:它不僅有望振奮工程上的創新,但它也讓我們更接近解開大腦中錯綜復雜的過程。有了更現實的模型,我們可以從人工智能的新視角更深入地探索大腦計算的復雜性。

結論

在這篇綜述中,我們研究了將更符合生物學原理的學習機制整合到人工神經網絡中。這種進一步的整合對神經科學和人工智能來說都是重要的一步。這與人工智能在大型語言模型和嵌入式系統方面取得的巨大進步尤其相關,這迫切需要更節能的學習和執行方法。此外,雖然人工神經網絡在這些應用方面取得了很大進展,但它們像生物大腦一樣適應的能力仍然有很大的局限性,我們認為這是大腦啟發學習機制的主要應用。

當我們為神經科學和人工智能之間更詳細的大腦啟發的學習算法的未來合作制定戰略時,重要的是要承認神經科學對人工智能的過去影響很少是關于現成的解決方案對機器的直接應用149。更常見的是,神經科學通過提出關于動物學習和智力方面的有趣的算法級問題來刺激人工智能研究人員。它為支持學習的重要機制提供了初步的指導。我們的觀點是,通過利用來自神經科學的觀點,我們可以大大加速人工神經網絡中使用的學習機制的進步。同樣,在人工智能中使用類腦學習算法的實驗可以加速我們對神經科學的理解。

文獻

1.運動學習與發展的時間尺度。心理評論108,57 (2001)。

2.前額葉皮層的“活動-沉默”工作記憶:一個動態編碼框架。認知科學趨勢19,394–405(2015)。

3.Gerstner,w .,Lehmann,m .,Liakoni,v .,Corneil,D. & Brea,j .行為時間尺度上的資格痕跡和可塑性:新希伯來人三因素學習規則的實驗支持。神經回路前沿12,53 (2018)。

4.科學文本的預訓練語言模型。arXiv預印本arXiv:1903.10676 (2019)。

5.語言模型是一次性學習者。神經信息處理系統進展33,1877–1901(2020)。

文章轉自微信公眾號@算法進階

上一篇:

深度學習中優化技術總結

下一篇:

小樣本學習在深度學習的效果(綜述)
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費