
墨西哥支付方式:是什么?
所以它并不是僅僅對(duì)某個(gè)特定的例子做出反應(yīng),也不是僅僅對(duì)他的面部特征做出反應(yīng),而是對(duì)這個(gè)整體概念進(jìn)行了抽象處理,這個(gè)現(xiàn)象也和 Quiroga 等人關(guān)于 Halle Berry neuron 的研究結(jié)果非常相似。
如果這種普遍性現(xiàn)象確實(shí)存在,即人工神經(jīng)網(wǎng)絡(luò)和生物神經(jīng)網(wǎng)絡(luò)中存在類似的特征,會(huì)是一個(gè)特別重要的科學(xué)研究成果。這個(gè)現(xiàn)象表明梯度下降算法某種程度上找到了問(wèn)題的正確分解方式,而很多系統(tǒng)和不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)最終都會(huì)收斂到這種分解方式上。換句話說(shuō),現(xiàn)實(shí)中可能確實(shí)存在一種非常合理的抽象方式來(lái)切分問(wèn)題,以至于許多不同的系統(tǒng)最終都會(huì)抽象收斂到相似的概念上。但這些都只是基于我們觀察到的現(xiàn)象做出的一些簡(jiǎn)單推測(cè),還沒(méi)有足夠的證據(jù)可以支撐。
Lex Fridman:所以有可能為了更好地理解神經(jīng)網(wǎng)絡(luò)內(nèi)部,我們可以從這些普遍性特征入手?
Chris Olah:是的,當(dāng)我們發(fā)現(xiàn)某些特征會(huì)在不同的神經(jīng)網(wǎng)絡(luò)中反復(fù)出現(xiàn)時(shí),背后一定存在某種必然性。
Lex Fridman:你在 2020 年發(fā)表的 Zoom In: An Introduction to Circuits 中首次對(duì)我們剛才提到的這些特征和神經(jīng)網(wǎng)絡(luò)做了描述,可以更詳細(xì)解釋一下嗎?
Chris Olah:我可以先描述一些現(xiàn)象來(lái)理解這些特征和神經(jīng)網(wǎng)絡(luò)。
我用了 5 年左右的時(shí)間來(lái)研究 Inception V1 這個(gè)模型,這是一個(gè)計(jì)算機(jī)視覺(jué)模型,在 2015 年的時(shí)候 Inception V1 算是最先進(jìn)的技術(shù),這個(gè)模型大約有 1 萬(wàn)個(gè)神經(jīng)元,我花了很多時(shí)間研究其中的每一個(gè)神經(jīng)元,有個(gè)很有趣的發(fā)現(xiàn):雖然還有很多神經(jīng)元的功能很難解釋,但在 Inception V1 中,確實(shí)存在相當(dāng)多具有明確可解釋含義的神經(jīng)元。
比如,我們發(fā)現(xiàn)有些神經(jīng)元確實(shí)專門(mén)用于檢測(cè)曲線,有些專門(mén)檢測(cè)汽車,還有一些分別負(fù)責(zé)識(shí)別車輪、車窗。關(guān)于狗的特征識(shí)別就更有意思了:有些神經(jīng)元專門(mén)識(shí)別狗的耷拉耳朵,有些識(shí)別向右側(cè)著的狗的長(zhǎng)鼻子,有些則識(shí)別向左側(cè)著的狗的長(zhǎng)鼻子,還有一些負(fù)責(zé)識(shí)別不同類型的狗毛。
在這個(gè)模型中,我們還發(fā)現(xiàn)了一系列有趣的特征檢測(cè)機(jī)制:邊緣檢測(cè)機(jī)制、線條檢測(cè)機(jī)制、顏色對(duì)比檢測(cè)機(jī)制,還有一些我們稱之為“高低頻檢測(cè)機(jī)制”的精妙結(jié)構(gòu)。整個(gè)研究過(guò)程中,我感覺(jué)自己就像一個(gè)生物學(xué)家,仿佛在探索一個(gè)全新的蛋白質(zhì)世界,發(fā)現(xiàn)各種相互作用的蛋白質(zhì)。
理解這些模型的一種方式是從單個(gè)神經(jīng)元入手。比如“這是一個(gè)檢測(cè)狗的神經(jīng)元,那是一個(gè)檢測(cè)汽車的神經(jīng)元。”,我們還可以進(jìn)一步研究這些神經(jīng)元是如何相互連接的,舉個(gè)例子,當(dāng)我們研究一個(gè)汽車檢測(cè)神經(jīng)元時(shí),會(huì)問(wèn):“這個(gè)神經(jīng)元是如何構(gòu)建的?”,緊接著就會(huì)發(fā)現(xiàn),在它的上一層中,它和窗戶檢測(cè)器、輪子檢測(cè)器和車身檢測(cè)器都有很強(qiáng)的連接。比如,它會(huì)尋找位于上方的窗戶、下方的輪子,以及遍布各處(尤其是下半部分)的車身鍍鉻部件。這些特征組合在一起,就構(gòu)成了一個(gè)“車”的抽象形象。
我們?cè)谇懊嫣岬剑?strong>機(jī)制可解釋性研究的目標(biāo)是找出“模型運(yùn)行的具體算法是什么”,現(xiàn)在,我們只需要查看神經(jīng)網(wǎng)絡(luò)的 weights,就能讀出一個(gè)檢測(cè)汽車的“配方”。這個(gè)配方也許很簡(jiǎn)單很粗糙,但確實(shí)存在,我們把這種連接稱為電路(circuits)。
不過(guò)問(wèn)題在于,并非所有的神經(jīng)元都是可解釋的。有時(shí)候我們需要分析的不是單個(gè)神經(jīng)元,而是多個(gè)神經(jīng)元的組合。比如,有時(shí)候并不是某個(gè)單一的神經(jīng)元來(lái)負(fù)責(zé)表示“汽車”這個(gè)概念,模型會(huì)把一些汽車的特征信息藏在“狗”相關(guān)概念的檢測(cè)單元中。
神經(jīng)網(wǎng)絡(luò)之所以這么做可能是因?yàn)樵谶@個(gè)階段它不想在處理汽車這個(gè)概念時(shí)做太多重復(fù)工作。這個(gè)發(fā)現(xiàn)也讓我們意識(shí)到,我們不能再以具體某個(gè)概念對(duì)應(yīng)特定神經(jīng)元的思路來(lái)理解不同神經(jīng)元的功能,比如不太可能 100% 的情況是“車”和“狗”分別對(duì)應(yīng)一個(gè)具體的神經(jīng)元,我們需要一個(gè)新的概念來(lái)描述前面的這種現(xiàn)象,所以我們采用了“特征( feature)”這個(gè)概念。
Lex Fridman:電路(circuits)是什么?
Chris Olah:電路就是這些 features 之間的連接。就像我們前面說(shuō)的,當(dāng)一個(gè)汽車檢測(cè)器與窗戶檢測(cè)器和輪子檢測(cè)器相連,并且尋找底部的輪子和頂部的窗戶時(shí),這就構(gòu)成了一個(gè)神經(jīng)網(wǎng)絡(luò)。簡(jiǎn)單來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)就是通過(guò) weights 連接起來(lái)的 features 的集合,它們實(shí)現(xiàn)了具體的算法。通過(guò)研究神經(jīng)網(wǎng)絡(luò),我們就能理解這些特征是如何被使用的,如何被構(gòu)建的,以及它們是如何相互連接的。
這里的核心假設(shè)是我們所說(shuō)的“線性表示假設(shè)(linear representation hypothesis)”。以汽車檢測(cè)器為例,它的激活值越高,就意味著模型越確信畫(huà)面中存在一輛汽車。或者說(shuō),如果是多個(gè)神經(jīng)元組合來(lái)表示“汽車”這個(gè)概念,這種組合的激活程度越高,就表示模型越確信看到了一輛汽車。
但也并不是只有這一種路徑。我們可以也想象另一種情況:一個(gè)汽車檢測(cè)神經(jīng)元的激活值在 1 到 2 之間時(shí)代表一種情況,但在 3 到 4 之間時(shí)卻表示完全不同的東西。這就是一種非線性表示。理論上,模型是可以這樣工作的。但我認(rèn)為這種方式效率不高,因?yàn)檫@種計(jì)算方式的實(shí)現(xiàn)其實(shí)相當(dāng)麻煩。
特征和電路的分析框架是建立在線性代表的假設(shè)前提上的。如果一個(gè)神經(jīng)元或一組神經(jīng)元的激活程度越高,就意味著它們對(duì)特定目標(biāo)的檢測(cè)信心越強(qiáng)。這樣一來(lái),這些特征之間的權(quán)重就有了非常清晰的解釋。這是整個(gè)框架的核心。
我們還可以跳出神經(jīng)元的框架來(lái)討論這件事。我可以用 Word2Vec 來(lái)具體解釋。
Lex Fridman:什么是 Word2Vec?
Chris Olah:簡(jiǎn)單來(lái)說(shuō)就是“king – man + woman = queen”,這個(gè)是 Tomas Mikolov 等人在 Word2Vec 研究中的一個(gè)很著名的結(jié)果。Word2Vec 中之所以可以做這樣的“運(yùn)算”是因?yàn)榇嬖谝粋€(gè)線性表示。
線性表示假設(shè)的核心思想是:在向量空間中,不同的方向都承載著特定的含義,通過(guò)將不同方向的向量相加,我們就能表示出各種概念。這可能就是神經(jīng)網(wǎng)絡(luò)內(nèi)部最基本的運(yùn)作機(jī)制。Mikolov 在自己的論文中具體探討了這一點(diǎn),也由此發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:我們可以用詞向量做“數(shù)學(xué)運(yùn)算”。
Tomas Mikolov,捷克計(jì)算機(jī)科學(xué)家,曾在 Google 工作期間提出了革命性的 Word2Vec 技術(shù),其研究徹底改變了自然語(yǔ)言處理領(lǐng)域的詞向量表示方法。Mikolov 在 2013 年發(fā)表的 Word2Vec 論文提出了一種革命性的方法,通過(guò)神經(jīng)網(wǎng)絡(luò)把單詞轉(zhuǎn)換成向量,使得語(yǔ)義相近的詞在向量空間中的位置也相近。這個(gè)方法最令人驚訝的發(fā)現(xiàn)是,詞向量之間可以進(jìn)行數(shù)學(xué)運(yùn)算。
比如我們就可以用“king”這個(gè)詞的向量,減去“man”的向量,再加上“woman”的向量改變性別屬性,最終得到的向量會(huì)非常接近“queen”這個(gè)詞的向量。類似的,比如用 sushi – Japan + Italy 就會(huì)得到 pizza。
這就是線性表示假設(shè)的核心。我們可以把它純粹理解為向量空間的抽象概念,也可以把它理解為神經(jīng)元激活模式的一種表現(xiàn),但最本質(zhì)的特點(diǎn)是:空間中的方向都具有實(shí)際的語(yǔ)義含義。而且這個(gè)概念最關(guān)鍵的特性在于,這些概念可以疊加:我們可以獨(dú)立地修改代表不同概念的不同的向量,比如性別、國(guó)別等,然后把這些向量疊加在一起,又形成一個(gè)新的完整的概念。
Lex Fridman:線性假設(shè)會(huì)隨著模型 scaling up 仍舊成立嗎?
Chris Olah:到目前為止,我看到的所有現(xiàn)象都符合這個(gè)假設(shè)。理論上我們完全可以設(shè)計(jì)出一種神經(jīng)網(wǎng)絡(luò),通過(guò)設(shè)定特定的 weights 使它不具有線性表示的特性,我們也不會(huì)基于線性表示的特征去理解這種神經(jīng)網(wǎng)絡(luò)。但我觀察過(guò)的每個(gè)自然形成的神經(jīng)網(wǎng)絡(luò)都具有這種線性表示的特性。
最近也有一篇論文在探索這個(gè)理論的邊界,比如有些研究在研究多維特征,它們發(fā)現(xiàn)與其說(shuō)是單一的方向,不如說(shuō)是一組相關(guān)的、連續(xù)變化的方向的集合。不過(guò)在我看來(lái)仍屬于線性表示的范疇。也有一些論文提出在一些規(guī)模很小的模型中可能會(huì)出現(xiàn)非線性表征,但我認(rèn)為這個(gè)問(wèn)題現(xiàn)在還沒(méi)有定論。
所以到目前為止,我們看到的所有現(xiàn)象都與線性表示假設(shè)相符合,這其實(shí)很出人意料,目前有大量證據(jù)表明,這種線性表征至少在神經(jīng)網(wǎng)絡(luò)中是極其普遍的現(xiàn)象。
也可能會(huì)有人質(zhì)疑,認(rèn)為還不能完全確定這個(gè)理論是對(duì)的的時(shí)候,就把它應(yīng)用在神經(jīng)網(wǎng)絡(luò)研究中,是否會(huì)存在風(fēng)險(xiǎn)。但我認(rèn)為,認(rèn)真對(duì)待一個(gè)假設(shè)并將其推演到極限,本身就很有價(jià)值。
科學(xué)史上充滿了被證明是錯(cuò)誤的假設(shè)和理論,而正是通過(guò)把這些假設(shè)當(dāng)作前提并推演到極限,我們才獲得了很多重要發(fā)現(xiàn)。
Lex Fridman:疊加假設(shè)(superposition)也很有趣,可以給我們講講 嗎?
Chris Olah:剛剛我們討論了詞向量,比如可能會(huì)有一個(gè)向量對(duì)應(yīng)性別,另一個(gè)向量方向代表皇室身份,還有其他向量代表意大利、食物等這些概念。通常而言,這些詞嵌入的維度大約在 500 維或 1000 維左右,所以如果所有的向量都是嚴(yán)格正交的(即完全獨(dú)立的),那么我們最多只能有 500 個(gè)完全獨(dú)立的基本概念。
在這個(gè)限定下,我們必須先把單復(fù)數(shù)、名詞、動(dòng)詞、形容詞這些更基礎(chǔ)的語(yǔ)言概念放進(jìn)這 500 個(gè)范圍內(nèi),而不是具體的意大利、日本這些具體國(guó)家或者其他食物的名詞,我們首先需要確保更基礎(chǔ)的概念有對(duì)應(yīng)的解釋,否則世界上還有那么多國(guó)家都無(wú)法被表示出來(lái)。
由此就帶來(lái)一個(gè)問(wèn)題,模型要如何在線性表示假設(shè)成立的同時(shí),又表示出比其維度所能容納的概念更多的含義呢?這意味著,如果線性表征假說(shuō)是正確的,那一定還有更精妙的機(jī)制在起作用。
首先要介紹另一個(gè)重要的現(xiàn)象,多語(yǔ)義神經(jīng)元(polysemantic neurons)。在我們研究 Inception V1 時(shí),發(fā)現(xiàn)有些神經(jīng)元會(huì)對(duì)多個(gè)相關(guān)的事物產(chǎn)生反應(yīng),比如負(fù)責(zé)汽車檢測(cè)和負(fù)責(zé)曲線檢測(cè)的神經(jīng)元,這些神經(jīng)元可能對(duì)很多具有關(guān)聯(lián)的概念作出響應(yīng),更有趣的是,還有一些神經(jīng)元會(huì)對(duì)完全不相關(guān)的事物產(chǎn)生反應(yīng)。事實(shí)證明,即使是那些看起來(lái)很“純粹”的神經(jīng)元,如果我們觀察它們的弱激活狀態(tài)(比如最大激活值的 5%),我們會(huì)發(fā)現(xiàn)這些激活所對(duì)應(yīng)的現(xiàn)象與這些神經(jīng)元原本應(yīng)該檢測(cè)的目標(biāo)完全不同。
比如說(shuō),當(dāng)我們觀察一個(gè)負(fù)責(zé)曲線檢測(cè)的神經(jīng)元,查看它在 5%激活水平的情況時(shí),你可能會(huì)把這種狀態(tài)下的激活簡(jiǎn)單地解釋為“噪音”,但也有可能是這個(gè)神經(jīng)元在執(zhí)行其他的功能。這種現(xiàn)象是如何產(chǎn)生的呢?
數(shù)學(xué)中有一個(gè)概念叫做壓縮感知(compressed sensing):通常情況下,當(dāng)我們把一個(gè)高維空間的向量投影到低維空間后,我們無(wú)法再通過(guò)反投影的方式重建出原始的高維向量的,因?yàn)橥队斑^(guò)程中有些信息丟失了。這就像你無(wú)法對(duì)非矩形矩陣求逆,只能對(duì)矩形矩陣求逆。
但這個(gè)結(jié)論并不完全正確,因?yàn)槿绻@個(gè)高維向量是稀疏的(大部分分量都是零),那么在很大的概率下,我們還是可以從低維投影重建出原始的高維向量。疊加假設(shè)認(rèn)為這就是神經(jīng)網(wǎng)絡(luò)中發(fā)生的現(xiàn)象,尤其是詞嵌入(word embeddings)過(guò)程中。詞嵌入能夠同時(shí)讓這些向量具備實(shí)際的語(yǔ)義,這是通過(guò)利用兩個(gè)特點(diǎn)實(shí)現(xiàn)的:一是它們?cè)谙喈?dāng)高維的空間中運(yùn)作,二是這些概念所對(duì)應(yīng)的向量本身就是稀疏的。比如說(shuō),我們通常不會(huì)同時(shí)談?wù)撊毡竞鸵獯罄敲丛诖蠖鄶?shù)情況下,對(duì)很多概念或者說(shuō)詞語(yǔ)對(duì)應(yīng)的向量而言,“日本”和“意大利”這兩個(gè)概念對(duì)應(yīng)的值都是零,也就是說(shuō)它們對(duì)于某個(gè)特定概念而言都不存在。如果這個(gè)假說(shuō)是正確的,那么我們就可以在一個(gè)低維度的空間里編碼出這個(gè)空間維度容量的概念。
同樣地,當(dāng)我們討論神經(jīng)元時(shí),可以表達(dá)的概念數(shù)量也可以遠(yuǎn)超神經(jīng)元的數(shù)量。
這個(gè)假說(shuō)還引出了一個(gè)更重要的推論:神經(jīng)網(wǎng)絡(luò)中不僅是 representation 是這樣的,computation 可能也是,包括神經(jīng)元之間的所有連接。所以從某種意義上說(shuō),我們觀察到的神經(jīng)網(wǎng)絡(luò)可能只是某個(gè)更大的、更稀疏的神經(jīng)網(wǎng)絡(luò)的”投影”。
所以疊加(Superposition hypothesis) 的極端是,某種意義上真的存在一個(gè)“上層模型”,在那里神經(jīng)元是真正稀疏的,所有神經(jīng)元之間都是可解釋的,它們之間的權(quán)重構(gòu)成了真正稀疏的電路。這才是我們真正要研究的對(duì)象。而我們現(xiàn)在觀察到的只是這個(gè)對(duì)象投射出的影子,我們需要找到這個(gè)原始對(duì)象。
Lex Fridman:所以學(xué)習(xí)的過(guò)程就像是嘗試對(duì)這個(gè)上層的理想狀態(tài)下的模型進(jìn)行壓縮,并且不要丟失太多原始模型中的信息?
Chris Olah:是的,尋找如何有效擬合或者類似的路徑,梯度下降做的就是這件事,這意味著,梯度下降所做的看似只是在優(yōu)化一個(gè)密集的神經(jīng)網(wǎng)絡(luò),但它實(shí)際上也在地搜索那些可以被投影到現(xiàn)在這個(gè)低維空間的極度稀疏的模型。而這也就解釋了目前為什么會(huì)有大量研究在探索稀疏神經(jīng)網(wǎng)絡(luò),嘗試設(shè)計(jì)出 edges 和 activations 都稀疏的神經(jīng)網(wǎng)絡(luò)。
這些研究從理論上看非常合理,但實(shí)際效果并不理想,其中一個(gè)可能的原因是:神經(jīng)網(wǎng)絡(luò)在某種意義上已經(jīng)是稀疏的了。人們想要實(shí)現(xiàn)某種稀疏化,但實(shí)際上梯度下降在背后已經(jīng)比你能做的更高效地搜索了稀疏模型的空間,并學(xué)習(xí)到了最高效的稀疏模型。然后,它還找到了如何巧妙地將這個(gè)模型壓縮下來(lái),使其能在 GPU 上通過(guò)密集矩陣乘法進(jìn)行高效運(yùn)算,這個(gè)效果難以超越。
Lex Fridman:一個(gè)神經(jīng)網(wǎng)絡(luò)最多能塞進(jìn)多少個(gè)概念?
Chris Olah:取決于概念(對(duì)應(yīng)的向量的)的稀疏程度。概念的上限取決于參數(shù)的數(shù)量,因?yàn)槲覀冃枰獧?quán)重參數(shù)來(lái)連接這些概念,而這就構(gòu)成了一個(gè)上限。
壓縮感知理論和 Johnson-Lindenstrauss 定理給了我們一些很有參考價(jià)值的理論研究成果。這些理論告訴我們:當(dāng)你在一個(gè)向量空間中想要構(gòu)造近似正交的向量時(shí)(這正是我們這里需要的),你不必追求概念或特征之間的嚴(yán)格正交。換句話說(shuō),我們可以放松要求,只需要概念之間“差不多正交”就行,也就是讓它們之間的干擾保持在較小的范圍內(nèi)即可。
一旦我們?cè)O(shè)定了可以接受的余弦相似度閾值,那么可表示的概念數(shù)量實(shí)際上會(huì)隨神經(jīng)元數(shù)量呈指數(shù)增長(zhǎng)。所以,在某種程度上,神經(jīng)元數(shù)量可能都不是限制因素了。這方面已經(jīng)有一些還不錯(cuò)理論結(jié)果,實(shí)際情況可能比這更好。因?yàn)槔碚摷僭O(shè)情況下,任意特征都可能被隨機(jī)激活,但在實(shí)際中,特征之間是有某種相關(guān)結(jié)構(gòu)的,所以有一些特征更可能同時(shí)出現(xiàn),而另一些則不太可能同時(shí)出現(xiàn)。因此,我認(rèn)為神經(jīng)網(wǎng)絡(luò)在壓縮這些特征上表現(xiàn)得更好,以至于容量可能根本不是限制因素。
Lex Fridman:polysemanticity(多語(yǔ)義性)問(wèn)題在這里是如何體現(xiàn)的?
Chris Olah:多義性是我們觀察到的這樣一種現(xiàn)象:當(dāng)我們觀察很多個(gè)神經(jīng)元時(shí),發(fā)現(xiàn)單個(gè)神經(jīng)元并不是僅僅表示一個(gè)概念,相反,它會(huì)對(duì)一系列不相關(guān)的事物產(chǎn)生響應(yīng)。而疊加性可以被看作是解釋多義性現(xiàn)象的一個(gè)假說(shuō)。換句話說(shuō),多義性是一個(gè)被觀察到的現(xiàn)象,而疊加性則是一個(gè)可以解釋多義性及其他相關(guān)現(xiàn)象的理論假說(shuō)。
Lex Fridman:這些現(xiàn)象的存在都讓機(jī)制可解釋性的研究變得更加困難。
Chris Olah:是的。如果我們?cè)噲D從單個(gè)神經(jīng)元的角度去理解事物,而這些神經(jīng)元又具有多義性,就會(huì)遇到問(wèn)題。如果再考慮到 weights,即假設(shè)有 2 個(gè)神經(jīng)元都是多語(yǔ)義的,每個(gè)神經(jīng)元可能會(huì)對(duì) 3 個(gè)不同的特定概念起反應(yīng),并且這兩個(gè)神經(jīng)元之間還存在一個(gè) weight 連接,是不是就意味著可能會(huì)產(chǎn)生 9 種不同的交互結(jié)果?
這確實(shí)很奇怪,但還有一個(gè)更深層的原因,這與神經(jīng)網(wǎng)絡(luò)在高維空間中運(yùn)作的事實(shí)有關(guān)。我之前說(shuō)過(guò),我們的目標(biāo)是理解神經(jīng)網(wǎng)絡(luò)和它的運(yùn)作機(jī)制。
有人可能會(huì)認(rèn)為其實(shí)就是理解一個(gè)數(shù)學(xué)函數(shù)、并不難。我在早期做過(guò)的項(xiàng)目之一就是研究的是把二維空間映射到二維空間的神經(jīng)網(wǎng)絡(luò)。那個(gè)時(shí)候我們還可以用一種很直觀的方式來(lái)理解這種神經(jīng)網(wǎng)絡(luò),因?yàn)樗脑砗芟?bending manifolds(彎曲流形),為什么我們不能把這種方法推廣到更復(fù)雜的網(wǎng)絡(luò)呢?這是因?yàn)檫M(jìn)入更高維的空間時(shí),空間的體積會(huì)隨著輸入維度的增加呈指數(shù)級(jí)增長(zhǎng),所以很難去可視化這個(gè)空間。
因此我們需要用某種方式把這個(gè)問(wèn)題拆分開(kāi)來(lái),要把這個(gè)指數(shù)級(jí)的空間分解成一些可拿來(lái)獨(dú)立研究的東西,這些獨(dú)立的部分中的維度數(shù)量不能是指數(shù)級(jí)的。
這里的“獨(dú)立”非常關(guān)鍵,因?yàn)橹挥歇?dú)立性才能讓我們避免考慮所有指數(shù)級(jí)的組合情況, 而單義性、具有明確含義的特征,正是讓我們能夠獨(dú)立思考這些部分的關(guān)鍵。這就是我們需要可解釋的、單義特征( features)的根本原因。
Lex Fridman:你最近的研究目標(biāo)就是:如何從一個(gè)多義 features、以及由這些復(fù)雜 feature 構(gòu)成的神經(jīng)網(wǎng)絡(luò)中,提取出單義的 features?
Chris Olah:是的,我們觀測(cè)到了一些多義神經(jīng)元,如果假設(shè)認(rèn)為這是疊加性理論在起作用,那么實(shí)際上有一個(gè)已經(jīng)被廣泛認(rèn)可的技術(shù)可以處理這個(gè)問(wèn)題,這就是字典學(xué)習(xí)(dictionary learning)。
如果我們用到稀疏自編碼器這種很高效的、規(guī)范化的方式使用字典學(xué)習(xí)的路徑的話,就會(huì)有一些可解釋性的特征(features)出現(xiàn),這些特征在之前是看不到的。這也是是對(duì)線性表示和疊加理論的一個(gè)重要驗(yàn)證。
這就回到了我們之前說(shuō)的觀點(diǎn):我們不做任何預(yù)設(shè)。梯度下降比我們更聰明,所以我們不去預(yù)設(shè)可能存在的結(jié)果。?
Lex Fridman:你和團(tuán)隊(duì)去年發(fā)表了一篇 Towards Monosemanticity,這篇研究的核心發(fā)現(xiàn)是什么?
Chris Olah:Towards Monosemanticity 確實(shí)算是我們使用稀疏自編碼器(sparse autoencoders)以來(lái)取得的第一個(gè)真正的成功。盡管我們使用的是一個(gè)單層模型,但如果我們用字典學(xué)習(xí)訓(xùn)練它,我們可以得到很多高質(zhì)量的、可解釋的 features。典型的例子是阿拉伯語(yǔ) features、希伯來(lái)語(yǔ) features、Base64 features,這些例子經(jīng)過(guò)深入研究都證實(shí)了我們的預(yù)期。有一個(gè)有意思的現(xiàn)象是,如果我們訓(xùn)練兩個(gè)不同的模型,或者把同一個(gè)模型訓(xùn)練兩次、都進(jìn)行字典學(xué)習(xí)的話,兩個(gè)模型中會(huì)存在一些共性的特征。所以這個(gè)實(shí)驗(yàn)確實(shí)是很有意思的,我們發(fā)現(xiàn)了各式各樣的特征。不過(guò)這也僅僅證明了這個(gè)方法是有效的。必須要提到的還有一點(diǎn)是 Cunningham 團(tuán)隊(duì)在同一時(shí)期也有非常相似的研究結(jié)果。
現(xiàn)在回頭看,有段時(shí)間我一度認(rèn)為所有機(jī)制可解釋性的研究最終會(huì)全部指向一個(gè)結(jié)論,就是“解釋(nterpolate)”太難了,完全不可行。我們完全有理由認(rèn)為,因?yàn)榇嬖诏B加性的這樣我們無(wú)法處理的問(wèn)題,所以可解釋性研究就是很難。但事實(shí)并非如此,只需要一個(gè)很簡(jiǎn)單的技術(shù)就夠了。
Lex Fridman:能不能展開(kāi)說(shuō)說(shuō)這種研究方法最終得出的究竟是什么樣的特征(features) ?
Chris Olah:取決于研究的模型。模型規(guī)模越大,提取到的 features 就越復(fù)雜。單層模型中最常見(jiàn)的 features 是編程語(yǔ)言和自然語(yǔ)言。語(yǔ)言相關(guān)的很多 features 是關(guān)聯(lián)到具體上下文中的特定詞,比方說(shuō)“the”這個(gè)字眼。
理解這件事的關(guān)鍵在于,我們要很明確知道,the 的后面很可能會(huì)跟著一個(gè)名詞,這個(gè)就是 the 作為一個(gè) feature 本身所代表的意義。這些特征會(huì)在不同的上下文中被觸發(fā),比如在法律文檔中和數(shù)學(xué)文檔中就不一樣,舉個(gè)例子,在數(shù)學(xué)上下文中,當(dāng)出現(xiàn) the 時(shí),模型可能會(huì)預(yù)測(cè) vector(向量)或者 matrix(矩陣)這些數(shù)學(xué)詞匯,而在其他上下文中則會(huì)預(yù)測(cè)其他詞,這是很常見(jiàn)的現(xiàn)象。
Lex Fridman:這個(gè)過(guò)程也是基于人類的認(rèn)知來(lái)給研究觀察出來(lái)的特性貼標(biāo)簽、分類?
Chris Olah:是的,這種方法所做的其實(shí)就是幫助我們把在神經(jīng)網(wǎng)絡(luò)中觀測(cè)到的特征“展開(kāi)”。因?yàn)樾蛄谢╯erialization)是把一切都折疊到了一起,我們根本看不清楚。所以需要先展開(kāi),但即使展開(kāi)后,仍然要面對(duì)著一個(gè)非常復(fù)雜的東西,所以還需要做大量工作來(lái)理解這些特征是什么。
即使在這個(gè)單層模型中,關(guān)于 Unicode 的處理也有一些很有趣的現(xiàn)象。因?yàn)橛行┱Z(yǔ)言是用 Unicode 編碼的,而tokenizer 并不一定會(huì)為每個(gè) Unicode 字符都分配一個(gè)專門(mén)的 token。所以相反,你會(huì)看到這樣的模式:交替的詞符,每個(gè)詞符代表一個(gè) Unicode 字符的一半。”
我們會(huì)看到有不同的特征在相對(duì)的位置上被激活,就好像是在說(shuō):“好,我剛剛完成了一個(gè)字符,現(xiàn)在我需要去預(yù)測(cè)下一個(gè)前綴,然后當(dāng)我預(yù)測(cè)完了下一個(gè)前綴,又需要另一個(gè)特征在識(shí)別到前綴后預(yù)測(cè)一個(gè)合理的后綴。”這樣就會(huì)產(chǎn)生一個(gè)交替預(yù)測(cè)的循環(huán),所以這些交替層模型真的很有趣。
還有一點(diǎn),我們可能會(huì)下意識(shí)的認(rèn)為只存在一種 Base64 特征,但事實(shí)證明有很多種 Base64 特征。被英文文本編碼成的 Base64 與普通的 Bas64 編碼有著完全不同的分布特征。還有一些與分詞有關(guān)的特性也可以被模型利用。
Lex Fridman:打標(biāo)的任務(wù)難嗎?這個(gè)過(guò)程能夠使用 AI 來(lái)實(shí)現(xiàn)自動(dòng)化?
Chris Olah:這要看具體的特征內(nèi)容,也取決于我們對(duì) AI 的信任程度。現(xiàn)在有許多關(guān)于自動(dòng)化可解釋性的研工作,我覺(jué)得這也是一個(gè)很值得投入的方向,我們團(tuán)隊(duì)自己其實(shí)也做了不少自動(dòng)化可解釋性的工作,比如讓 Claude 去標(biāo)注我們發(fā)現(xiàn)的這些特征。
但 AI 經(jīng)常會(huì)只點(diǎn)出一些非常籠統(tǒng)的概念,雖然在一定程度上當(dāng)然是對(duì)的,但是又其實(shí)沒(méi)有真正抓住核心,這個(gè)問(wèn)題很普遍。
我個(gè)人對(duì)于自動(dòng)化的可解釋性其實(shí)還是存疑的,部分原因是我希望是人類來(lái)理解神經(jīng)網(wǎng)絡(luò)。如果是神經(jīng)網(wǎng)絡(luò)在幫人們理解它自己,可能會(huì)有點(diǎn)奇怪,類似于有些數(shù)學(xué)家討論的,“如果是計(jì)算機(jī)自動(dòng)證明的,那就不算數(shù)”,因?yàn)樗麄儫o(wú)法理解它。
這里還涉及到了一個(gè)信任的問(wèn)題,“when you’re writing a computer program, you have to trust your compiler(當(dāng)你在寫(xiě)程序時(shí),你必須信任你的編譯器)”。
如果編譯器里有惡意軟件,它就可能會(huì)把惡意軟件注入到下一個(gè)編譯器中,就會(huì)很麻煩。同樣,如果使用神經(jīng)網(wǎng)絡(luò)來(lái)驗(yàn)證其他神經(jīng)網(wǎng)絡(luò)的安全性,就需要考慮這個(gè)用來(lái)驗(yàn)證的神經(jīng)網(wǎng)絡(luò)的安全問(wèn)題,我們需要擔(dān)心它是否在某種方式上欺騙人類。我認(rèn)為現(xiàn)在這還不是一個(gè)大問(wèn)題,但從長(zhǎng)遠(yuǎn)來(lái)看,這個(gè)問(wèn)題很重要。
Lex Fridman:你們?cè)诮衲?5 月發(fā)表了?Scaling Monosematicity??,在這篇論文中提出了 sparse autoencoder 和 monosematicity analysis 兩個(gè)概念,如果要把它們應(yīng)用到 Claude 3 Sonnet 上,需要什么樣的條件?
Scaling Monosemanticity:Extracting Interpretable Features from Claude 3 Sonnet
Chris Olah:很多 GPU。
我們團(tuán)隊(duì)的 Tom Henighan 參與了最初的 scaling laws 的研究,他也從很早開(kāi)始就一直在關(guān)注這樣一個(gè)問(wèn)題:可解釋性機(jī)制是否也存在某種 scaling law?
所以當(dāng)我們這項(xiàng)研究取得了成功、sparse autoencoders 開(kāi)始運(yùn)行以后,他立即開(kāi)始關(guān)注如何擴(kuò)展 sparse autoencoders 的規(guī)模,以及這與基礎(chǔ)模型規(guī)模的擴(kuò)展之間的關(guān)系。事實(shí)證明這是一個(gè)非常好的思路,我們可以借此預(yù)測(cè),如果我們訓(xùn)練一個(gè)特定大小的 sparse autoencoders,應(yīng)該訓(xùn)練多少 token 等等這些問(wèn)題。
他的這個(gè)問(wèn)題其實(shí)對(duì)我們 scale up 我們的研究起到很大的作用,讓我們更容易的去訓(xùn)練真正的大型 sparse autoencoders。因?yàn)槲覀冞€不是在訓(xùn)練大模型,但訓(xùn)練這些真正的大型 sparse autoencoders 的成本也已經(jīng)開(kāi)始變得非常高了。
Lex Fridman:還需要考慮到怎么把一系列的工作任務(wù)分配到大量的 CPU 集群上來(lái)執(zhí)行?
Chris Olah:這個(gè)過(guò)程中肯定存在不小的工程挑戰(zhàn),所以有一個(gè)值得研究的問(wèn)題就是我們?cè)趺礃痈咝У貙?shí)現(xiàn) scale?然后還需要大量的工程來(lái)實(shí)現(xiàn)這種 scaling up。所以挑戰(zhàn)在于我們必須進(jìn)行合理規(guī)劃,我們必須仔細(xì)的考量很多因素。
總的來(lái)看我們的研究很成功。雖然可能有人會(huì)覺(jué)得,monosematicity analysis 和 sparse autoencoder 只在單層模型上有效,但單層模型是很特殊的。也許線性表示假設(shè)和疊加假設(shè)只能適用于理解單程模型,而不適用于理解更大的模型。
首先,Cunningham 的論文已經(jīng)某種程度上解決了這個(gè)問(wèn)題的一部分,并且證明事實(shí)并非如此。Scaling Monospecificity 這個(gè)研究的結(jié)果又提供了更重要的證據(jù)支持,表明即使是非常大的模型,比如當(dāng)時(shí)作為我們生產(chǎn)工具之一的 Claude 3 Sonnet,這一類非常大的模型也可以用線性表征進(jìn)行很好的解釋,用它們進(jìn)行字典學(xué)習(xí)的訓(xùn)練是非常有效的,隨著我們掌握更多 features,我們能解釋的內(nèi)容也越來(lái)越多,這是很積極的信號(hào)。
現(xiàn)在我們還能夠發(fā)現(xiàn)不少抽象特征,它們是多模態(tài)的,會(huì)對(duì)同一概念的圖像和文本內(nèi)容作出跨模態(tài)響應(yīng)。
Lex Fridman:可以舉幾個(gè)關(guān)于抽象特征(feature)的例子嗎?
Chris Olah:一個(gè)最典型的例子是我們發(fā)現(xiàn)了與代碼安全相關(guān)的安全漏洞和后門(mén)代碼的特征。這是兩種不同的特征(features)。如果我們強(qiáng)制激活安全漏洞特征,那 Claude 就會(huì)開(kāi)始在代碼中寫(xiě)入像 buffer overflows 這樣的安全漏洞,同時(shí)這個(gè)特征也會(huì)觸發(fā)其他類型的安全漏洞的響應(yīng),比如 disable SSL 這種明顯存在安全隱患的命令。
Lex Fridman:目前這個(gè)階段,可能是這些因?yàn)榫唧w的表現(xiàn)都以一種顯而易見(jiàn)的方式呈現(xiàn)出來(lái),所以模型可以做出有效的識(shí)別。但隨著發(fā)展,模型可能會(huì)能夠識(shí)別出更微妙的模式,比如欺騙或者 bug。
Chris Olah:好的,這里我想?yún)^(qū)分兩個(gè)事情:一個(gè)是特征或概念本身的復(fù)雜性,另一個(gè)是我們所觀察的例子的微妙程度。當(dāng)我們展示數(shù)據(jù)集中的頂級(jí)例子時(shí),這些都是能讓該 fearture 最強(qiáng)烈激活的極端例子。這并不意味著它不會(huì)對(duì)更微妙的事物產(chǎn)生反應(yīng)。比如那個(gè)不安全代碼 feature,它最強(qiáng)烈反應(yīng)的是那些明顯的禁用安全類型的操作,但它也會(huì)對(duì) buffer overflows 和更微妙的代碼安全漏洞產(chǎn)生反應(yīng)。這些特征都是多模態(tài)的。你可以問(wèn)它’什么樣的圖片會(huì)激活這個(gè)特征?’結(jié)果發(fā)現(xiàn),安全漏洞特征會(huì)對(duì)一些圖片產(chǎn)生反應(yīng),比如人們?cè)?Chrome 瀏覽器中點(diǎn)擊繼續(xù)訪問(wèn) SSL 證書(shū)可能有問(wèn)題的網(wǎng)站的圖片。
另一個(gè)很有趣的例子是 Bacdoors 代碼 feature,當(dāng)你激活它時(shí),Claude 會(huì)寫(xiě)入一個(gè)將數(shù)據(jù)轉(zhuǎn)儲(chǔ)到某個(gè)端口的 backdoor。但當(dāng)你問(wèn)’什么樣的圖片會(huì)激活后門(mén) Bacdoors feature?’,結(jié)果是那些帶有隱藏?cái)z像頭的設(shè)備的圖片。顯然有一整類人在銷售看起來(lái)無(wú)害但裝有隱藏?cái)z像頭的設(shè)備,他們的廣告中就展示了這些隱藏的攝像頭。這某種程度上可以說(shuō)是 Backdoor 的物理版本。這展示了這些概念是多么抽象,我覺(jué)得這真的很…雖然我為存在這樣一個(gè)銷售這類設(shè)備的市場(chǎng)感到難過(guò),但我對(duì)這個(gè) feature 這種抽象并識(shí)別的能力感到驚喜。
Lex Fridman:AI 安全領(lǐng)域,是否存在和欺騙和說(shuō)謊相關(guān)的特征 (features)?有沒(méi)有一種方法可能能夠檢測(cè)模型中的說(shuō)謊行為?因?yàn)殡S著模型變得越來(lái)越智能,一個(gè)潛在的重要威脅就是它可能會(huì)在自己的意圖或其他方面欺騙操作它的人。
Chris Olah:這方面我們還處于早期,雖然我們確實(shí)發(fā)現(xiàn)了很多與欺騙和說(shuō)謊相關(guān)的特征,其中一種就是會(huì)對(duì)人們的說(shuō)謊和欺騙行為作出響應(yīng),如果我們強(qiáng)制激活它,Claude 就會(huì)開(kāi)始對(duì)我們說(shuō)謊,所以肯定存在一個(gè)欺騙特征。還有其他的一些類似的 features,比如隱瞞信息和不回答問(wèn)題的 feature,關(guān)于追求權(quán)力的 feature 等。如果我們強(qiáng)制激活這些 feature,Claude 就會(huì)作出一些我們并不想看到的反饋。
Lex Fridman:在機(jī)制可解釋性領(lǐng)域,接下來(lái)有哪些會(huì)有哪些新的方向值得關(guān)注?
Chris Olah:值得關(guān)注的研究?jī)?nèi)容很多。
首先,我希望我們不僅可以理解 features,還可以用它們來(lái)理解模型的計(jì)算過(guò)程,對(duì)我來(lái)說(shuō)才是整個(gè)研究的最終極目標(biāo)。我們已經(jīng)發(fā)表了一部分研究成果,但我認(rèn)為這些研究仍然比較邊緣,我們?nèi)匀挥蟹浅6嗟墓ぷ饕觥_@些工作與我們稱之為 interference weights 的挑戰(zhàn)有關(guān):由于疊加(superpositon)的存在,如果我們只是簡(jiǎn)單的觀察 features 之間的連接關(guān)系,可能會(huì)發(fā)現(xiàn)一些在上層模型中并不存在的 weights,而這些只是 superstition 產(chǎn)生的假象。這是一個(gè)技術(shù)性挑戰(zhàn)。
但我們可以把 sparse autoencoders 想象成一個(gè)望遠(yuǎn)鏡,它讓我們觀測(cè)到所有這些外部的 features,隨著我們構(gòu)建起越來(lái)越強(qiáng)大的 sparse autoencoders,在字典學(xué)習(xí)方面做的越來(lái)越好,我們就能夠看到越來(lái)越多的“星星”,能夠放大觀察越來(lái)越小的“星星”。有大量證據(jù)表明我們現(xiàn)在所看到的仍然只是“星星”中非常小的一部分。在我們的人工神經(jīng)網(wǎng)絡(luò)宇宙中,可能還存在許多我們現(xiàn)階段無(wú)法觀察到的現(xiàn)象,可能我們永遠(yuǎn)也無(wú)法制造出足夠精細(xì)的工具來(lái)觀測(cè)他們,也可能有些現(xiàn)象根本無(wú)法從計(jì)算這個(gè)位階上實(shí)現(xiàn)對(duì)他們的觀察。這就像是早期天文學(xué)時(shí)期的“暗物質(zhì)”,當(dāng)時(shí)我們不清楚這些無(wú)法解釋的物質(zhì)是什么。我經(jīng)常思考這些“暗物質(zhì)”,試圖弄清楚我們是否能夠觀測(cè)到它,如果我們無(wú)法觀察到它,如果人工神經(jīng)網(wǎng)絡(luò)中有相對(duì)方一大部分對(duì)我們來(lái)說(shuō)是不可訪問(wèn)的信息,這對(duì)安全而言又意味著什么。
另外一個(gè)我一直關(guān)心的問(wèn)題是,機(jī)制可解釋性實(shí)際上是一種非常微觀的研究方法,這種方法希望以顆粒度極小的方式理解事物,但我們關(guān)注的許多問(wèn)題實(shí)際停留在宏觀層面,比如我們關(guān)注人工神經(jīng)網(wǎng)絡(luò)的行為問(wèn)題,還有其他很多值得關(guān)注的相對(duì)宏觀的問(wèn)題。
雖然微觀研究方法的優(yōu)勢(shì)在于準(zhǔn)確性容易得到驗(yàn)證,但也有很明顯的缺點(diǎn)——離我們真正關(guān)注的問(wèn)題比較遠(yuǎn),所以這二者之間的鴻溝是我們接下來(lái)需要努力的方向。那么問(wèn)題來(lái)了:我們能否在一個(gè)更高的位階上理解人工神經(jīng)網(wǎng)絡(luò),能否從目前研究的這一層位階上升到下一個(gè)更高的位階?
Lex Fridman:你之前用“器官問(wèn)題(Organ Questions)”做過(guò)類比:我們把可解析性研究視為對(duì)人工神經(jīng)網(wǎng)絡(luò)的一種解剖學(xué)研究,那么大多數(shù)研究都聚焦在微小的血管上,觀察較小的單位和單個(gè)神經(jīng)元及其連接方式。但很多問(wèn)題是無(wú)法通過(guò)在較小單位上的研究得到回答的。如果看生物解剖學(xué)研究,它們最終會(huì)發(fā)現(xiàn)器官層面有心臟這樣的單一器官、系統(tǒng)層面有呼吸系統(tǒng)這種人體的生物系統(tǒng)之一這樣的抽象結(jié)論。所以大家現(xiàn)在想要試圖理解的事情在于,人工神經(jīng)網(wǎng)絡(luò)是否也存在某種重要器官或系統(tǒng)?
Chris Olah:是這樣的,很多自然科學(xué)領(lǐng)域的研究,都在不同的抽象位面上研究事物。生物學(xué)領(lǐng)域,我們可以看到分子這個(gè)位面上,分子生物學(xué)研究的可能是蛋白質(zhì)和分子結(jié)構(gòu)等,而到了細(xì)胞這一層則有專門(mén)的細(xì)胞生物學(xué)等等,當(dāng)中有很多概念層級(jí)。
而我們現(xiàn)階段進(jìn)行的機(jī)制可解釋性研究有點(diǎn)像是人工神經(jīng)網(wǎng)絡(luò)上的微生物學(xué),但我們更想要的是類似解剖學(xué)的一種研究方向。那你可能想問(wèn):“為啥不直接在解剖學(xué)的這一層進(jìn)行研究呢?”,我想我對(duì)這個(gè)問(wèn)題的回答是因?yàn)橛?superstition 的存在。如果不通過(guò)正確的當(dāng)時(shí)分解微觀結(jié)構(gòu),并研究微觀結(jié)構(gòu)彼此之間如何連接在一起,我們很難看到真正的宏觀結(jié)構(gòu)。但我希望會(huì)有比特征(features) 和電路(circuits) 更大的東西,這樣我們就可以在一個(gè)更大的結(jié)構(gòu)找到重要的一小部分具體研究。
文章轉(zhuǎn)自微信公眾號(hào)@海外獨(dú)角獸
對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力
一鍵對(duì)比試用API 限時(shí)免費(fèi)