神譯局是36氪旗下編譯團(tuán)隊,關(guān)注科技、商業(yè)、職場、生活等領(lǐng)域,重點介紹國外的新技術(shù)、新觀點、新風(fēng)向。
編者按:人類的學(xué)習(xí)方式是,先學(xué)習(xí)理解基礎(chǔ)知識和概念,然后在實踐中達(dá)到融會貫通。而機(jī)器的學(xué)習(xí)方式是強(qiáng)化學(xué)習(xí),通過獎勵系統(tǒng)來識別對錯,從而在訓(xùn)練中尋找到正確的模式。但這種學(xué)習(xí)方式的弊端在于缺乏靈活性,稍微改變一下場景,機(jī)器就失能了,因為它并沒有“理解”。那么,如果先拿基礎(chǔ)知識來對模型進(jìn)行預(yù)訓(xùn)練會發(fā)生什么?實驗證明,在這種情況下,機(jī)器會表現(xiàn)得更好。本文章來自編譯,希望對您有所啟發(fā)。
Jeffrey Fisher for Quanta Magazine
想象一下,你的鄰居打電話來請求幫忙:能給我們的寵物兔子喂點胡蘿卜片嗎?你可能會想,這很簡單。你可以想象到他們廚房的樣子,即使你從未去過那里:冰箱里放著胡蘿卜,抽屜里放著各種刀具。這是抽象的知識,你不知道鄰居的胡蘿卜和刀到底是什么樣子的,但你心里會有一個大致的概念。
人工智能程序無法做到這一點。在你看來很容易的任務(wù),對目前的算法來說是一項巨大的工程。
一個經(jīng)過人工智能訓(xùn)練的機(jī)器人,可以在一個熟悉的廚房里找到一把特定的刀和胡蘿卜,但在另一個廚房里,它將缺乏成功的抽象技能。華盛頓大學(xué)計算機(jī)科學(xué)專業(yè)的研究生維克多·鐘(Victor Zhong)說,“它們不能對新環(huán)境進(jìn)行泛化。機(jī)器之所以失敗,是因為要學(xué)習(xí)的東西實在太多,要探索的空間也太大。”
問題是,這些機(jī)器人沒有一個用來構(gòu)建的概念基礎(chǔ)。他們不知道刀或胡蘿卜到底是什么,更不知道如何打開抽屜,選擇一個胡蘿卜并將其切成片。這種局限性在一定程度上是由于,許多高級人工智能系統(tǒng)都是通過一種名為“強(qiáng)化學(xué)習(xí)”的方法進(jìn)行訓(xùn)練的,這種方法本質(zhì)上是通過試錯進(jìn)行自我教育。經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的人工智能,可以在他們被訓(xùn)練的環(huán)境中很好地執(zhí)行自身接受過訓(xùn)練的工作。但是如果改變工作或環(huán)境,這些系統(tǒng)往往會失效。
為了克服這一限制,計算機(jī)科學(xué)家已經(jīng)開始教機(jī)器人一些重要的概念。這就像在使用新軟件之前閱讀手冊一樣:你可以在沒有它的情況下嘗試探索,但有了它你會學(xué)得更快。普林斯頓大學(xué)的計算機(jī)科學(xué)家卡瑟·納史木汗(Karthik Narasimhan)說:“人類通過實踐和閱讀的結(jié)合來學(xué)習(xí)。我們希望機(jī)器也能做到這一點。”
鐘和其他人的新研究表明,以這種方式啟動學(xué)習(xí)模型可以在模擬環(huán)境中提高學(xué)習(xí)效率。這不僅能讓算法學(xué)習(xí)得更快,還能引導(dǎo)它們掌握原本從未學(xué)過的技能。研究人員希望這些智能體成為多面手,能夠?qū)W習(xí)從國際象棋、到購物、再到清潔的任何事情。隨著展示用例變得越來越實用,科學(xué)家們認(rèn)為這種方法甚至可能改變?nèi)祟惻c機(jī)器人互動的方式。
“這是一個相當(dāng)大的突破,”谷歌的機(jī)器人研究科學(xué)家布萊恩·伊切特(Brian Ichter)說,“在一年半的時間里,它取得了難以想象的進(jìn)步。”
1. 稀少的獎勵
乍一看,機(jī)器學(xué)習(xí)已經(jīng)取得了顯著的成功。大多數(shù)模型通常使用強(qiáng)化學(xué)習(xí),在這種學(xué)習(xí)方式中,算法通過獲得獎勵來學(xué)習(xí)。它們一開始是完全無知的,但能通過試錯獲得知識。強(qiáng)化學(xué)習(xí)可以讓人工智能輕松掌握簡單的游戲。
以電子游戲《貪吃蛇》(Snake)為例,玩家在游戲中控制一條蛇,蛇在吃數(shù)字蘋果之后會變長。你想讓蛇吃到最多的蘋果,同時呆在邊界內(nèi),避免撞到自己越來越笨重的身體。這種明確的對錯結(jié)果會給機(jī)器帶來積極的反饋,所以足夠多的嘗試可以讓它從“菜鳥”變成“高手”。
但假設(shè)規(guī)則改變了,玩家需要在更大的網(wǎng)格或三維空間中操作,那么雖然人類玩家可以快速適應(yīng),但機(jī)器不能,因為有兩個關(guān)鍵的弱點。首先,更大的空間意味著蛇需要更長的時間才能找到蘋果,當(dāng)獎勵變得稀少時,學(xué)習(xí)速度會呈指數(shù)級下降。其次,新的維度提供了全新的體驗,強(qiáng)化學(xué)習(xí)很難推廣到新的挑戰(zhàn)。
穿著藍(lán)色襯衫的維克多·鐘(Victor Zhong)。維克多·鐘通過先為機(jī)器灌輸基本信息,來幫助機(jī)器學(xué)習(xí)概括理解其知識。圖片來源:Matt Hagen
鐘說,我們不需要屈服于這些障礙。“如果我們想讓人工智能學(xué)會下棋,為什么需要從頭開始訓(xùn)練一個模型呢?”這種方法效率低下。人工智能漫無目的地四處游蕩,直到它偶然發(fā)現(xiàn)一個好的情況,比如將軍。鐘說,需要仔細(xì)的人為設(shè)計,讓智能體知道一個好的情況意味著什么。
在一定程度上,這是因為機(jī)器在理解人類語言和破譯圖像方面遇到了困難。對于一個機(jī)器人來說,要完成基于視覺的任務(wù),比如尋找和切胡蘿卜,它必須知道胡蘿卜是什么,物體的圖像必須是“基于”對該物體是什么的基本理解。直到最近,還沒有什么好的方法可以做到這一點,但是語言和圖像處理速度和規(guī)模的迅速增長,使得這成為可能。
新的自然語言處理模型使機(jī)器能夠從本質(zhì)上學(xué)習(xí)單詞和句子背后的含義,將它們與世界上的事物聯(lián)系起來,而不僅僅是像數(shù)字字典那樣存儲一個簡單(和有限)的含義。
計算機(jī)視覺也經(jīng)歷了類似的數(shù)字爆炸。大約在 2009 年,ImageNet 作為用于計算機(jī)視覺研究的注釋圖像數(shù)據(jù)庫首次亮相。今天,它擁有超過 1400 萬張物體和地點的圖像。像 OpenAI 的 DALL-E 這樣的程序,盡管沒有確切的對比可以借鑒,卻能根據(jù)命令生成新的圖像,看起來像是人工制作的。
加州理工學(xué)院(California Institute of Technology)和英偉達(dá)公司(Nvidia)的計算機(jī)科學(xué)家阿尼瑪·阿南德庫馬爾(Anima Anandkumar)表示,這表明機(jī)器現(xiàn)在只有獲得足夠的在線數(shù)據(jù),才能真正了解世界。這表明他們可以像人類一樣從概念中學(xué)習(xí),并將其用于生成新的東西。她說:“我們現(xiàn)在正處在一個偉大的時刻。因為一旦有了生成的能力,我們可以做的事情就更多了。”
2. 游戲系統(tǒng)
像鐘這樣的研究人員認(rèn)為,機(jī)器不必再在完全不知情的情況下進(jìn)行探索了。有了復(fù)雜的語言模型,研究人員可以增加一個預(yù)訓(xùn)練步驟,讓程序在嘗試和錯誤之前從在線信息中學(xué)習(xí)。
為了測試這一想法,鐘和他的同事們在五種不同的類似游戲的環(huán)境中,將預(yù)訓(xùn)練與傳統(tǒng)的強(qiáng)化學(xué)習(xí)進(jìn)行了比較。每個模擬環(huán)境都對機(jī)器提出了獨特的挑戰(zhàn)。其中一個要求機(jī)器操作三維廚房中的物品,另一個則要求機(jī)器通過閱讀文本,來掌握打擊怪物的精確行動順序。但最復(fù)雜的環(huán)境是一個真實的游戲,即有 35 年歷史的 NetHack,其目標(biāo)是在一個復(fù)雜的地下城中找到一個護(hù)身符。
對于簡單的設(shè)置,自動預(yù)訓(xùn)練意味著簡單地建立重要的概念:這是胡蘿卜,那是怪物。在 NetHack 中,機(jī)器通過觀看人類玩家的游戲過程,使用人類玩家上傳到互聯(lián)網(wǎng)上的游戲指南進(jìn)行訓(xùn)練。這些游戲過程甚至不需要那么好,機(jī)器只需要建立對人類行為的直覺。機(jī)器并不是要成為專家,而只需成為一名普通選手。它會通過觀察來建立直覺:人類在特定場景下會做什么?機(jī)器將決定哪些行動是成功的,制定自己的胡蘿卜和大棒。
“通過預(yù)訓(xùn)練,關(guān)于如何將語言描述與世界上正在發(fā)生的事情聯(lián)系起來,我們形成了良好的先驗,”鐘說。智能體從一開始就能發(fā)揮得更好,并在隨后的強(qiáng)化學(xué)習(xí)中學(xué)習(xí)得更快。
結(jié)果,經(jīng)過預(yù)訓(xùn)練的智能體的表現(xiàn),確實優(yōu)于經(jīng)過傳統(tǒng)訓(xùn)練的智能體。“經(jīng)過預(yù)訓(xùn)練的機(jī)器在這五種環(huán)境中都獲得了全面的勝利,”鐘說。較簡單的環(huán)境只顯示出輕微的優(yōu)勢,但在 NetHack 復(fù)雜的地下城中,機(jī)器的學(xué)習(xí)速度快了許多倍,達(dá)到了傳統(tǒng)方法無法達(dá)到的技能水平。
身穿紅裙的阿尼瑪·阿南德庫馬爾(Anima Anandkumar)。阿南德庫馬爾說:“這種學(xué)習(xí)方式與標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)相比是一個巨大的飛躍。”圖片來源:Monica Almeida for Quanta Magazine
阿南德庫馬爾的團(tuán)隊還對機(jī)器進(jìn)行預(yù)培訓(xùn),讓它們更快地學(xué)習(xí),在全球最暢銷的視頻游戲《我的世界》(Minecraft)上取得了重大進(jìn)展?!段业氖澜纭繁环Q為“沙盒”游戲,這意味著它為玩家提供了一個幾乎無限的空間,讓他們在其中互動并創(chuàng)造新的世界。為成千上萬的任務(wù)單獨編程獎勵功能是徒勞的,學(xué)不會這個游戲,所以該團(tuán)隊的模型(“MineDojo”)通過觀看帶字幕的游戲視頻,來構(gòu)建對游戲的理解,而無需規(guī)范良好的行為。
3. 超越游戲
游戲是展示“預(yù)訓(xùn)練模型可行”的好方法,但它們?nèi)匀皇呛喕氖澜?。?xùn)練機(jī)器人應(yīng)對現(xiàn)實世界的難度要大得多,因為現(xiàn)實世界的可能性幾乎無窮無盡。“我們提出了一個問題:有沒有介于兩者之間的東西?”納史木汗說。所以他決定嘗試讓機(jī)器在網(wǎng)上購物。
他的團(tuán)隊創(chuàng)建了 WebShop。“它基本上就像一個購物管家,” 納史木汗說。用戶可以這樣說:“給我買一雙 100 美元以下的白色耐克鞋,我希望評論說這雙鞋對幼兒來說非常舒適。”接下來,程序就會找到并購買這雙鞋。
就像鐘和阿南庫瑪爾的游戲一樣,WebShop 通過圖像和文本訓(xùn)練來培養(yǎng)機(jī)器的直覺,只不過這次的訓(xùn)練內(nèi)容是來自亞馬遜的頁面。“隨著時間的推移,它會學(xué)會理解語言,并將其映射到需要在網(wǎng)站上采取的行動中。”
乍一看,購物管家似乎并沒有那么超前。不過,雖然先進(jìn)的聊天機(jī)器人可以幫你找到心儀的運動鞋,但像下訂單這樣的互動則需要完全不同的技能。盡管你床邊的 Alexa 或 Google Home 音箱可以下訂單,但它們依賴于執(zhí)行預(yù)定任務(wù)的專有軟件。WebShop 則以人類的方式瀏覽網(wǎng)頁:通過閱讀、輸入和點擊。
納史木汗說:“這是向通用智能邁出的一步。”
卡瑟·納史木汗(Karthik Narasimhan)說:“人類通過實踐和閱讀的結(jié)合來學(xué)習(xí)。我們希望機(jī)器也能做到這一點。” 圖片來源:David Kelly Crow/普林斯頓大學(xué)
當(dāng)然,讓機(jī)器人與現(xiàn)實世界互動有其自身的挑戰(zhàn)性。以瓶子為例,你可以通過它的外觀認(rèn)出它,你知道它是用來儲存液體的,你知道如何用手操作它。但真正的機(jī)器能把文字和圖像變成復(fù)雜的運動智能嗎?
卡瑟·納史木汗與普林斯頓大學(xué)的機(jī)器人專家安如達(dá)·瑪捷達(dá)(Anirudha Majumdar)合作,想找到答案。他們教機(jī)械臂操作以前從未見過的工具,并使用取自成功語言模型的描述性語言對其進(jìn)行預(yù)訓(xùn)練。根據(jù)去年6月發(fā)布在預(yù)印本服務(wù)器 arxiv.org 上的結(jié)果,與通過傳統(tǒng)探索學(xué)習(xí)的程序相比,該程序幾乎在所有工具和動作上都學(xué)得更快,表現(xiàn)也更好。
工程師們在谷歌的機(jī)器人實驗室建立了一個更加復(fù)雜的命令庫,同樣植根于情景構(gòu)建預(yù)訓(xùn)練。“你需要考慮的可能性非常多,”谷歌機(jī)器人團(tuán)隊的研究科學(xué)家卡羅爾·豪斯曼(Karol Hausman)說,“所以我們要求語言模型為我們分解它。”
該團(tuán)隊使用了一個移動助手機(jī)器人,它有一個 7 關(guān)節(jié)的手臂。研究人員使用語言技能對其進(jìn)行訓(xùn)練。對于任何給定的命令,比如“幫我清理溢出的飲料”,該程序會使用語言模型從 700 個訓(xùn)練過的動作庫中提出動作建議,比如“抓起”紙巾、“撿起”瓶子,或“扔掉”瓶子。豪斯曼說,機(jī)器會承認(rèn)自己的局限性,比如“我實際上沒有能力將其清理干凈,但我可以給你拿一塊海綿。”該團(tuán)隊最近報告了這個名為 SayCan 項目的結(jié)果。
賦予機(jī)器人語言模型的另一個好處是,它能輕易理解同義詞和其他語言。一個人說“扭轉(zhuǎn)”,而另一個人說“旋轉(zhuǎn)”,機(jī)器人都能聽懂。谷歌的研究科學(xué)家夏飛說:“我們嘗試過的最瘋狂的事情是,它還能理解表情符號。”
4. 機(jī)器人正在學(xué)習(xí)進(jìn)化
SayCan 可能是迄今為止最先進(jìn)的基于語言學(xué)習(xí)的機(jī)器人展示。而且語言和圖像模型也正在不斷改進(jìn),創(chuàng)造出更好、更復(fù)雜的預(yù)訓(xùn)練技術(shù)。
但夏謹(jǐn)慎地克制著自己的興奮。“有人半開玩笑地說,我們達(dá)到了‘機(jī)器人 GPT’時刻,”他說。他指的是能夠理解大量人類命令的開創(chuàng)性語言模型,“實際上我們還沒到那一步,還有很多東西有待探索。”
例如,這些模型可能會提供錯誤的答案或采取錯誤的行動,研究人員正試圖了解這些問題。而且,盡管人類的身體直覺建立在童年玩玩具的基礎(chǔ)上,但機(jī)器人仍然需要與現(xiàn)實世界的互動來發(fā)展這種直覺。
盡管如此,進(jìn)展還是很快。越來越多的研究人員相信,更智能的機(jī)器人將是最終結(jié)果。納史木汗追溯了機(jī)器的進(jìn)化過程,“我們先有鍵盤和鼠標(biāo),然后是觸摸屏,”他說,下一步是接地氣的語言。你將與自己的電腦進(jìn)行對話,問它某些問題的答案,或者讓它幫你做一些事情。他說:“讓機(jī)器人助理擁有超強(qiáng)能力的夢想還沒有實現(xiàn)。但我認(rèn)為這很快就會發(fā)生。”