機(jī)器人領(lǐng)域出了個“RoboGPT”：一個模型處理不同感官輸入來自谷歌

時間：2022-12-15 19:03:47

懶得打掃房間，那就直接交給機(jī)器人來做吧。

(資料圖)

想吃零食了，機(jī)器人也能幫你服務(wù)，薯片和紙巾都給你貼心備好。

而且，這個機(jī)器人只需要一個單一的預(yù)訓(xùn)練模型，就能從不同的感官輸入（如視覺、文本等）中生成命令，來執(zhí)行多種任務(wù)。

要知道，在以往機(jī)器人執(zhí)行命令時，處理這些不同的任務(wù)時，IO 規(guī)范、神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)和目標(biāo)等都是不一樣的。

現(xiàn)在，這個問題谷歌解決了，他們研究出了適用于機(jī)器人領(lǐng)域的 Transformer 模型：RT-1，甚至被人戲稱為 RoboGPT。

△

圖源：推特 @Jim Fan

更重要的是，RT-1 代碼已開源！

具體原理

先來整體看看 RT-1，它執(zhí)行任務(wù)主要依靠的就是：7+3+1。

所謂 7，是指它的手臂有 7 個自由度，分別是 x，y，z，滾動，俯仰，偏航，手爪開口。

3 是指基礎(chǔ)運(yùn)動的三個維度，即在地面運(yùn)動時的 x，y，偏航。

1 則指 RT-1 的整體控制，即切換這三種模式：控制手臂，基礎(chǔ)運(yùn)動，或終止任務(wù)。

△

圖源：Everyday Robots

而 RT-1 執(zhí)行任務(wù)時，它的底層邏輯還是純粹的監(jiān)督式學(xué)習(xí)，要做好監(jiān)督式學(xué)習(xí)，就得具備兩個條件：

豐富的數(shù)據(jù)集和強(qiáng)大的神經(jīng)結(jié)構(gòu)。

首先是數(shù)據(jù)集，RT-1 是在一個大規(guī)模的、真實世界的機(jī)器人數(shù)據(jù)集上進(jìn)行訓(xùn)練的，可以用 4 個數(shù)字來概括：13 萬、700+、13、17，分別表示：

包括 13 萬個片段；

涵蓋 700 多個任務(wù)；

使用了 13 個機(jī)器人；

歷時 17 個月。

然后就是 RT-1 的結(jié)構(gòu)了，它執(zhí)行任務(wù)的過程如下圖所示。

具體來說，圖像和文本先通過 ImageNet 預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)（EfficientNet）進(jìn)行處理。

在這其中，為了確保文本和圖像同路能夠很好地被整合在一起，RT-1 還使用了 FiLM 層，這是一種通過語言嵌入來調(diào)節(jié)視覺活動的經(jīng)典技術(shù)。

這樣一來，RT-1 便能很好地提取與手頭任務(wù)相關(guān)的視覺特征。

然后這些視覺特征會被 Token Learner 模塊計算成一組緊湊的 token 傳遞給 Transformer，這使得機(jī)器人的推理速度能夠提高 2.4 倍以上。

接下來 Transformer 會來處理這些 token 并產(chǎn)生離散化的操作 token，而操作 token 便是一開始說的那個 7+3+1 了。

通過控制手臂，基礎(chǔ)運(yùn)動以及模式便能夠執(zhí)行任務(wù)了。

在執(zhí)行任務(wù)的整個過程中，RT-1 還會以 3Hz 的頻率執(zhí)行閉環(huán)控制和命令操作，直到產(chǎn)生終止操作或用完預(yù)先設(shè)置的時間步驟數(shù)。

不過話說回來，既然這個機(jī)器人能夠執(zhí)行多任務(wù)，那它執(zhí)行通用任務(wù)時的能力到底如何呢？

研究人員分別測試了 RT-1 對干擾物數(shù)量（第一行）、不同背景和環(huán)境（第二行）以及真實場景（第三行）的魯棒性。

并與其他基于模仿學(xué)習(xí)的基線進(jìn)行比較，結(jié)果如下圖所示（第一項為訓(xùn)練期間的表現(xiàn)）。

顯而易見，在每個任務(wù)類別中，RT-1 都明顯優(yōu)于以前的模型。

研究團(tuán)隊

這個機(jī)器人來自谷歌，研究團(tuán)隊的成員也比較龐大，分別來自三個研究團(tuán)隊：

首先是 Robotics at Google，它是 Google Research 下的一個細(xì)分領(lǐng)域團(tuán)隊，目前正在探索“如何教機(jī)器人可轉(zhuǎn)移的技能”。

并且他們也在不斷公開其訓(xùn)練的數(shù)據(jù)，以幫助推進(jìn)這一領(lǐng)域的最先進(jìn)水平。

然后是 Everyday Robots ，它是 X-登月工廠的一個細(xì)分領(lǐng)域團(tuán)隊，和谷歌團(tuán)隊一起工作，目前他們正在制造一種新型機(jī)器人，一個可以自學(xué)的，可以幫助任何人做任何事情的通用機(jī)器人。

還有就是 Google Research，它是 Google 公司內(nèi)部進(jìn)行各種最先進(jìn)技術(shù)研究的部門，他們也有自己的開源項目，在 GitHub 公開。

關(guān)鍵詞： token rt-1

延伸閱讀:

火速變現(xiàn) 微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權(quán) 2023-03-30
一枚超2億元的腕表背后：“表王”百達(dá)翡麗的危機(jī) 2023-03-29
環(huán)球看點！3億個工作將被ChatGPT取代更要擔(dān)心的卻不是失業(yè) 2023-03-29
當(dāng)前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現(xiàn)在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業(yè)務(wù)場景融合價值潛力大 2023-03-29

版權(quán)聲明：
凡注明來網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來源：網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文