郭一璞發(fā)自凹非寺量子位報道|公眾號QbitAI
伯克利的研究人員最近利用視覺模型強化學(xué)習(xí)訓(xùn)練了一個不一樣的機器人,能夠通過自己的探索,完成各種任務(wù):整理玩具、疊衣服、收拾餐具……
并且,這樣一個多功能機器人的訓(xùn)練過程是無監(jiān)督的,不需要投喂數(shù)據(jù),完全是機器人自行摸索后學(xué)到的。
也就是說,這個機器人看了看你雜亂的房間,就自主的收拾了起來。
幫你把亂放的蘋果放進盤子:
幫你疊起秋衣:
整理玩具:
咦,二胡卵子誤入。
完成這一系列工作的,都是同一套算法。
這些神奇的技能,YannLeCun看到都驚呼:Awesome!
像小朋友一樣摸索世界
我們開頭說過,這個機器人不需要人為投喂數(shù)據(jù)。
那么數(shù)據(jù)從哪兒來呢?從需要它工作的現(xiàn)實世界來。
在一個擺放了各種物體的“房間”內(nèi),可以讓機器人自由摸索,感受房間里的一切,在無監(jiān)督的情況下,機器人完全可以自己玩自己的。
除了玩杯子、玩具這些硬的東西,還可以玩“軟體”的毛巾:
玩的過程中,機器人就通過各種傳感器,學(xué)到了視覺能力,知道自己身邊是什么東西;
學(xué)到了定位能力,知道自己在做什么;
學(xué)到了做不同的動作,知道自己發(fā)出不同命令后,手臂會做什么;
學(xué)會熟練使用自己的“手”,可以預(yù)測到手做什么動作會對環(huán)境中的物體產(chǎn)生怎樣的影響。
整個探索過程沒有分數(shù)、不設(shè)輸贏,完全是機器人自己憑借“好奇心”,通過摸索這個房間里的物品,形成自己的一套“世界觀”的過程。
派活就行,不用你教怎么干
當(dāng)機器人已經(jīng)對環(huán)境中的物體了如指掌之后,我們該怎么給它安排工作呢?
用像素點。
在整個環(huán)境中,通過像素點給機器人標(biāo)注任務(wù)目標(biāo),紅色為起始點,綠色為結(jié)束點,也就是告訴機器人把紅點位置的東西搬到綠點位置。
機器人,你來把紅點位置的蘋果,挪到綠點位置的盤子上去。
機器人想了想,大概只要把蘋果夾起來,把手臂挪過去,把蘋果放下,就可以了把?
△機器人內(nèi)心的“草稿”
那就這么辦了,召喚機械臂,是騾子是馬,我們挪一個看看。
Bingo!成功。
下一個任務(wù),我們把牛仔熱褲疊起來。
想一想,揪住一個角,挪過來就好了吧?
根據(jù)這個計劃試一試:
完美成功~
傳送門
最后,照例附上傳送門。
論文:
VisualForesight:Model-BasedDeepReinforcementLearningforVision-BasedRoboticControl
FrederikEbert,ChelseaFinn,SudeepDasari,AnnieXie,AlexLee,SergeyLevine
博客:
VisualModel-BasedReinforcementLearningasaPathtowardsGeneralistRobots
至于開源代碼嘛,官方表示comingsoon,或許過一段時間能在這個頁面里找到:
—完—
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關(guān)村。期待有才氣、有熱情的同學(xué)加入我們!相關(guān)細節(jié),請在量子位公眾號(QbitAI)對話界面,回復(fù)“招聘”兩個字。
量子位QbitAI·頭條號簽約作者
?'?'?追蹤AI技術(shù)和產(chǎn)品新動態(tài)