在高維靈活性環(huán)境中,Eureka實(shí)現(xiàn)了更大的收益。
多知網(wǎng)10月23日消息,全球AI領(lǐng)導(dǎo)者英偉達(dá)(NVIDIA)基于OpenAI的GPT-4打造Eureka,可自動(dòng)訓(xùn)練實(shí)體機(jī)器人的動(dòng)作指令,例如,轉(zhuǎn)筆、開(kāi)抽屜、使用剪刀等超復(fù)雜動(dòng)作。具備零樣本生成、編寫(xiě)代碼和語(yǔ)境改進(jìn)等能力,可對(duì)強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)設(shè)計(jì)流程、代碼進(jìn)行大幅度優(yōu)化,達(dá)到人類專家級(jí)水平。
英偉達(dá)AI高級(jí)研究總監(jiān)兼該論文作者Anima Anandkumar表示,在過(guò)去十年,強(qiáng)化學(xué)習(xí)取得了空前成功,但仍面臨許多困難,例如,獎(jiǎng)勵(lì)設(shè)計(jì)需要不斷試錯(cuò)才能完成。Eureka的出現(xiàn)開(kāi)創(chuàng)了一種全新的算法,將生成式AI與強(qiáng)化學(xué)習(xí)相結(jié)合以實(shí)現(xiàn)更高的執(zhí)行效率。
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種類型,其目標(biāo)是讓一個(gè)智能體在與環(huán)境的交互中學(xué)習(xí)如何實(shí)現(xiàn)最優(yōu)行為,以獲取最大累積獎(jiǎng)勵(lì)。
在強(qiáng)化學(xué)習(xí)中,需智能體不斷地從環(huán)境中獲取狀態(tài),并在此基礎(chǔ)上選擇一個(gè)行動(dòng)。環(huán)境對(duì)智能體的行動(dòng)給出反饋,這個(gè)反饋稱為“獎(jiǎng)勵(lì)”。強(qiáng)化學(xué)習(xí)的目標(biāo)是找到一個(gè)最優(yōu)的策略,關(guān)鍵元素包括智能體、環(huán)境、狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì)。
研究人員對(duì)Eureka在多樣化的實(shí)體機(jī)器人和任務(wù)中進(jìn)行了全面評(píng)估,測(cè)試了其生成獎(jiǎng)勵(lì)函數(shù)、解決新任務(wù)等能力。
測(cè)試環(huán)境由由10個(gè)不同的機(jī)器人和29個(gè)使用IsaacGym模擬器實(shí)現(xiàn)的任務(wù)組成。首先,包括了來(lái)自IsaacGym(Isaac)的9個(gè)原始環(huán)境,涵蓋了從四足動(dòng)物、雙足動(dòng)物、四旋翼、協(xié)作機(jī)器人臂到靈巧手的多樣化機(jī)器人形態(tài)。除了對(duì)機(jī)器人形態(tài)因素的覆蓋,還通過(guò)包含雙手操作基準(zhǔn)中的所有20個(gè)任務(wù),確保了評(píng)估的深度。
結(jié)果顯示,Eureka可以生成超過(guò)人類水平的獎(jiǎng)勵(lì)函數(shù)。在29個(gè)任務(wù)中,Eureka的獎(jiǎng)勵(lì)在83%的任務(wù)中,超過(guò)了人類專家編寫(xiě)的獎(jiǎng)勵(lì)函數(shù),平均規(guī)范化改進(jìn)為52%。尤其是在高維靈活性環(huán)境中,Eureka實(shí)現(xiàn)了更大的收益。