商學(xué)院

多知商學(xué)院創(chuàng)辦于2017年，面向教育行業(yè)創(chuàng)業(yè)者、從業(yè)者、投資人，課程體系涵蓋系統(tǒng)課、專題課、大講堂，旨在連接行業(yè)頭部，直擊深度思考，提升商業(yè)認(rèn)知，催生自我迭代。

Open Talk

OpenTalk是多知組織的定期線下活動(dòng)，邀請(qǐng)行業(yè)細(xì)分賽道頭部選手，分享行業(yè)新趨勢(shì)、時(shí)下最前沿的觀點(diǎn)和玩法，提供線上、線下多維度互動(dòng)，也為多知讀者提供暢聊的見面機(jī)會(huì)。

英偉達(dá)用ChatGPT-4訓(xùn)練機(jī)器人，代碼水平超過人類專家

2023-10-23 17:01:04發(fā)布來源：多知網(wǎng) 作者：Doris

　　多知網(wǎng)10月23日消息，全球AI領(lǐng)導(dǎo)者英偉達(dá)(NVIDIA)基于OpenAI的GPT-4打造Eureka，可自動(dòng)訓(xùn)練實(shí)體機(jī)器人的動(dòng)作指令，例如，轉(zhuǎn)筆、開抽屜、使用剪刀等超復(fù)雜動(dòng)作。具備零樣本生成、編寫代碼和語境改進(jìn)等能力，可對(duì)強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)設(shè)計(jì)流程、代碼進(jìn)行大幅度優(yōu)化，達(dá)到人類專家級(jí)水平。

　　英偉達(dá)AI高級(jí)研究總監(jiān)兼該論文作者Anima Anandkumar表示，在過去十年，強(qiáng)化學(xué)習(xí)取得了空前成功，但仍面臨許多困難，例如，獎(jiǎng)勵(lì)設(shè)計(jì)需要不斷試錯(cuò)才能完成。Eureka的出現(xiàn)開創(chuàng)了一種全新的算法，將生成式AI與強(qiáng)化學(xué)習(xí)相結(jié)合以實(shí)現(xiàn)更高的執(zhí)行效率。

　　強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種類型，其目標(biāo)是讓一個(gè)智能體在與環(huán)境的交互中學(xué)習(xí)如何實(shí)現(xiàn)最優(yōu)行為，以獲取最大累積獎(jiǎng)勵(lì)。

　　在強(qiáng)化學(xué)習(xí)中，需智能體不斷地從環(huán)境中獲取狀態(tài)，并在此基礎(chǔ)上選擇一個(gè)行動(dòng)。環(huán)境對(duì)智能體的行動(dòng)給出反饋，這個(gè)反饋稱為“獎(jiǎng)勵(lì)”。強(qiáng)化學(xué)習(xí)的目標(biāo)是找到一個(gè)最優(yōu)的策略，關(guān)鍵元素包括智能體、環(huán)境、狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì)。

　　研究人員對(duì)Eureka在多樣化的實(shí)體機(jī)器人和任務(wù)中進(jìn)行了全面評(píng)估，測(cè)試了其生成獎(jiǎng)勵(lì)函數(shù)、解決新任務(wù)等能力。

　　測(cè)試環(huán)境由由10個(gè)不同的機(jī)器人和29個(gè)使用IsaacGym模擬器實(shí)現(xiàn)的任務(wù)組成。首先，包括了來自IsaacGym(Isaac)的9個(gè)原始環(huán)境，涵蓋了從四足動(dòng)物、雙足動(dòng)物、四旋翼、協(xié)作機(jī)器人臂到靈巧手的多樣化機(jī)器人形態(tài)。除了對(duì)機(jī)器人形態(tài)因素的覆蓋，還通過包含雙手操作基準(zhǔn)中的所有20個(gè)任務(wù)，確保了評(píng)估的深度。

　　結(jié)果顯示，Eureka可以生成超過人類水平的獎(jiǎng)勵(lì)函數(shù)。在29個(gè)任務(wù)中，Eureka的獎(jiǎng)勵(lì)在83%的任務(wù)中，超過了人類專家編寫的獎(jiǎng)勵(lì)函數(shù)，平均規(guī)范化改進(jìn)為52%。尤其是在高維靈活性環(huán)境中，Eureka實(shí)現(xiàn)了更大的收益。

商學(xué)院

Open Talk

英偉達(dá)用ChatGPT-4訓(xùn)練機(jī)器人，代碼水平超過人類專家

相關(guān)閱讀

英偉達(dá)用ChatGPT-4訓(xùn)練機(jī)器人，代碼水平超過人類專家