讓機(jī)器人打乒乓球賽,正反手、旋轉(zhuǎn)球都能接?網(wǎng)友:奧運(yùn)賽場見!
撰文 | 馬雪薇
前言
機(jī)器人也能打乒乓球賽了,而且達(dá)到了人類中級選手水平!
話不多說,看看它是怎樣肆虐人類新手的。
據(jù)介紹,這一機(jī)器人由 Google DeepMind 研究團(tuán)隊(duì)打造,在 29 場機(jī)器人與人類的比賽中,贏得了 45%(13/29)的比賽。值得注意的是,所有人類選手都是該機(jī)器人未見過的。
雖然機(jī)器人輸?shù)袅怂信c最頂尖選手的比賽,但它卻戰(zhàn)勝了 100% 的初學(xué)者和 55% 的中級選手。
圖|與專業(yè)教練打乒乓球賽。
對此,專業(yè)乒乓球教練 Barney J. Reed 表示,“看著機(jī)器人與各種水平和風(fēng)格的選手比賽,真是棒極了。我們的目標(biāo)是讓機(jī)器人達(dá)到中級水平。我覺得這個(gè)機(jī)器人甚至超出了我的預(yù)期。”
相關(guān)研究論文以“Achieving Human Level Competitive Robot Table Tennis”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。
怎么讓機(jī)器人打乒乓球賽?
當(dāng)前,乒乓球賽是巴黎奧運(yùn)會的一大看點(diǎn),乒乓球選手在比賽中展現(xiàn)出極高的體能水平、高速移動能力、對各式球的精準(zhǔn)控制和超人的靈敏度。
也正因如此,從 20 世紀(jì) 80 年代開始,研究人員就一直將乒乓球作為機(jī)器人的基準(zhǔn),開發(fā)了許多乒乓球機(jī)器人,并在將球擊回對手半場、擊中目標(biāo)位置、扣殺、合作對打以及乒乓球的其他許多關(guān)鍵方面取得了進(jìn)展。然而,目前還沒有機(jī)器人與未見過的人類對手進(jìn)行完整乒乓球比賽。
在這項(xiàng)研究中,通過分層和模塊化策略架構(gòu)、迭代定義任務(wù)分布、模擬到模擬適配層、域隨機(jī)化、實(shí)時(shí)適應(yīng)未知對手和硬件部署等技巧,Google DeepMind 團(tuán)隊(duì)實(shí)現(xiàn)了機(jī)器人與人類選手在競技乒乓球比賽中達(dá)到業(yè)余人類水平的性能。
圖|方法總概況。
1. 基于技能庫的分層和模塊化策略架構(gòu)
低級控制器(LLC):該庫包含了各種乒乓球技能,例如正手攻球、反手定位、正手發(fā)球等。每個(gè) LLC 都是一個(gè)獨(dú)立的策略,專注于特定技能的訓(xùn)練。這些 LLC 通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),并使用 MuJoCo 物理引擎進(jìn)行模擬訓(xùn)練。
圖|LLC 訓(xùn)練庫。
高級控制器(HLC):HLC 負(fù)責(zé)根據(jù)當(dāng)前比賽情況和對手能力選擇最合適的 LLC。它由以下幾個(gè)模塊組成:
風(fēng)格選擇策略:該策略根據(jù)來球的類型(發(fā)球或攻球)選擇使用正手還是反手。
旋轉(zhuǎn)分類器:該分類器判斷來球是上旋還是下旋。
LLC 技能描述符:這些描述符記錄了每個(gè) LLC 在不同來球條件下的性能指標(biāo),例如命中率和球落點(diǎn)等。
策略選擇模塊:該模塊根據(jù) LLC 技能描述符、比賽統(tǒng)計(jì)數(shù)據(jù)和對手能力,生成 LLC 的候選列表。
LLC 偏好 (H-value):該模塊使用梯度 bandit 算法在線學(xué)習(xí)每個(gè) LLC 的偏好值,并根據(jù)偏好值選擇最終的 LLC。
圖 | 一旦球被擊中,HLC 首先通過對當(dāng)前球狀態(tài)應(yīng)用風(fēng)格策略來確定正手或反手(本例演示選擇正手),從而決定將球返回給哪個(gè) LLC。
2. 實(shí)現(xiàn)零樣本模擬到現(xiàn)實(shí)的技巧
迭代定義任務(wù)分布:該方法從人類-人類比賽數(shù)據(jù)中收集初始球狀態(tài)數(shù)據(jù),并在模擬環(huán)境中訓(xùn)練 LLC 和 HLC。然后將模擬訓(xùn)練生成的數(shù)據(jù)添加到真實(shí)世界數(shù)據(jù)集中,并重復(fù)這個(gè)過程,逐步完善訓(xùn)練任務(wù)分布。
模擬到模擬適配層:為了解決模擬環(huán)境中上下旋球模型參數(shù)差異導(dǎo)致的問題,論文提出了兩種解決方案:旋轉(zhuǎn)讓正和模擬到模擬適配層。旋轉(zhuǎn)讓正通過調(diào)整 LLC 的訓(xùn)練數(shù)據(jù)集來解決,而模擬到模擬適配層則使用 FiLM 層學(xué)習(xí)上下旋球之間的映射關(guān)系。
域隨機(jī)化:在訓(xùn)練過程中,論文對模擬環(huán)境中的觀察噪聲、延遲、球臺和球拍阻尼、摩擦等參數(shù)進(jìn)行隨機(jī)化,以模擬真實(shí)世界中的不確定性。
圖 | 零樣本模擬到真實(shí)的轉(zhuǎn)換。
3. 實(shí)時(shí)適應(yīng)未知對手
實(shí)時(shí)跟蹤比賽統(tǒng)計(jì)數(shù)據(jù):HLC 會實(shí)時(shí)跟蹤比賽統(tǒng)計(jì)數(shù)據(jù),例如機(jī)器人對手和對手的得分和失誤,并根據(jù)這些數(shù)據(jù)調(diào)整 LLC 的偏好值,從而適應(yīng)對手的變化。
在線學(xué)習(xí) LLC 偏好:通過梯度 bandit 算法,HLC 可以在線學(xué)習(xí)每個(gè) LLC 的偏好值,并根據(jù)對手的弱點(diǎn)選擇更合適的 LLC。
圖|分級控制。
研究團(tuán)隊(duì)收集少量的人與人對打數(shù)據(jù)來初始化任務(wù)條件。然后,使用強(qiáng)化學(xué)習(xí)(RL)在模擬中訓(xùn)練智能體,并采用多種技術(shù)將策略零樣本部署到真實(shí)硬件上。這個(gè)智能體與人類玩家對打,以生成更多的訓(xùn)練任務(wù)條件,然后重復(fù)訓(xùn)練-部署周期。隨著機(jī)器人的進(jìn)步,比賽的標(biāo)準(zhǔn)變得越來越復(fù)雜,同時(shí)仍然基于現(xiàn)實(shí)世界的任務(wù)條件。這種混合模擬-現(xiàn)實(shí)周期創(chuàng)建了一個(gè)自動化的任務(wù)課程,使機(jī)器人的技能隨著時(shí)間的推移而提高。
打得怎么樣?
為了評估智能體的技能水平,機(jī)器人與 29 名不同技能水平的乒乓球運(yùn)動員進(jìn)行了競技比賽——初學(xué)者、中級、高級和高級+,這些水平是由專業(yè)乒乓球教練確定的。
面對所有對手,機(jī)器人贏得了 45% 的比賽和 46% 的單局勝利。按技能水平細(xì)分,可以看到機(jī)器人在對抗初學(xué)者時(shí)贏得了所有比賽,輸?shù)袅怂袑垢呒壓透呒?選手的比賽,并在對抗中級選手時(shí)贏得了 55% 的比賽。這強(qiáng)烈表明該智能體在回合中達(dá)到了中級人類玩家的水平。
圖|面對所有對手,機(jī)器人贏得了 45% 的比賽和 46% 的游戲,贏得了 100% 與初學(xué)者的比賽和 55% 與中級選手的比賽。
研究參與者喜歡與機(jī)器人打球,在“有趣”和“吸引人”方面給它打了很高的評分。這種評分在不同技能水平上都是一致的,無論參與者是贏是輸。他們還壓倒性地回答“肯定愿意”再次與機(jī)器人打球。當(dāng)給與他們自由與機(jī)器人打球的時(shí)間時(shí),他們平均玩了 4 分 06 秒,總共 5 分鐘。
高級選手能夠利用機(jī)器人策略中的弱點(diǎn),但他們?nèi)匀幌矚g與之打球。在賽后采訪中,他們認(rèn)為它是一個(gè)比發(fā)球機(jī)更有活力的練習(xí)伙伴。
圖|參與者喜歡與機(jī)器人打球,在“有趣”和“吸引人”方面給它打了很高的評分。
不足與展望
研究團(tuán)隊(duì)表示,這一機(jī)器人學(xué)習(xí)系統(tǒng)仍存在一些局限性,例如對快速球和低球的反應(yīng)能力有限、旋轉(zhuǎn)檢測精度低、缺乏多球策略戰(zhàn)術(shù)等。
未來的研究方向包括提高機(jī)器人對各種球的處理能力、學(xué)習(xí)更復(fù)雜的策略、改進(jìn)運(yùn)動捕捉技術(shù)等。
研究團(tuán)隊(duì)還表示,該研究提出的層次化策略架構(gòu)和零樣本模擬到真實(shí)的轉(zhuǎn)換方法可以應(yīng)用于其他機(jī)器人學(xué)習(xí)任務(wù)。并且,實(shí)時(shí)適應(yīng)技術(shù)可以幫助機(jī)器人更好地適應(yīng)不斷變化的環(huán)境和任務(wù)。此外,系統(tǒng)設(shè)計(jì)原則對于開發(fā)高性能和魯棒的機(jī)器人學(xué)習(xí)系統(tǒng)也至關(guān)重要。
下一篇:返回列表
【免責(zé)聲明】本文轉(zhuǎn)載自網(wǎng)絡(luò),與科技網(wǎng)無關(guān)。科技網(wǎng)站對文中陳述、觀點(diǎn)判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。