乒乓球,被稱為中國的“國球”,是一種世界流行的球類體育項目,打好乒乓球需要快速的反應、精準控制和優(yōu)秀戰(zhàn)略決策。隨著計算機科學技術的發(fā)展,圍繞乒乓球機器人的研究成為熱門領域,但其速度和精度雙重高要求、目標的控制成為機器人技術中一個具有挑戰(zhàn)性的問題。與象棋、圍棋等策略游戲不同,它要求機器人具備復雜的人機交互能力,需要在毫秒級的時間內完成設覺檢測、軌跡預測、運動決策等動作。
近日,DeepMind公司宣布,其研發(fā)團隊開發(fā)出一款乒乓球機器人,可在比賽中達到人類業(yè)余乒乓球選手的水平,能夠與中級選手進行旗鼓相當?shù)膶梗踔猎诿鎸Ω呒夁x手時也能贏得相當比例的分數(shù)。最令人驚嘆的是,它具有學習和適應能力,在與人類比賽的剛開始階段,它可能會落后,但隨著比賽次數(shù)的增加,它能模擬和學習人類的打法,調整策略,使比分變得更加接近。
圍棋已經被AI算法征服,在乒乓球競賽上,人類還能將優(yōu)勢堅守多久?
編譯 | Ren
繼AlphaGo在圍棋上征服人類之后,谷歌DeepMind近日又放大招,這次是一個能夠在乒乓球比賽中與人類業(yè)余選手一較高下的機器人。它不僅會正反手接球,還能學習和適應不同對手的打法,展現(xiàn)出令人驚嘆的靈活性和學習能力。
目前,這個乒乓球機器人尚未命名,但科技媒體Arstechnica給了個建議,叫它AlphaPong。
乒乓球作為一項需要快速反應、精準控制和戰(zhàn)略思維的運動,長期以來被認為是AI和機器人技術的一個巨大挑戰(zhàn)。與象棋、圍棋等純粹的策略游戲不同,乒乓球機器人要求具備復雜的人機交互能力,需要在毫秒級的時間內做出決策和動作。
谷歌DeepMind的最新成果,標志著AI在體育競技的應用方面邁出了重要一步。研究團隊在論文中自豪地宣稱:“這是首個能與人類在同等水平上進行體育競技的機器人代理,它標志著機器人學習和控制技術的一個重要里程碑。”
乒乓球機器人是怎樣練成的?
這款乒乓球機器人,機械部分來自ABB公司的IRB 1100型號機械手臂,是ABB公司推出的最緊湊和輕量化的六軸機器人之一,具有6個活動關節(jié),安裝在兩個直線軌道上,使其能夠2D平面內自由移動,并覆蓋球臺的大部分區(qū)域。機械臂的末端裝配了一個3D打印的球拍手柄和一個標準正膠乒乓球拍。這種設置模仿了人類選手的橫板握法,使機器人能夠執(zhí)行各種常見的乒乓球技術動作。
乒乓球機器人的“大腦”是一個復雜的AI系統(tǒng),該系統(tǒng)還配備了高速攝像機來實時捕捉球員動作和乒乓球的軌跡。采用了分層和模塊化的策略架構。這個架構主要由兩個部分組成:低級控制器(LLC)和高級控制器(HLC)。
LLC是一組經過訓練的神經網絡,負責執(zhí)行特定的乒乓球技能,例如:正反手擊球、回球、接發(fā)球等。LLC 可能包括用正手打出斜線球、保守地打反手球,以及用正手回擊下旋球等。
LLC同時收集和存儲了詳細的技能描述,用于說明其在不同情況下的優(yōu)劣表現(xiàn),為高層控制提供重要參考。LLC采用卷積神經網絡(CNN)架構,能夠直接從視覺輸入生成50Hz的關節(jié)速度指令,實現(xiàn)精準的動作控制。
HLC則是指揮官,協(xié)調LLC,在每次來球時,基于當前比賽統(tǒng)計數(shù)據(jù)、技能描述以及對手的能力,做出最優(yōu)戰(zhàn)略決策。HLC包含多個關鍵組件,其中,風格策略決定是使用正手還是反手;旋轉分類器識別來球的旋轉;比賽統(tǒng)計模塊追蹤對手和機器人的表現(xiàn);策略模塊使用前幾個組件作為輸入,給出候選LLC的列表;而LLC偏好模塊則估算每個LLC對當前對手的表現(xiàn),并在每次擊球后更新,實現(xiàn)實時學習和適應對手特點。
這種分層架構使得機器人能夠在毫秒級的時間內做出復雜的決策,既保證了反應速度,又保障了動作的精度。
從虛擬到現(xiàn)實
這個乒乓球機器人系統(tǒng)的訓練過程融合了強化學習和模仿學習的優(yōu)點,采用了一種創(chuàng)新的迭代方法來克服從虛擬到現(xiàn)實的挑戰(zhàn)。
首先,研究團隊在現(xiàn)實世界中部署了機器人,收集與人類互動的數(shù)據(jù),通過數(shù)據(jù)集上訓練,在現(xiàn)實世界中評估,并使用帶注釋的評估數(shù)據(jù)擴展數(shù)據(jù)集進行迭代循環(huán),研究團隊最終得到大量的球狀態(tài)數(shù)據(jù)和發(fā)球數(shù)據(jù)。
然后,他們使用強化學習算法在精心設計的模擬環(huán)境中訓練AI系統(tǒng)。這個模擬環(huán)境使用了MuJoCo物理引擎,可以在仿真中切換不同的球拍參數(shù),來模擬真實世界中的上旋和下旋效果。
訓練完成后,AI系統(tǒng)被直接部署到真實的機器人上,與人類選手進行對抗。這個過程中產生的新數(shù)據(jù)又被用來更新訓練,形成一個不斷迭代的循環(huán):訓練-部署-數(shù)據(jù)收集-再訓練。
通過這種方法,機器人的技能在模擬與現(xiàn)實相結合的過程中不斷提升,比賽也逐漸變得更加復雜。
這種迭代方法的一個關鍵優(yōu)勢是,機器人能夠在實戰(zhàn)中發(fā)現(xiàn)自身能力的不足,然后通過在模擬環(huán)境中的持續(xù)訓練來彌補這些缺陷。正是這種自我完善的能力,使其能夠不斷適應新的對手和打法。
實戰(zhàn)表現(xiàn)
為了評估機器人的實際表現(xiàn),研究團隊進行了一項全面的用戶研究。他們首先進行了一項預研究,由一名專業(yè)乒乓球教練對59名志愿者的水平進行評估,將他們分為初學者、中級、高級和高級+四個等級。
在正式的用戶研究中,29名參與者與機器人進行了3場比賽,并有一個可選的自由練習環(huán)節(jié)。研究的主要指標是機器人在與人類選手比賽中的得分情況,同時研究人員還對比賽視頻進行了分析。
研究結果令人印象深刻:
機器人在所有比賽中贏得了45%的勝利,在所有局數(shù)中贏下了46%,在所有分數(shù)中拿到了49%的得分。
對陣初學者時,機器人的勝率高達100%。
對陣中級選手時,機器人贏得了55%的比賽和50%的局數(shù)。
對陣高級和高級+選手時,機器人沒有贏得任何比賽或局數(shù),但仍然得到了34%的分數(shù)。
這些數(shù)據(jù)表明,機器人的整體表現(xiàn)達到了業(yè)余選手的水平,能夠與中級選手進行旗鼓相當?shù)膶梗踔猎诿鎸Ω呒夁x手時也能贏得相當比例的分數(shù)。
機器人最令人驚嘆的特點之一是它的實時適應能力。研究人員觀察到,在一場比賽的開始階段,機器人可能會落后,但隨著比賽的進行,它能迅速適應對手的打法,調整策略,使比分變得更加接近。
參與者的反饋也非常積極。各個技能水平的玩家都認為與機器人的比賽很有趣,并表示有興趣再次與機器人對戰(zhàn)。在賽后訪談中,玩家們用“有趣”和“刺激”等詞來描述機器人。
值得注意的是,不同技能水平的玩家對機器人的看法略有不同。初學者和中級玩家認為機器人更具挑戰(zhàn)性,而高級和高級+玩家則認為它更具吸引力和樂趣。這表明機器人能夠適應不同水平的對手,為各類玩家提供適度的挑戰(zhàn)和樂趣。
這點也是研究人員特別關注的。這種愉快的互動體驗突顯了AI在體育訓練和娛樂領域的潛力。想象一下,一個能夠適應你的水平,不知疲倦的訓練伙伴,既能挑戰(zhàn)你的極限,又能讓你樂在其中。這樣的AI陪練可能會徹底改變我們學習和練習運動的方式。
局限與挑戰(zhàn)
盡管整體上表現(xiàn)不俗,這個機器人仍然存在不小的局限性。首先就是它還不會發(fā)球,只能靠人類發(fā)球開局。
其次,研究團隊發(fā)現(xiàn),它在處理極快球、極低球和高球時表現(xiàn)欠佳,對帶有強烈旋轉的球也難以準確判斷。此外,其反手技術相比正手還有很大的提升空間。
一個尤其突出的弱點是處理下旋球的能力,面對下旋球時,機器人擊球的上臺率顯著下降。
研究人員解釋稱,這主要是因為機器人在處理弧線低且接近球桌的球時,為了避免撞擊到球桌,很難做出精準控制。同時,在實時確定球的旋轉類型上也存在技術局限。
這些挑戰(zhàn)為未來的研究指明了方向。例如,通過更先進的控制算法和硬件優(yōu)化來降低延遲,開發(fā)更復雜的碰撞檢測和規(guī)避算法來應對低球,探索更強的戰(zhàn)略制定能力,甚至是讓機器人之間對打。
可以說,DeepMind的最新成果展示了AI和機器人技術在復雜物理世界任務中的巨大潛力。這項技術的應用將遠不止于乒乓球,它可以推廣到需要快速反應和適應不可預測人類行為的各種機器人任務中,實現(xiàn)更高水平的人機協(xié)作。
一位人工智能、大模型領域的研究人士告訴《返樸》,AlphaPong目前可以實現(xiàn)大部分乒乓球愛好者陪練需求,從長遠的發(fā)展來看,它需要采集更多的數(shù)據(jù),包括各種旋球、假動作等人類各種技能數(shù)據(jù),再通過AI強大的算法戰(zhàn)勝人類,但是能“見”到多少是個未知數(shù)。后期,Alphapong可能會面臨在不同的條件下優(yōu)化現(xiàn)有的模型。
不妨想象一下,每個運動員都能擁有一個能夠模仿世界頂級選手風格,同時又能根據(jù)個人特點調整難度的AI訓練伙伴。這不僅能提高訓練效率,還能幫助運動員更好地理解和改進自己的技術。
隨著技術的不斷進步,我們可以期待看到更多類似的AI系統(tǒng)在各個領域嶄露頭角。它們不是來取代人類,而是來協(xié)助、激勵和挑戰(zhàn)我們的,推動我們去探索人類潛能的極限。
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回復四位數(shù)組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權說明:歡迎個人轉發(fā),任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯(lián)系后臺。
下一篇:返回列表
【免責聲明】本文轉載自網絡,與科技網無關。科技網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。