你的耳機要被AI“顛覆”了:只需看一眼,整個世界都是TA的聲音
在大多數(shù)情況下,現(xiàn)代生活是十分嘈雜的。如果你不喜歡周圍的喧囂,你可以選擇戴上降噪耳機,屏蔽你身邊的吵鬧聲音。
然而,一個問題是,目前的降噪耳機會不加區(qū)分地過濾掉所有聲音,其中就包括一些你真正想聽到的聲音。
盡管蘋果的第二代 AirPods Pro 可以自動為佩戴者調(diào)整聲音大小——例如,當佩戴者正在交談時,它就會自動感應(yīng)到,但他們幾乎無法決定聆聽誰的聲音或何時聆聽。
如今,一項新的人工智能(AI)技術(shù),或?qū)⒋呱鲆豢铑嵏矀鹘y(tǒng)的耳機——只需看一眼,整個世界都是 TA 的聲音。
來自華盛頓大學(xué)的研究團隊開發(fā)出了一種人工智能耳機系統(tǒng)——Target Speech Hearing(TSH),佩戴者只需注視目標說話者 3-5 秒鐘,就可以將其“鎖定”,消除環(huán)境中的所有其他聲音,只選擇聽被“鎖定”說話者的聲音。即使佩戴者在嘈雜的地方走來走去,不再面對說話者時,TSH 系統(tǒng)也能正常運行。
“我們通常認為現(xiàn)在的人工智能只是基于網(wǎng)絡(luò)的聊天機器人,被用來回答一些問題,” 該論文的通訊作者、華盛頓大學(xué)保羅-艾倫計算機科學(xué)與工程學(xué)院教授 Shyamnath Gollakota 說,“但在這個項目中,我們開發(fā)的人工智能可以根據(jù)佩戴者的喜好,改變他們的聽覺感知。”
研究團隊表示,TSH 系統(tǒng)不僅可以只聽某一個人的聲音,還可以只移除某一個人的聲音。這在某些情況下會很有幫助,比如你想過濾掉一個人的干擾性講話,同時還能聽到其他人的講話。
此前,研究團隊已在人機交互領(lǐng)域最重要的國際會議—— ACM CHI Conference on Human Factors in Computing Systems 上展示了這一研究成果。
目前,這一概念驗證設(shè)備的代碼已可供他人使用,但尚未投入商用,他們正在商談將其嵌入流行品牌的降噪耳機中。
此外,在未來的工作中,他們希望將 TSH 系統(tǒng)擴展到耳塞式耳機和助聽器。
被“鎖定”的聲音
據(jù)論文描述,佩戴者在使用 TSH 系統(tǒng)時,只需要將頭部對準目標說話者,然后輕按一個按鈕,即可完成“鎖定”。
這項工作建立在該團隊之前的 semantic hearing 研究基礎(chǔ)之上,該研究允許用戶選擇他們想聽到的特定聲音類別(如鳥叫或聲音),并取消環(huán)境中的其他聲音。
被“鎖定”說話者的聲波會同時到達耳機兩側(cè)的麥克風(fēng),耳機將信號發(fā)送到嵌入式計算機上,其中的機器學(xué)習(xí)軟件開始學(xué)習(xí)被“鎖定”說話者的發(fā)聲模式。
TSH 系統(tǒng)會捕捉這些聲音,并持續(xù)播放給佩戴者,即使在他們戴著耳機四處移動時。
隨著被“鎖定”人不斷說話,系統(tǒng)對他們的聲音的關(guān)注能力也會提高,從而為系統(tǒng)提供更多的訓(xùn)練數(shù)據(jù)。
他們在 21 名受試者身上測試了該系統(tǒng),受試者對被“鎖定”聲音清晰度的評分平均比未經(jīng)過濾的音頻高出近一倍。
不足與展望
然而,這項研究也存在一些局限性。
例如,目前的 TSH 系統(tǒng)一次只能“鎖定”一個說話者,而且只有在說話者的同一方向不存在另一個更大的聲音時,才能鎖定目標說話者。
在之后的工作中,研究團隊希望將 TSH 系統(tǒng)擴展到支持同時“鎖定”多個目標說話者,他們提出了兩種可能的方法:
1)為每個說話者運行一個單獨的網(wǎng)絡(luò)實例,這種方法的問題是,它需要更多的計算資源,因為每個說話者都需要一個獨立的處理流程。
2)訓(xùn)練一個能夠同時處理多個說話者的網(wǎng)絡(luò),這個網(wǎng)絡(luò)會使用某種形式的“聚合多說話者嵌入”,不需要為每個說話者單獨運行一個實例,而是在一次處理中分離出所有說話者的語音,從而更高效地處理多個說話者。
再者,人類的語音特征可能會隨著衰老、健康狀況和情緒變化等因素而改變,這可能會導(dǎo)致 TSH 系統(tǒng)不能識別聲音的細微差別,從而無法“鎖定”目標說話者。
研究團隊表示,佩戴者可以在提取目標說話者之前使用雙耳可聽設(shè)備捕獲目標語音的注冊樣本,因此這一因素在短時間內(nèi)可能不會有太大變化。
同時,目標說話者和干擾說話者的相似性越大,完全消除干擾說話者就越難。為了增強系統(tǒng)的魯棒性,可以使用在不同時間點的多個“鎖定”記錄,而不只是依據(jù)一個。
另外,盡管研究團隊使用了合成數(shù)據(jù)進行訓(xùn)練,并且能夠泛化到真實世界中未見過的說話者、室內(nèi)外環(huán)境以及支持移動性,但在實際應(yīng)用中,模型對于不同環(huán)境和說話者的泛化能力可能還有待進一步驗證和提高。
最后,他們也探討了一些更高效“鎖定”目標說話者的方法。例如,支持目標說話者的移動,這樣就會降低同一方向上出現(xiàn)另一個強干擾說話者的概率;即使在靜態(tài)場景中,訓(xùn)練網(wǎng)絡(luò)只關(guān)注佩戴者所看方向上距離最近或聲音最大的說話者。
參考鏈接:
https://dl.acm.org/doi/10.1145/3613904.3642057
https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/
上一篇:每天喝酸奶,對身體的好處非常大?這個答案你絕對想不到
下一篇:返回列表
【免責(zé)聲明】本文轉(zhuǎn)載自網(wǎng)絡(luò),與科技網(wǎng)無關(guān)。科技網(wǎng)站對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。