亚洲国产成人一区二区精品区,麻豆精品国产传媒av绿帽社,亚洲色图自拍

您當前的位置：首頁 > 科技新聞

你的耳機要被AI“顛覆”了：只需看一眼，整個世界都是TA的聲音

發(fā)布時間：2024-05-29 11:12:22 來源：學(xué)術(shù)頭條字號： [ 大 ] [ 中 ] [ 小 ]

在大多數(shù)情況下，現(xiàn)代生活是十分嘈雜的。如果你不喜歡周圍的喧囂，你可以選擇戴上降噪耳機，屏蔽你身邊的吵鬧聲音。

然而，一個問題是，目前的降噪耳機會不加區(qū)分地過濾掉所有聲音，其中就包括一些你真正想聽到的聲音。

盡管蘋果的第二代 AirPods Pro 可以自動為佩戴者調(diào)整聲音大小——例如，當佩戴者正在交談時，它就會自動感應(yīng)到，但他們幾乎無法決定聆聽誰的聲音或何時聆聽。

如今，一項新的人工智能（AI）技術(shù)，或?qū)⒋呱鲆豢铑嵏矀鹘y(tǒng)的耳機——只需看一眼，整個世界都是 TA 的聲音。

來自華盛頓大學(xué)的研究團隊開發(fā)出了一種人工智能耳機系統(tǒng)——Target Speech Hearing（TSH），佩戴者只需注視目標說話者 3-5 秒鐘，就可以將其“鎖定”，消除環(huán)境中的所有其他聲音，只選擇聽被“鎖定”說話者的聲音。即使佩戴者在嘈雜的地方走來走去，不再面對說話者時，TSH 系統(tǒng)也能正常運行。

“我們通常認為現(xiàn)在的人工智能只是基于網(wǎng)絡(luò)的聊天機器人，被用來回答一些問題，” 該論文的通訊作者、華盛頓大學(xué)保羅-艾倫計算機科學(xué)與工程學(xué)院教授 Shyamnath Gollakota 說，“但在這個項目中，我們開發(fā)的人工智能可以根據(jù)佩戴者的喜好，改變他們的聽覺感知。”

研究團隊表示，TSH 系統(tǒng)不僅可以只聽某一個人的聲音，還可以只移除某一個人的聲音。這在某些情況下會很有幫助，比如你想過濾掉一個人的干擾性講話，同時還能聽到其他人的講話。

此前，研究團隊已在人機交互領(lǐng)域最重要的國際會議—— ACM CHI Conference on Human Factors in Computing Systems 上展示了這一研究成果。

目前，這一概念驗證設(shè)備的代碼已可供他人使用，但尚未投入商用，他們正在商談將其嵌入流行品牌的降噪耳機中。

此外，在未來的工作中，他們希望將 TSH 系統(tǒng)擴展到耳塞式耳機和助聽器。

被“鎖定”的聲音

據(jù)論文描述，佩戴者在使用 TSH 系統(tǒng)時，只需要將頭部對準目標說話者，然后輕按一個按鈕，即可完成“鎖定”。

這項工作建立在該團隊之前的 semantic hearing 研究基礎(chǔ)之上，該研究允許用戶選擇他們想聽到的特定聲音類別（如鳥叫或聲音），并取消環(huán)境中的其他聲音。

被“鎖定”說話者的聲波會同時到達耳機兩側(cè)的麥克風(fēng)，耳機將信號發(fā)送到嵌入式計算機上，其中的機器學(xué)習(xí)軟件開始學(xué)習(xí)被“鎖定”說話者的發(fā)聲模式。

TSH 系統(tǒng)會捕捉這些聲音，并持續(xù)播放給佩戴者，即使在他們戴著耳機四處移動時。

隨著被“鎖定”人不斷說話，系統(tǒng)對他們的聲音的關(guān)注能力也會提高，從而為系統(tǒng)提供更多的訓(xùn)練數(shù)據(jù)。

他們在 21 名受試者身上測試了該系統(tǒng)，受試者對被“鎖定”聲音清晰度的評分平均比未經(jīng)過濾的音頻高出近一倍。

不足與展望

然而，這項研究也存在一些局限性。

例如，目前的 TSH 系統(tǒng)一次只能“鎖定”一個說話者，而且只有在說話者的同一方向不存在另一個更大的聲音時，才能鎖定目標說話者。

在之后的工作中，研究團隊希望將 TSH 系統(tǒng)擴展到支持同時“鎖定”多個目標說話者，他們提出了兩種可能的方法：

1）為每個說話者運行一個單獨的網(wǎng)絡(luò)實例，這種方法的問題是，它需要更多的計算資源，因為每個說話者都需要一個獨立的處理流程。

2）訓(xùn)練一個能夠同時處理多個說話者的網(wǎng)絡(luò)，這個網(wǎng)絡(luò)會使用某種形式的“聚合多說話者嵌入”，不需要為每個說話者單獨運行一個實例，而是在一次處理中分離出所有說話者的語音，從而更高效地處理多個說話者。

再者，人類的語音特征可能會隨著衰老、健康狀況和情緒變化等因素而改變，這可能會導(dǎo)致 TSH 系統(tǒng)不能識別聲音的細微差別，從而無法“鎖定”目標說話者。

研究團隊表示，佩戴者可以在提取目標說話者之前使用雙耳可聽設(shè)備捕獲目標語音的注冊樣本，因此這一因素在短時間內(nèi)可能不會有太大變化。

同時，目標說話者和干擾說話者的相似性越大，完全消除干擾說話者就越難。為了增強系統(tǒng)的魯棒性，可以使用在不同時間點的多個“鎖定”記錄，而不只是依據(jù)一個。

另外，盡管研究團隊使用了合成數(shù)據(jù)進行訓(xùn)練，并且能夠泛化到真實世界中未見過的說話者、室內(nèi)外環(huán)境以及支持移動性，但在實際應(yīng)用中，模型對于不同環(huán)境和說話者的泛化能力可能還有待進一步驗證和提高。

最后，他們也探討了一些更高效“鎖定”目標說話者的方法。例如，支持目標說話者的移動，這樣就會降低同一方向上出現(xiàn)另一個強干擾說話者的概率；即使在靜態(tài)場景中，訓(xùn)練網(wǎng)絡(luò)只關(guān)注佩戴者所看方向上距離最近或聲音最大的說話者。

參考鏈接：

https://dl.acm.org/doi/10.1145/3613904.3642057

https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/

上一篇：每天喝酸奶，對身體的好處非常大？這個答案你絕對想不到

下一篇：返回列表

【免責(zé)聲明】本文轉(zhuǎn)載自網(wǎng)絡(luò)，與科技網(wǎng)無關(guān)。科技網(wǎng)站對文中陳述、觀點判斷保持中立，不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考，并請自行承擔(dān)全部責(zé)任。

亚洲二区三区在线,久久久久高清毛片一级,亚洲综合一区二区三区不卡,中文不卡av

你的耳機要被AI“顛覆”了：只需看一眼，整個世界都是TA的聲音