亚洲二区三区在线,久久久久高清毛片一级,亚洲综合一区二区三区不卡,中文不卡av

歡迎訪問科技網(wǎng)!

您當前的位置: 首頁 > 科技新聞

你的耳機要被AI“顛覆”了:只需看一眼,整個世界都是TA的聲音

發(fā)布時間:2024-05-29 11:12:22 來源:學(xué)術(shù)頭條 字號: [ 大 ] [ 中 ] [ 小 ]

在大多數(shù)情況下,現(xiàn)代生活是十分嘈雜的。如果你不喜歡周圍的喧囂,你可以選擇戴上降噪耳機,屏蔽你身邊的吵鬧聲音。

然而,一個問題是,目前的降噪耳機會不加區(qū)分地過濾掉所有聲音,其中就包括一些你真正想聽到的聲音

盡管蘋果的第二代 AirPods Pro 可以自動為佩戴者調(diào)整聲音大小——例如,當佩戴者正在交談時,它就會自動感應(yīng)到,但他們幾乎無法決定聆聽誰的聲音或何時聆聽。

如今,一項新的人工智能(AI)技術(shù),或?qū)⒋呱鲆豢铑嵏矀鹘y(tǒng)的耳機——只需看一眼,整個世界都是 TA 的聲音。

圖片

來自華盛頓大學(xué)的研究團隊開發(fā)出了一種人工智能耳機系統(tǒng)——Target Speech Hearing(TSH),佩戴者只需注視目標說話者 3-5 秒鐘,就可以將其“鎖定”,消除環(huán)境中的所有其他聲音,只選擇聽被“鎖定”說話者的聲音。即使佩戴者在嘈雜的地方走來走去,不再面對說話者時,TSH 系統(tǒng)也能正常運行。

我們通常認為現(xiàn)在的人工智能只是基于網(wǎng)絡(luò)的聊天機器人,被用來回答一些問題,” 該論文的通訊作者、華盛頓大學(xué)保羅-艾倫計算機科學(xué)與工程學(xué)院教授 Shyamnath Gollakota 說,“但在這個項目中,我們開發(fā)的人工智能可以根據(jù)佩戴者的喜好,改變他們的聽覺感知。”

圖片

研究團隊表示,TSH 系統(tǒng)不僅可以只聽某一個人的聲音,還可以只移除某一個人的聲音。這在某些情況下會很有幫助,比如你想過濾掉一個人的干擾性講話,同時還能聽到其他人的講話。

此前,研究團隊已在人機交互領(lǐng)域最重要的國際會議—— ACM CHI Conference on Human Factors in Computing Systems 上展示了這一研究成果。

目前,這一概念驗證設(shè)備的代碼已可供他人使用,但尚未投入商用,他們正在商談將其嵌入流行品牌的降噪耳機中。

此外,在未來的工作中,他們希望將 TSH 系統(tǒng)擴展到耳塞式耳機和助聽器。

被“鎖定”的聲音

據(jù)論文描述,佩戴者在使用 TSH 系統(tǒng)時,只需要將頭部對準目標說話者,然后輕按一個按鈕,即可完成“鎖定”。

這項工作建立在該團隊之前的 semantic hearing 研究基礎(chǔ)之上,該研究允許用戶選擇他們想聽到的特定聲音類別(如鳥叫或聲音),并取消環(huán)境中的其他聲音。

被“鎖定”說話者的聲波會同時到達耳機兩側(cè)的麥克風(fēng),耳機將信號發(fā)送到嵌入式計算機上,其中的機器學(xué)習(xí)軟件開始學(xué)習(xí)被“鎖定”說話者的發(fā)聲模式。

圖片

TSH 系統(tǒng)會捕捉這些聲音,并持續(xù)播放給佩戴者,即使在他們戴著耳機四處移動時。

隨著被“鎖定”人不斷說話,系統(tǒng)對他們的聲音的關(guān)注能力也會提高,從而為系統(tǒng)提供更多的訓(xùn)練數(shù)據(jù)。

他們在 21 名受試者身上測試了該系統(tǒng),受試者對被“鎖定”聲音清晰度的評分平均比未經(jīng)過濾的音頻高出近一倍。

不足與展望

然而,這項研究也存在一些局限性。

例如,目前的 TSH 系統(tǒng)一次只能“鎖定”一個說話者,而且只有在說話者的同一方向不存在另一個更大的聲音時,才能鎖定目標說話者。

在之后的工作中,研究團隊希望將 TSH 系統(tǒng)擴展到支持同時“鎖定”多個目標說話者,他們提出了兩種可能的方法:

1)為每個說話者運行一個單獨的網(wǎng)絡(luò)實例,這種方法的問題是,它需要更多的計算資源,因為每個說話者都需要一個獨立的處理流程。

2)訓(xùn)練一個能夠同時處理多個說話者的網(wǎng)絡(luò),這個網(wǎng)絡(luò)會使用某種形式的“聚合多說話者嵌入”,不需要為每個說話者單獨運行一個實例,而是在一次處理中分離出所有說話者的語音,從而更高效地處理多個說話者。

再者,人類的語音特征可能會隨著衰老、健康狀況和情緒變化等因素而改變,這可能會導(dǎo)致 TSH 系統(tǒng)不能識別聲音的細微差別,從而無法“鎖定”目標說話者。

研究團隊表示,佩戴者可以在提取目標說話者之前使用雙耳可聽設(shè)備捕獲目標語音的注冊樣本,因此這一因素在短時間內(nèi)可能不會有太大變化。

同時,目標說話者和干擾說話者的相似性越大,完全消除干擾說話者就越難。為了增強系統(tǒng)的魯棒性,可以使用在不同時間點的多個“鎖定”記錄,而不只是依據(jù)一個。

另外,盡管研究團隊使用了合成數(shù)據(jù)進行訓(xùn)練,并且能夠泛化到真實世界中未見過的說話者、室內(nèi)外環(huán)境以及支持移動性,但在實際應(yīng)用中,模型對于不同環(huán)境和說話者的泛化能力可能還有待進一步驗證和提高

最后,他們也探討了一些更高效“鎖定”目標說話者的方法。例如,支持目標說話者的移動,這樣就會降低同一方向上出現(xiàn)另一個強干擾說話者的概率;即使在靜態(tài)場景中,訓(xùn)練網(wǎng)絡(luò)只關(guān)注佩戴者所看方向上距離最近或聲音最大的說話者。

參考鏈接:

https://dl.acm.org/doi/10.1145/3613904.3642057

https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/

【免責(zé)聲明】本文轉(zhuǎn)載自網(wǎng)絡(luò),與科技網(wǎng)無關(guān)。科技網(wǎng)站對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

主站蜘蛛池模板: 手游| 城口县| 洛川县| 南部县| 嘉义市| 志丹县| 乳山市| 牙克石市| 乐清市| 金川县| 成安县| 靖边县| 秀山| 林州市| 通海县| 蒲江县| 土默特右旗| 定兴县| 新营市| 顺义区| 永昌县| 信丰县| 台东县| 淮滨县| 乃东县| 舟山市| 万盛区| 富平县| 中西区| 鄢陵县| 富顺县| 云安县| 太保市| 都江堰市| 高雄县| 南召县| 称多县| 灵石县| 南靖县| 连江县| 云南省|