撰文 | 馬雪薇
前言
根據世界衛生組織(WHO) 2021 年公布的數據,世界前 10 大死因共計造成 3900 萬人死亡,占全球死亡總人數(6800 萬)的 57%,其主要與兩大類疾病有關,即心血管疾病(如缺血性心臟病、中風等)和呼吸系統疾病(如肺結核、慢性阻塞性肺病、下呼吸道感染等)。
其中,呼吸系統疾病所導致的咳嗽或呼吸,包含很多關于我們健康狀況的信息。例如,臨床醫生使用類似“喘息”的咳嗽聲來診斷百日咳,以及使用臨終呼吸來檢測急性心血管事件。
那么,在人工智能(AI)時代,我們是否可以利用這一技術從這些聲音數據中提取健康信息,進而更好地監測我們的身體狀況呢?
來自谷歌、贊比亞傳染病研究中心結核病科的研究團隊在這一方向邁出了重要一步,他們合作推出了生物聲學基礎模型 HeAR(Health Acoustic Representations),旨在幫助他們監聽人類聲音并標記疾病早期跡象。相關研究論文以“HeAR - Health Acoustic Representations”為題,已發表在預印本網站 arXiv 上。
據介紹,他們在從多樣化且去識別化的數據集中精心挑選的 3 億個音頻數據上訓練了 HeAR,還特別使用了大約 1 億個咳嗽聲音來訓練這一“咳嗽模型”。
HeAR 能夠辨別與健康相關聲音中的模式,在廣泛任務上的平均排名高于其他模型,且能夠跨麥克風泛化。使用 HeAR 訓練的模型也以較少的訓練數據實現了高性能,這在常常缺乏數據的醫療研究領域是一個關鍵因素。HeAR 現在可供研究人員使用,從而幫助加速開發具有較少數據、設置和計算要求的定制生物聲學模型。
StopTB Partnership 數字健康專家 Zhi Zhen Qin 表示:“像 HeAR 這樣的解決方案將使 AI 驅動的聲學分析在肺結核篩查和檢測方面大有用處,將為最需要的人提供一種可能影響較小、易于獲取的工具。”
未來,研究團隊希望通過這項研究,推進在肺結核、胸部、肺和其他疾病領域的診斷工具和監測解決方案的開發,并幫助改善全球社區的健康結果。
如今,印度的呼吸健康公司 Salcit Technologies 基于此開發了一款名為 Swaasa 的產品,使用 AI 分析咳嗽聲音并評估肺部健康。該公司正在探索 HeAR 如何幫助擴展其生物聲學 AI 模型的功能。
一聲咳嗽,即可檢測疾病
HeAR 系統由三個主要部分組成。通過自我監督學習,HeAR 系統利用大量未標記的音頻數據學習通用的音頻表示,并能夠遷移到各種健康聲學任務中。
圖|HeAR 系統概況
在數據采集步驟,研究團隊使用了一個健康聲學事件檢測器。這是一個多標簽分類卷積神經網絡(CNN),用于識別 2 秒音頻片段中是否存在 6 種非語音健康聲學事件:咳嗽、嬰兒咳嗽、呼吸、清嗓子、笑聲和說話。該檢測器使用 FSD50K 和 FluSense 數據集進行訓練,并通過音頻片段中的標簽(例如“咳嗽”、“打噴嚏”和“呼吸”)進行標注。
論文使用了兩個數據集,一部分是從 30 億個公共非版權 YouTube 視頻中提取的 2 秒音頻片段,總共有 3.133 億個片段或約 174000 小時的音頻。這些片段使用健康聲學事件檢測器進行篩選。另一部分由贊比亞傳染病研究中心收集,包含來自 599 名疑似肺結核患者的咳嗽音頻錄音和胸部 X 光片。
研究團隊使用掩碼自編碼器在包含 3.13 億個兩秒鐘長音頻片段的大型數據集上進行訓練。通過線性探測,在跨越 6 個數據集的 33 個健康聲學任務基準上,HeAR 在所有健康音頻嵌入模型中的表現達到了 SOTA。
圖|HeAR 在 33 個健康音頻任務中取得了最高的平均排名(MRR = 0.708),超越了所有其他基線模型。
HeAR 在 FSD50K 和 FluSense 數據集上的表現優于其他模型,特別是在使用 FSD50K 訓練的模型中排名第二。
圖|健康聲學事件檢測任務在 FSD50K 和 FluSense 數據集上的性能比較。
HeAR 在 10/14 個咳嗽推理任務中表現優于基線模型,包括人口統計、生活方式。在 TB 和 CXR 任務中,其表現與最佳模型相當。
圖|咳嗽推理任務的性能比較。
HeAR 在 SpiroSmart 數據集上的 4/5 個肺功能測試任務和性別分類任務中表現優于基線模型。
圖|肺功能測試任務的性能比較。
HeAR 在 CIDRZ 數據集上的表現不受不同錄音設備的影響,對不同設備具有魯棒性。此外,HeAR 在訓練數據較少的情況下也能取得良好的性能,在標注數據稀缺的醫療研究中更具優勢。
然而,HeAR 也具有一定的局限性。例如,線性探針無法完全發揮模型的性能潛力,部分數據集規模較小且存在類不平衡問題,且 HeAR 等模型較大,難以在手機等設備上運行。
研究團隊表示,未來可以考慮微調模型或加入更多特征來提升性能,以及收集更多數據并改進數據預處理方法,還可以考慮研究模型壓縮和量化技術,使其能夠在本地設備上運行。
AI 輔助診斷疾病,大有可為
從輔助醫生到獨立診斷疾病,AI 在醫療領域的應用越來越廣泛,且展現了巨大的潛力。
今年 6 月,來自倫敦帝國理工學院和劍橋大學的研究團隊訓練了 AI 模型 EMethylNET,通過觀察 DNA 甲基化模式,從非癌組織中識別出 13 種不同類型的癌癥(包括乳腺癌、肝癌、肺癌和前列腺癌等),準確率高達 98.2%。
7 月,由波士頓大學研究團隊及其合作者開發的 AI 工具,有望幫助我們(同時)診斷 10 種不同類型的癡呆癥,將神經科醫生的準確率提高了 26% 以上。
近日,針對兒童的“隱形殺手”自閉癥,AI 也有了突破。由卡羅林斯卡學院研究團隊開發的一種多模態數據分析 AI 模型,不僅可以在自閉癥患兒 12 個月左右時發現患病的早期跡象,而且對兩歲以下兒童識別的準確率達到了 80.5%,更重要的是,整個過程只需要相對有限的信息。
可以預見,AI 將在不久的將來幫助人類診斷更多疾病,為醫療健康領域帶來更多可能性。
下一篇:返回列表
【免責聲明】本文轉載自網絡,與科技網無關。科技網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。