在科幻電影里面,熒幕上的“終結者”不僅能從自己看到的畫面里檢索出有用的信息,還能梳理自己的記憶和邏輯,跟人類毫無障礙地交流,這種強烈的科技感讓人印象深刻。
反觀我們當下很多智能技術和產品,智能化水平和科技感并不高,不論是智能音箱、人臉識別閘機、刷臉支付、巡邏機器人,還是送餐機器人,“感官”能力過于單一和簡單,多種感官能力僅僅是物理層面的疊加。對于智能機器來說,提高視覺、聽覺、觸覺等多種生物感官復合能力與信息復用能力,是增強智能化水平的一個重要研究方向,跨媒體智能便是其中的一項重要技術。
何為跨媒體智能?
我們人類可以通過語言、文字、圖片等多種媒體形態接收到同樣一個信息。當我們理解這個信息后,會從大腦中回想與之相關聯的多種記憶,這些記憶可能來自書籍、影視、交流、畫冊等多種載體。我們從不同時間維度的記憶里去思考、推理,得到另外一個信息,然后輕而易舉地把它寫出來、說出來,或用其他途徑將它反饋出來。在智能機器中,實現以上信息處理流程,便是跨媒體智能。
對于智能機器來說,上述的信息處理流程是在多元異構的大數據里進行信息的分析、識別、檢索和推理。實現這套流程需要依賴大量的人工智能技術、互聯網技術,以及先進硬件和系統的支持。清華大學在這方面做了深入的研究,清華大學電子系媒體大數據中心的人像態勢識別技術,將人的像態、形態、神態、意態信息,通過 AI算法進行分析和提取;圖像描述算法是機器自動對圖像生成描述文字,既可以實現圖像與文本信息之間的推理,又能改變圖像的存儲方式;數據服務平臺技術則是支持數據存儲管理、推理演示、搜索引擎、行業技能知識存儲等功能;新型感知芯片是研究模擬生物皮膚的高靈敏度觸覺感知器件和芯片,構建高精度的觸覺傳感器和電子皮等技術。而這些基于AI及大數據技術,都是跨媒體智能的基礎。
基于這些技術的支持,跨媒體智能不僅僅是讓智能機器擁有更多的感官能力,更是打破這些能力之間的物理隔離,讓信息在更高維度層面進行融合和復用,真正讓機器的感官能力“動起來”。
目前,跨媒體智能在行業內也有著比較典型的應用。落地在粵港澳大灣區的紫為云·清華AI使能平臺,正是依托清華AI技術,成功推出多種跨媒體智能技術。平臺的大規模動態人員聚類系統,可簡單理解為在海量圖像視頻數據中,提取人臉、人體、時間以及位置等信息,將這些信息進行融合關聯,能夠把側對攝像頭、佩戴口罩和頭盔、背光,以及低頭等復雜情況下的人員進行識別,實現在開放環境中的身份確認和檢索。交通違章廢片智能過濾系統,是對交通場景中違章駕駛的抓拍照片或視頻,進行人車物的定位識別和檢索,匯集車輛、車牌、駕駛員、紅綠燈、地標、路標、路樁、車道線、路況信息,以及地域性規則等信息,將這些交通信息進行融合后,根據交通法律法規進行推理,判斷車輛是否違章,輔助交警治理交通安全。
隨著這些跨媒體智能技術的應用落地,科技正從方方面面改變著人們的生活。而當下產學研各界也正致力于跨媒體智能技術的研究和突破,逐步打磨高維度與多維度的算法融合,著力實現類腦機器人的核心算法技術簇,將讓公眾享受更智能、更便捷和更安全的智能服務。
(作者系清華大學電子系教授)
上一篇:理科教學也可以培養想象力
【免責聲明】本文轉載自網絡,與科技網無關。科技網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。