香港城市大學
研發AI、機器學習技術 看圖說句 造福人類

文: 教育傳媒

教育資訊 香港城市大學 電腦科學系 人工智能 ai Deep Learning 陳萬師博士

香港城市大學 電腦科學系副教授 陳萬師博士

一張圖像勝過千言萬語,當中可以包含許多信息,現今科技有否解讀圖中信息的能力呢?香港城市大學電腦科學系副教授陳萬師與學生研究以人工智能「看圖說話」,讓電腦分析圖片,總結出文字描述,不但能幫助視障人士閱讀圖片,也提升利用句子搜尋所需照片的精準度。

只需數秒 從照片解讀出文字描述
  陳萬師博士與學生花了約半年時間研究出操作方法簡單的程式,技術建基於深度學習(Deep Learning),以人工神經網路為架構,對資料進行表徵學習的算法。

AI 看圖說話

  陳博士指系統模仿人類看圖模式,先讓電腦學會像眼睛一樣閱讀圖像的各部分,抽取當中概念,然後處理語言,創建句子,再連結視覺和語言部分,組成完整的文字描述。「例如系統在照片中分辨到三個重點概念,藍色、車和街道,然後得出『一輛藍色的車停泊在街道』的描述。」

陳萬師博士研發的人工智能,分析圖片後會產出文字描述,並朝更精準、更多樣性等方向進階研究。

 

輔助閱讀圖像 造福視障人士
  視障人士缺乏接收圖像的媒介,程式令他們可以利用電腦分析取得描述,以不同方式感知世界。陳博士分享,程式不但便利視障人士,亦有利於搜尋圖像。「以往如果我們想尋找圖像,會在搜尋器輸入關鍵字,但這些字詞只是概念,準確度不及句子高。」透過AI 技術,我們可以用完整句子描述所需照片,例如輸入「一隻老虎在大樹下休息」,就可以精準地於海量的照片中找到包含所需元素的圖像。


增加描述多樣性 更貼合人類所需
  目前系統雖然簡單易用,但仍有改善空間。陳萬師博士舉例,如果向5 個人展示同一張圖片,基於每人知識水平及見解不同,所以會作出不一樣的描述。「我給你一張籃球員比賽中的照片,如果你對籃球不熟悉,可能會形容為球員在進行球賽,但如果你熟悉籃球球星,就會知道其中一人是米高佐敦。」因此,他與學生希望優化系統,使其變得更人性化,增加圖片描述多樣性,貼合不同用家需要。
  提及未來發展,陳萬師博士指利用AI 把圖像轉化成完整文句的技術,現時主要應用在教育範疇,將來希望能發展成完整的搜索引擎,推至普及層面。