研發AI、機器學習技術　看圖說句　造福人類

文：

教育資訊香港城市大學電腦科學系人工智能 ai Deep Learning 陳萬師博士

一張圖像勝過千言萬語，當中可以包含許多信息，現今科技有否解讀圖中信息的能力呢？香港城市大學電腦科學系副教授陳萬師與學生研究以人工智能「看圖說話」，讓電腦分析圖片，總結出文字描述，不但能幫助視障人士閱讀圖片，也提升利用句子搜尋所需照片的精準度。

只需數秒　從照片解讀出文字描述
　　陳萬師博士與學生花了約半年時間研究出操作方法簡單的程式，技術建基於深度學習（Deep Learning），以人工神經網路為架構，對資料進行表徵學習的算法。

AI 看圖說話

　　陳博士指系統模仿人類看圖模式，先讓電腦學會像眼睛一樣閱讀圖像的各部分，抽取當中概念，然後處理語言，創建句子，再連結視覺和語言部分，組成完整的文字描述。「例如系統在照片中分辨到三個重點概念，藍色、車和街道，然後得出『一輛藍色的車停泊在街道』的描述。」

陳萬師博士研發的人工智能，分析圖片後會產出文字描述，並朝更精準、更多樣性等方向進階研究。

輔助閱讀圖像造福視障人士
　　視障人士缺乏接收圖像的媒介，程式令他們可以利用電腦分析取得描述，以不同方式感知世界。陳博士分享，程式不但便利視障人士，亦有利於搜尋圖像。「以往如果我們想尋找圖像，會在搜尋器輸入關鍵字，但這些字詞只是概念，準確度不及句子高。」透過AI 技術，我們可以用完整句子描述所需照片，例如輸入「一隻老虎在大樹下休息」，就可以精準地於海量的照片中找到包含所需元素的圖像。

增加描述多樣性　更貼合人類所需
　　目前系統雖然簡單易用，但仍有改善空間。陳萬師博士舉例，如果向5 個人展示同一張圖片，基於每人知識水平及見解不同，所以會作出不一樣的描述。「我給你一張籃球員比賽中的照片，如果你對籃球不熟悉，可能會形容為球員在進行球賽，但如果你熟悉籃球球星，就會知道其中一人是米高佐敦。」因此，他與學生希望優化系統，使其變得更人性化，增加圖片描述多樣性，貼合不同用家需要。
　　提及未來發展，陳萬師博士指利用AI 把圖像轉化成完整文句的技術，現時主要應用在教育範疇，將來希望能發展成完整的搜索引擎，推至普及層面。

香港城市大學電腦科學系人工智能 ai Deep Learning 陳萬師博士

返回教育專題