運用大數據學習廣東話 緊貼社會文化變遷 學習在地化生活語言

文: 教育傳媒

教育資訊 教育傳媒 教育專業 教育專業26期 香港教育大學 錢志安博士 語言學及現代語言系 粵語 大數據

研究指出香港非華語人士學習粵語的成功率偏低,當中非本地人士平均十人中就有九人因不同的學習困難而中途放棄,專家指出箇中原因與粵語口語和中文書面語差距大,聲調容易混淆和學習教材未趕得上時代用語,難以融入生活等有關。香港教育大學語言學及現代語言系系主任及副教授錢志安博士研究漢語和粵語多年,曾經整理出「二十世紀中期香港粵語語料庫」,探索粵語過去半個世紀的演變。2019 年,錢博士得到語文教育及研究常務委員會(語常會)和語文基金的資助,參與「香港非華語人士中文學與教材料開發計劃」,結合大數據科技,取用日常生活的粵語語料,開發「Learn Cantonese with Big Data」手機應用程式,以提升非華語人士學習日常粵語的興趣和成效。

雅俗文本兼收 提高學習多樣性

「Learn Cantonese with Big Data」應用程式較傳統的粵語學習工具和課程更貼近時下的生活用語,程式除了記錄詞性、筆劃、部首、筆順外,亦結合語料庫技術和語言學知識,從而引導師生透過字詞使用頻率,詞彙搭配和常用字詞等調整教學模式,達致更有效的學與教。錢志安博士指出,坊間的粵語教材有時會包含一些不常見或一早已消失於香港社會的詞語,如「馬車」、「人力車」、「三廂車」、「風車」、「腳車」和「款廂型車」等。

「我們注意到大部分粵語詞典着重粵語方言詞,如『佢哋、咩嘢、叻』等,跟現代漢語一樣的詞條則未被收錄,如『蘋果』、『社會』、『政府』等——然而這些都是常用詞,工具書缺乏這些詞條會對粵語學習者引起不便。」錢博士指出,他與團隊運用數據科技,分析和處理了網上資源和現代粵語材料,如面書專頁「西客之道」、「維基百科」、「迴響粵語文學期刊」、「《 小王子》粵語版」、「二十世紀中期香港粵語語料庫」和「粵典」等雅俗兼備的文本,整理出一些常用詞,並比較這些粵語詞料的使用頻率和配搭字詞如「動詞—名詞賓語」和「量詞—名詞」,最後開發手機應用程式——「Learn Cantonese with Big Data」。

設以圖搜字功能 字詞對照南亞語

程式為更切合非華語人士使用需要,特意加設了以圖像搜字的功能,用家可以拍下照片,再上傳至系統,透過文字辨識技術,自動輸入相片的漢字進行檢索,同時系統除了中英對照外,亦對照多種南亞語,如烏都語,尼泊爾語和印度語。錢博士補充,平台為提供個人化的學習模式,用家只要註冊個人帳戶,就能將字詞頁面加入書籤,作為個人的學習紀錄,方便日後複習。

顯示使用頻率 從常用字開展學習

「香港部分的非華語人士可能未必對整個粵語語系知識感興趣,他們只想融入香港社會,能在日常生活中順利和交流,因此一些符合日常需要,並能應用於生活的學習素材更為重要。」錢博士表示「Learn Cantonese with Big Data」處理了約 210 萬字,當中主要來自 4,466個漢字。語料中首 1,000 個常用漢字已經涵蓋 95% 的語料。「因此掌握粵語常用詞彙對於學習粵語有着關鍵性的意義,程式因為應用了大數據,可以展示出字詞的使用頻率,同時亦會顯示『動詞—名詞賓語』和『量詞—名詞』的搭配。」這種數據主導的學習方法,能夠提高語言學習效能,同樣還能加強常用字訓練,而且亦方便系統進行快速更新。此外,語料能夠反映當下文化趨勢,如在疫情中的香港,系統反映「食外賣」的配搭使用次數亦較高。

錢博士希望以後能夠有更多運用大數據開發的語言學習工具,使學習更生活化和做到學以致用的效果。

錢志安博士Learn Cantonese with Big Data程式中高頻詞語