香港教育大學
數據化的中文學習資源 香港舊電影粵語語料庫 透過情境對白學習語言

文: 教育傳媒

教育資訊 香港教育雜誌 教育傳媒 教育專業 香港舊電影 粵語 語料庫 香港教育大學 語言學及現代語言系 錢志安博士 二十世紀中期香港粵語語料庫 美國矽谷國際發明展金獎及特別獎
語言學及現代語言系  錢志安博士
語言學及現代語言系  錢志安博士

 

  對語言學家來說,研究語言最奧妙之處,就是能夠從語言的演化中,疏理及鑽研出時代的變遷與發展。香港教育大學語言學及現代語言系副教授及系主任錢志安博士前後花了約10年時間建立「二十世紀中期香港粵語語料庫」,從跨越20年的電影對白中,探索廣東話的前世今生,更從珍貴的大數據中,看到了語文教育的價值及可能性,希望發展成有效的廣東話教學工具,對教育及學習者,作出強大的支援。

 

從舊電影對白收集真實語料 數據完善 用途廣泛

  錢志安博士率先介紹「二十世紀中期香港粵語語料庫」,目前庫中共承載了80萬個中文字詞,語料的內容來自1943年至1970年的香港舊電影。錢志安博士笑着分享:「作為一位語言學者,我當初建立粵語語料庫的初衷,是希望透過收集一些語言材料,了解廣東話由過去到現在的演變,從而探索這種語言的面貌。計劃開初是從研究語言演變的基礎出發。」他指出,要收集舊時的語言材料,而且是口語,他跟團隊有想過訪問老人家,但在研究角度而言,記憶有誤及人為主觀等因素,收集的數據未必精確。「於是我就想到了粵語長片。雖然電影是一門創作,但亦會採用當時社會的常用語言,只要從中加以整理及分析,就能呈現50、60年前被記錄下來的廣東話。」

  錢志安博士續指,目前語料庫收集的80萬字,其內容取材自60套電影,橫跨了約20年時間。庫中的資料仔細詳盡,每句對白亦有分詞處理,每個字詞亦有完整的數據如:包含該字詞的句子、總出現句子數目、字詞的總出現次數、於60套電影中的使用比例、字詞屬性等;除了語言資料,亦有一些基本資料如字詞的電影出處、男女演員應用比例等,對於研究社會文化及歷史的用家來說亦是非常珍貴。「我們從中找到了很真實的語言材料,亦很高興於數據中發現了語言的變化。語言研究中最有趣的部分,就是能於語言變化的過渡期中,找到其演變機制及邏輯,了解到當中的原因。」

 

透過數據分析 確保教材客觀性 助語言學習生動貼地

  雖然「二十世紀中期香港粵語語料庫」一開始是為了研究廣東話而成立,但錢志安博士從中看到了更多可能性,希望可以把庫中的龐大數據應用於語文教育中。他舉了個生動例子,「如教導一個外國人廣東話,需要舉一個最常用的動詞,你會發現當刻可以有成千上萬的答案。但如何才算準確呢?透過語料庫的數據分析,我們就能找到客觀性的結果。對於支援教育者制定教材及教學方針,極具參考價值。」


  錢志安博士分享,他是一位語言學家。教育和撰寫教育材料不是他的專長,反而期望語料庫能成為有效的工具,幫助語文教育者及學習者。「舉例說,如希望教導『咗』字,庫中就能找到3000多條例句,現有的教學資源未必能夠提供到這數量的資料。我們亦正研究把電影片段剪輯並加入庫中,令用家可以真正理解如何『講』學習中的字詞,體會到適當的神情、語氣等,對外國學習者是非常有用的資源。」


  錢志安博士強調,學習語言不只學「說什麼」,「如何說」亦很重要,學習者需有足夠的語境訓練。因庫中語料來自電影對白,作為當時的流行文化產物,有一定的真實性。教育者能夠按需要篩選,製作出活生生的教材,令語言學習變得生動而貼地。

 

建立粵語語料庫參考指標 設計應用程式 以句子層面學習廣東話

  錢志安博士坦言,放諸於現時大數據的發展,80萬字的確難以與Google等數據庫相比,但在廣東話的範疇下,也是個可觀的成果。「據我們了解,現時坊間未有其他粵語語料庫能達至我們的字詞數量,以及其數據的仔細度。」錢志安博士指出,「建立這個語料庫涉及大量的繁複工序,例如要把對白轉化成文字材料,要以人手記錄成文本。而且廣東話中有大量同音字,亦有不同變化,如『一』既可是數字,又可是副詞,要區分出來。」他希望透過跟團隊的努力,可以給業界一個建
立粵語語料庫的參考,共同推進語言研究,以及支援語文教育的發展。


  「二十世紀中期香港粵語語料庫」的成效甚廣,2019年獲得了「美國矽谷國際發明展」金獎及特別獎,錢志安博士很高興他們的努力得到外界認同,證明其研究方向正確及能夠作出貢獻。未來正計劃以語料庫為基礎,設計一個以廣東話語音練習為題的手機應用程式,希望學習者能以句子的層面去學習廣東話,而不只集中於詞彙。另外,錢志安博士亦正與研發中文語言學習應用程式「縱橫識字」的謝家浩博士商討合作,希望用家學習到中文字的字義之外,亦可連結到語料庫,進一步學習中文的應用,達到學習語言的真正意義。