【香港商報网訊】記者葉佩瑜報道:隨著各種潮語及表情符號的出現,不少學生習慣使用網絡語言,大大影響中文寫作能力。有大學成功研究出「錯字和粵語檢測系統」(下稱ACT),只需幾秒即可完成分析一篇幾百字的文章,找出錯字及粵語,提供修正建議,準確率高達八成。研究團隊希望將ACT推廣至教育界,特別在考試方面提升學生的語言能力。
檢測千字文章只需數秒
中文大學系統工程與工程管理學系教授黃錦輝表示,其研究團隊從2014年起獲創科院邀請研發ACT系統,以針對學生慣用網絡語言,導致中文寫作能力下降的問題,ACT內有20GB的中文文章資料及6萬多個中文字的混淆集,經過教師的修改、機械學習及數據分析等提升,目前ACT準確率高達八成,只要幾秒時間即可完成分析一篇幾百到一千字的文章,標示出大部分錯別字,并提供錯別字與粵語口語的修正建議。
提供粵語字句修正供選擇
ACT主要分為錯字檢測與粵語檢測兩部分,可檢測常見錯字、粵語字底近似字型,如:「他很喜歡吃媽媽做的『梁』瓜『抄』蛋飯」、「『佢』很『鍾意』吃媽媽做的涼瓜炒蛋飯」,并建議修正為「他很喜歡吃媽媽做的涼瓜炒蛋飯」,亦可檢測粵語用法如:「我『走先』然后去打球」、量詞如:「我家養了一『尾』狗」以及倒裝詞,包括:緊要與要緊、質素與素質等,讓用戶自行決定是否修正。
中大系統工程及工程管理學系研究員馮沛璋表示,ACT會先運用錯字檢測模組為句子進行分詞及詞性標註,以分析出句子中不能與前文后理組成通順句子的字,雖然其他研究機構亦有以此邏輯進行相似研究,但由於目前演算法的限制,容易將常用單字如「的」、「地」等誤判為錯字,而ACT則較為準確,由於語言會隨時間及地區演變,難以制定一套永久及四海通用的用法,故ACT會透過人工智能與深度學習等,不斷自我改進。
黃錦輝透露,希望可在本年內將ACT轉化為辦公室軟件的插件,長遠而言將ACT產品化,推廣至教育界,以輔助教師及學生。他又指,ACT的成功是創科上游與中下游結合的例子,從另一方向看,可是鼓勵學生創業的一種方法。