当前位置:首页  校园新闻

AI带你读古文 金连文教授团队获EvaHan2023文言文翻译竞赛冠军

时间:2023-09-12供稿单位:电子与信息学院浏览量:2579

分享到

金连文教授团队获奖证书

9月8日,“机器翻译峰会MTS2023”在中国澳门圆满落幕。会上举办的第一届古汉语机器翻译竞赛(EvaHan2023)吸引了来自北京大学、南京大学、华南理工大学、香港中文大学、北京理工大学等知名院校的20多支队伍同场竞技。华南理工大学电子与信息学院的金连文教授团队提出基于大语言模型(LLM)的方案在比赛中获得冠军。

文言文是中国传统文化的载体。“文言文-现代文”自动翻译可以帮助人们了解古代中国历史,推动中华优秀传统文化的传承。然而文言文和现代文在语法结构、表达习惯等方面存在较大区别,给自动翻译带来挑战。同时,文言文中常用省略句式,在翻译工作中需要对省略部分进行恢复,要求翻译系统具备丰富的先验知识。

针对文言文翻译中的难点,团队提出的解决方案基于大规模预训练的语言模型LLaMA,使用文言文数据扩充词表,并创新性地使用预训练模型的词嵌入对文言文词表进行融合扩充,以充分利用预训练模型存储的知识。此外,整合精炼现有的文言文语料,构建了一个大规模的文言文数据集,并使用该数据集对扩充词表后的模型进行增量式无监督预训练,使模型具备了丰富的文言文先验知识。

基于以上方法,团队针对比赛数据进行多阶段的有监督训练,在机器翻译指标中达到了29.68的BLEU得分和26.14的CHRF得分,以较大优势获得竞赛冠军。

金连文团队成员包括硕士研究生曹家欢,博士研究生彭德智、施永鑫,硕士研究生江宗源。(文/通讯员 曹家欢 彭德智 电子与信息学院 编辑/杨晓霓)




文字:

图片:

视频:

编辑:

责任编辑:

返回原图
/