cover_image

第三届全国翻译技术大赛第五期培训内容回顾&牛刀小试

图片
 图片
 图片
 图片
图片
 图片
 图片

第三届全国翻译技术大赛

第五期培训

内容回顾&牛刀小试

The Third National Translation Technology Contest

第三届全国翻译技术大赛第五期培训已经结束了,没来得及参与直播的小伙伴们不要着急,培训直播回放、内容回顾及模拟题都在这里,欢迎大家学习!



图片

为帮助翻译从业者、爱好者及高校师生进一步了解翻译技术,同时为第三届全国翻译技术大赛参赛者提供备赛参考,中国翻译协会、中国外文局翻译院、天津外国语大学于5月起启动第三届全国翻译技术大赛系列培训。

第五期培训邀请大连外国语大学高级翻译学院副院长、中国翻译协会翻译技术专业委员会副主任委员王少爽以《人工智能与语料库、术语库建设》为题进行讲座。讲座概要如下:

图片



内容回顾


1

语料:人工智能发展的根基

图片
图片
图片

人类语言具有能产性、移位性、任意性、反思性、文化传递性和双重结构等独特特征,经历了从语音到文字的发展历程,文字可以更稳固地传递知识与文化。随着技术的迭代升级,承载语音、文字的工具愈发便利。

人工智能研究主要分为符号学派、连接学派和行为学派三大流派。其中,符号学派认为人工智能源于数理逻辑,连接学派认为人工智能源于仿生学,行为学派认为人工智能源于控制论。当前的生成式人工智能主要源于连接学派的思想和方法,同时融合了符号学派和行为学派的方法。

算法、数据、算力是人工智能的三大要素,算法提供方向,数据提供“燃料”,算力提供“加速引擎”。数据(语料)为模型提供海量学习素材,是模型丰富知识储备、开展大规模训练的基础,直接影响模型性能。现阶段的生成式人工智能是一种基于算法的知识媒介,是“知识渊博的认知平庸者”。

2

语料库基本概念及常用工具

图片
图片
图片

语料库(Corpus)是系统化收集、整理并以电子形式存储的自然语言文本集合,主要应用于语言研究、自然语言处理和语言教学等领域。语料库具有真实性、检索性、标注性、规模化等特点,可根据内容、功能、标注层次、文本来源等维度进行分类。


图片


构建语料库的基本流程包括确定目标和结构、收集语料数据、预处理、标注与对齐、验证与分析、发布与维护等。常用的语料采集、语料清洗、语料对齐、语料检索与分析工具如下图所示。更多相关工具,请点击链接查看:https://corpus-analysis.com/


图片















图片


图片


图片


在翻译实践中,TMX(Translation Memory eXchange)是一种基于XML(eXtensible Markup Language, 可扩展标记语言)标准的文件格式,用于在不同计算机辅助翻译(Computer-Aided Translation, CAT)工具间交换翻译记忆(Translation Memories)数据。TMX可实现存储、更新、共享、资源复用等功能,具有格式统一、工具兼容性强、可扩展性强、可复用知识等优势。


3

术语库基本概念及核心工具

图片
图片
图片

术语库(Terminology Database)是以术语条目为核心单位,系统记录专业术语及其语种、定义、上下位关系、用途、领域标签等信息的结构化语料资源库。术语库具有专业性、标准化、支持多语种、机器可读性等特点。根据语言种类,可分为单语术语库、双语术语库和多语术语库;根据使用目的,可分为翻译术语库、研究型术语库和企业术语库;根据专业领域,可分为通用术语库和专门术语库。

常用术语提取、管理工具以及翻译项目中的术语管理流程如图所示。


图片


图片


图片


TBX(TermBase eXchange)是用于术语数据交换的开放式XML标准格式,详细内容可参见ISO30042:2019 Management of terminology resources — TermBase eXchange (TBX)。TBX最初由本地化行业标准协会(Localization Industry Standards Association, LISA)开发,用于促进翻译和术语管理工具之间的数据互通。其本质是一种结构化语法规范,使术语库可以在不同系统间准确、一致、安全地传输和共享。TBX主要有术语条目标准化、多语言支持、语义信息丰富、兼容性强、可扩展性强等优势。


4

人工智能赋能语料库、术语库建设

图片
图片
图片

Token是大语言模型用于理解和生成语言的基础单位。分词(Tokenization)是大语言模型训练的关键步骤——模型会把用户输入的信息拆分并对应至相应ID编号,转化为模型可理解的数字语言。

在语料库建设中,大语言模型可赋能语料收集与清洗、语言识别与分类、分词与分句、双语对齐、语言标注、术语提取、元数据生成、语料扩展与仿写、语料检索优化、质量评估与审校等环节。

在术语库建设中,大语言模型可赋能术语识别与提取、术语标准化、术语对生成、定义与注释编写、术语分类与组织、术语一致性检查、术语扩展与更新、术语元数据补充、术语多模态应用、用户接口与交互等环节。

根据译文原创程度,翻译实践可分为三个层面,一是复用型翻译,即通过技术工具调用已有的权威翻译资源,也就是复用翻译资源;二是改善型翻译,即根据翻译语境需求对已有译文进行筛选和改进,也就是优化翻译资源;三是生成型翻译,即翻译此前未被翻译过的内容,也就是创新翻译资源。在具体操作上,这三个层面的翻译实践需要译员进行不同程度的智力投入,涉及译员的搜索能力、决策能力和管理能力,即“查”“选”“管”能力。


5

检索增强生成技术

图片
图片
图片

大语言模型存在“幻觉”,其输出的内容不一定真实可靠。为提升输出内容准确性,可通过检索增强生成(Retrieval-Augmented Generation, RAG)技术减少大语言模型“幻觉”。

检索增强生成广泛应用于问答系统、智能客服、知识管理、教育辅导等场景,是一种结合了信息检索与生成式人工智能的技术架构,主要由检索器(Retriever)和生成器(Generator)组成,其核心思想是在模型生成回答之前,先从外部知识库中检索相关信息,再将这些信息输入模型中,以提升回答的准确性、可控性和事实性。检索增强生成能够有效减少模型“幻觉”,增强输出内容的事实性与可追溯性,且具备更新成本较低,可适配多语言、多领域任务等优势。百度AI搜索、知乎直达、天工等均使用了该技术架构,可连接平台知识库。




牛刀小试

01

以下哪项不是人类语言的特征?

A.移位性

B.任意性

C.能产性

D.单一结构


点击查看答案

图片


答案:D

解析:人类语言为双重结构,包括音素、词和句子。



02

关于语料与大语言模型的关系,以下哪项说法是错误的?

A.语料为大语言模型提供海量语言和世界知识。

B.语料为大语言模型提供学习素材,是模型训练的基础。

C.语料是决定大语言模型配置的唯一标准。

D.语料是影响大语言模型性能的关键因素。


点击查看答案

图片


答案:C

解析:语料是模型丰富知识储备、开展大规模训练的基础,更是直接影响模型性能的关键因素。此外,模型配置还包括模型架构、计算资源等,并非仅由语料决定。



03

关于语料库,以下哪项说法是错误的?

A.按语种可分为单语语料库、双语语料库等,用于单语分析、翻译研究、跨语言对比等。

B.按功能可分为书面语料库、口语语料库、多模态语料库等,支持书面、口语、图像、视频等复合形式。

C.按功能可分为平衡语料库、专门语料库等,以适配不同研究需求。

D.可按标注层次划分,用于语言分析等领域。


点击查看答案

图片


答案:B

解析:语料库按文本来源可分为书面语料库、口语语料库、多模态语料库。


04

关于TMX,以下哪项说法是错误的?

A.TMX基于XML格式,结构清晰,易于解析与转换。

B.大部分计算机辅助翻译工具都支持TMX格式文件的导入与导出。

C.TMX格式文件支持添加元数据,便于信息管理。

D.企业和译者无法在不同项目中通过TMX格式文件共享成果。


点击查看答案

图片


答案:D

解析:TMX能够复用知识,支持企业/译者在不同项目中复用翻译成果。


05

关于术语库,以下哪项说法是错误的?

A.术语库是以词元条目为核心单位的语料资源库。

B.术语库具有机器可读性等特点,支持多语对照。

C.术语库可划分为通用术语库和专门术语库。

D.术语管理是翻译项目中的关键环节。


点击查看答案

图片


答案:A

解析:术语库是以术语条目为核心单位,系统记录专业术语及其语言、定义、上下位关系、用途、领域标签等信息的结构化语料资源库。


06

以下哪项不是在线术语库?

A.AnyLexic。

B.中国特色话语对外翻译标准化术语库。

C.联合国术语库(United Nations Terminology Database, UNTERM)。

D.Tilde Term。


点击查看答案

图片


答案:A

解析:AnyLexic是独立术语管理工具,而非在线术语库。



07

关于token,以下哪项说法是错误的?

A.Token可以是一个英文单词,如“dog”可能是1个token。

B.Token可以是一个标点符号,空格通常不计算token。

C.Token可以是一个汉字,如“你好”可能是2个token。

D.Token可以是一个英文单词的一部分,如“unbelievable”可能是3个token。


点击查看答案

图片


答案:B

解析:一个标点符号通常为1个token,在英文中空格也常常被算作token。



08

关于大语言模型,以下哪项说法是错误的?

A.大语言模型的数据来源是经系统性采集构建、有标注的真实语料。

B.大语言模型采用神经网络架构,因其“黑盒”特性导致生成内容可解释性低。

C.大语言模型具备自动生成多样化文本的能力,可灵活响应用户需求。

D.大语言模型输出内容以机器生成为主导,人工提示为辅助。


点击查看答案

图片


答案:A

解析:大语言模型的数据来源于互联网上的大规模文本,且为自动收集。



09

在语料库建设中,大语言模型可以赋能以下哪些环节?

A.语料收集与清洗。

B.分词与分句。

C.语言标注。

D.术语提取。


点击查看答案

图片


答案:ABCD


10

关于检索增强生成的技术架构,以下哪项说法是错误的?

A.可灵活整合结构化或非结构化语料,适配多领域、多语言任务。

B.更新成本较高,目前普及度较低。

C.能有效降低模型“编造”事实的可能性。

D.主要由检索器(Retriever)和生成器(Generator)组成。


点击查看答案

图片


答案:B

解析:检索增强生成无需频繁训练模型,只需更新知识库即可反馈新信息,更新成本较低,普及度较高。



图片


大赛报名进行中


报名时间


2025年4月25日至2025年6月25日

仅剩2周!


报名方式


扫描二维码报名

图片


点击报名链接报名

https://contest.aticicg.org.cn/enroll/h5?channel=1


更多大赛培训信息


关注【中国外文局翻译院智能翻译实验室】视频号,预约培训直播




点击下方链接了解培训详细安排

第三届全国翻译技术大赛系列培训火热进行中!


大赛相关链接

第三届全国翻译技术大赛报名倒计时两周!

第三届全国翻译技术大赛报名进行中

第三届全国翻译技术大赛首期培训内容回顾&牛刀小试

第三届全国翻译技术大赛第二期培训内容回顾&牛刀小试

第三届全国翻译技术大赛第三期培训内容回顾&牛刀小试

第三届全国翻译技术大赛第四期培训内容回顾&牛刀小试

第三届全国翻译技术大赛译后编辑能力赛道详解

第三届全国翻译技术大赛提示词和智能体设计赛道题目发布

第三届全国翻译技术大赛翻译技术教学赛道详解

第三届全国翻译技术大赛机器翻译引擎赛道详解

第三届全国翻译技术大赛正式启动 助力新时代翻译行业高质量创新发展



第三届全国翻译技术大赛通知.pdf

点击链接,获取盖章版大赛通知



继续滑动看下一个
中国外文局翻译院智能翻译实验室
向上滑动看下一个