第三届全国翻译技术大赛第五期培训已经结束了,没来得及参与直播的小伙伴们不要着急,培训直播回放、内容回顾及模拟题都在这里,欢迎大家学习!
为帮助翻译从业者、爱好者及高校师生进一步了解翻译技术,同时为第三届全国翻译技术大赛参赛者提供备赛参考,中国翻译协会、中国外文局翻译院、天津外国语大学于5月起启动第三届全国翻译技术大赛系列培训。
第五期培训邀请大连外国语大学高级翻译学院副院长、中国翻译协会翻译技术专业委员会副主任委员王少爽以《人工智能与语料库、术语库建设》为题进行讲座。讲座概要如下:
内容回顾
语料:人工智能发展的根基
人类语言具有能产性、移位性、任意性、反思性、文化传递性和双重结构等独特特征,经历了从语音到文字的发展历程,文字可以更稳固地传递知识与文化。随着技术的迭代升级,承载语音、文字的工具愈发便利。
人工智能研究主要分为符号学派、连接学派和行为学派三大流派。其中,符号学派认为人工智能源于数理逻辑,连接学派认为人工智能源于仿生学,行为学派认为人工智能源于控制论。当前的生成式人工智能主要源于连接学派的思想和方法,同时融合了符号学派和行为学派的方法。
算法、数据、算力是人工智能的三大要素,算法提供方向,数据提供“燃料”,算力提供“加速引擎”。数据(语料)为模型提供海量学习素材,是模型丰富知识储备、开展大规模训练的基础,直接影响模型性能。现阶段的生成式人工智能是一种基于算法的知识媒介,是“知识渊博的认知平庸者”。
语料库基本概念及常用工具
语料库(Corpus)是系统化收集、整理并以电子形式存储的自然语言文本集合,主要应用于语言研究、自然语言处理和语言教学等领域。语料库具有真实性、检索性、标注性、规模化等特点,可根据内容、功能、标注层次、文本来源等维度进行分类。
构建语料库的基本流程包括确定目标和结构、收集语料数据、预处理、标注与对齐、验证与分析、发布与维护等。常用的语料采集、语料清洗、语料对齐、语料检索与分析工具如下图所示。更多相关工具,请点击链接查看:https://corpus-analysis.com/。
在翻译实践中,TMX(Translation Memory eXchange)是一种基于XML(eXtensible Markup Language, 可扩展标记语言)标准的文件格式,用于在不同计算机辅助翻译(Computer-Aided Translation, CAT)工具间交换翻译记忆(Translation Memories)数据。TMX可实现存储、更新、共享、资源复用等功能,具有格式统一、工具兼容性强、可扩展性强、可复用知识等优势。
术语库基本概念及核心工具
术语库(Terminology Database)是以术语条目为核心单位,系统记录专业术语及其语种、定义、上下位关系、用途、领域标签等信息的结构化语料资源库。术语库具有专业性、标准化、支持多语种、机器可读性等特点。根据语言种类,可分为单语术语库、双语术语库和多语术语库;根据使用目的,可分为翻译术语库、研究型术语库和企业术语库;根据专业领域,可分为通用术语库和专门术语库。
常用术语提取、管理工具以及翻译项目中的术语管理流程如图所示。
TBX(TermBase eXchange)是用于术语数据交换的开放式XML标准格式,详细内容可参见ISO30042:2019 Management of terminology resources — TermBase eXchange (TBX)。TBX最初由本地化行业标准协会(Localization Industry Standards Association, LISA)开发,用于促进翻译和术语管理工具之间的数据互通。其本质是一种结构化语法规范,使术语库可以在不同系统间准确、一致、安全地传输和共享。TBX主要有术语条目标准化、多语言支持、语义信息丰富、兼容性强、可扩展性强等优势。
人工智能赋能语料库、术语库建设
Token是大语言模型用于理解和生成语言的基础单位。分词(Tokenization)是大语言模型训练的关键步骤——模型会把用户输入的信息拆分并对应至相应ID编号,转化为模型可理解的数字语言。
在语料库建设中,大语言模型可赋能语料收集与清洗、语言识别与分类、分词与分句、双语对齐、语言标注、术语提取、元数据生成、语料扩展与仿写、语料检索优化、质量评估与审校等环节。
在术语库建设中,大语言模型可赋能术语识别与提取、术语标准化、术语对生成、定义与注释编写、术语分类与组织、术语一致性检查、术语扩展与更新、术语元数据补充、术语多模态应用、用户接口与交互等环节。
根据译文原创程度,翻译实践可分为三个层面,一是复用型翻译,即通过技术工具调用已有的权威翻译资源,也就是复用翻译资源;二是改善型翻译,即根据翻译语境需求对已有译文进行筛选和改进,也就是优化翻译资源;三是生成型翻译,即翻译此前未被翻译过的内容,也就是创新翻译资源。在具体操作上,这三个层面的翻译实践需要译员进行不同程度的智力投入,涉及译员的搜索能力、决策能力和管理能力,即“查”“选”“管”能力。
检索增强生成技术
大语言模型存在“幻觉”,其输出的内容不一定真实可靠。为提升输出内容准确性,可通过检索增强生成(Retrieval-Augmented Generation, RAG)技术减少大语言模型“幻觉”。
检索增强生成广泛应用于问答系统、智能客服、知识管理、教育辅导等场景,是一种结合了信息检索与生成式人工智能的技术架构,主要由检索器(Retriever)和生成器(Generator)组成,其核心思想是在模型生成回答之前,先从外部知识库中检索相关信息,再将这些信息输入模型中,以提升回答的准确性、可控性和事实性。检索增强生成能够有效减少模型“幻觉”,增强输出内容的事实性与可追溯性,且具备更新成本较低,可适配多语言、多领域任务等优势。百度AI搜索、知乎直达、天工等均使用了该技术架构,可连接平台知识库。
牛刀小试
以下哪项不是人类语言的特征?
A.移位性
B.任意性
C.能产性
D.单一结构
关于语料与大语言模型的关系,以下哪项说法是错误的?
A.语料为大语言模型提供海量语言和世界知识。
B.语料为大语言模型提供学习素材,是模型训练的基础。
C.语料是决定大语言模型配置的唯一标准。
D.语料是影响大语言模型性能的关键因素。
关于语料库,以下哪项说法是错误的?
A.按语种可分为单语语料库、双语语料库等,用于单语分析、翻译研究、跨语言对比等。
B.按功能可分为书面语料库、口语语料库、多模态语料库等,支持书面、口语、图像、视频等复合形式。
C.按功能可分为平衡语料库、专门语料库等,以适配不同研究需求。
D.可按标注层次划分,用于语言分析等领域。
关于TMX,以下哪项说法是错误的?
A.TMX基于XML格式,结构清晰,易于解析与转换。
B.大部分计算机辅助翻译工具都支持TMX格式文件的导入与导出。
C.TMX格式文件支持添加元数据,便于信息管理。
D.企业和译者无法在不同项目中通过TMX格式文件共享成果。
关于术语库,以下哪项说法是错误的?
A.术语库是以词元条目为核心单位的语料资源库。
B.术语库具有机器可读性等特点,支持多语对照。
C.术语库可划分为通用术语库和专门术语库。
D.术语管理是翻译项目中的关键环节。
以下哪项不是在线术语库?
A.AnyLexic。
B.中国特色话语对外翻译标准化术语库。
C.联合国术语库(United Nations Terminology Database, UNTERM)。
D.Tilde Term。
关于token,以下哪项说法是错误的?
A.Token可以是一个英文单词,如“dog”可能是1个token。
B.Token可以是一个标点符号,空格通常不计算token。
C.Token可以是一个汉字,如“你好”可能是2个token。
D.Token可以是一个英文单词的一部分,如“unbelievable”可能是3个token。
关于大语言模型,以下哪项说法是错误的?
A.大语言模型的数据来源是经系统性采集构建、有标注的真实语料。
B.大语言模型采用神经网络架构,因其“黑盒”特性导致生成内容可解释性低。
C.大语言模型具备自动生成多样化文本的能力,可灵活响应用户需求。
D.大语言模型输出内容以机器生成为主导,人工提示为辅助。
在语料库建设中,大语言模型可以赋能以下哪些环节?
A.语料收集与清洗。
B.分词与分句。
C.语言标注。
D.术语提取。
关于检索增强生成的技术架构,以下哪项说法是错误的?
A.可灵活整合结构化或非结构化语料,适配多领域、多语言任务。
B.更新成本较高,目前普及度较低。
C.能有效降低模型“编造”事实的可能性。
D.主要由检索器(Retriever)和生成器(Generator)组成。
大赛报名进行中
报名时间
2025年4月25日至2025年6月25日
仅剩2周!
报名方式
扫描二维码报名
点击报名链接报名
更多大赛培训信息
关注【中国外文局翻译院智能翻译实验室】视频号,预约培训直播
点击下方链接了解培训详细安排