
引言
预训练语言模型在各种 NLP 下游任务中发挥着重要作用,目前语言模型已经逐渐从单语扩展到多语言,并且已经证明了其在跨语言 NLP 任务上的优越性能。目前多语言预训练模型的训练数据主要有两种,一种是每种语言的单语数据,另一种是互为翻译的双语平行数据。为了在同一语义空间构建不同语言的表示,之前的工作主要集中在两个预训练任务上:Multilingual Masked Language Model(MMLM)和 Translation Language Model(TLM),分别对应单语和双语数据的预训练任务。MMLM 是 Masked Language Model(MLM)的多语言版本,在共享语义空间中对每种语言分别建模;TLM 则对拼接后的双语语料进行 MLM 任务,通过 self-attention 机制隐式地捕捉双语语料之间的对齐。但 MLM 和 TLM 仅加强了 masked token 和 context sequence 之间的依赖,而没有考虑句子级语义信息。为了弥补这一点,之前的工作利用句子级对比学习,增强双语句子对之间的 sequence-sequence 语义对齐。尽管如此,隐藏在双语语料之间的同义词没有被充分利用,这对跨语言 NER 等 token-level 的下游任务非常重要。
论文标题:
VECO 2.0: Cross-lingual Language Model Pre-training with Multi-granularity Contrastive Learning
https://arxiv.org/abs/2304.08205
为了解决上述问题,论文提出了多粒度对齐的多语言预训练模型 VECO 2.0,VECO 2.0 是阿里巴巴达摩院多语言预训练模型 VECO 的升级版。在语言上,VECO 2.0 覆盖的语种从 50 扩充至 109 种;在结构上,VECO 2.0 基于 VECO Encoder 结构继续训练;在规模上,VECO 2.0 不仅训练了和 VECO 同等的 large 规模模型,还扩展到了 xlarge 规模。具体来说,VECO 2.0 引入新的 sequence-to-sequence 和 token-to-token 对比学习任务,以构建跨语言的统一表示。在 sequence-to-sequence 对齐任务中,VECO 2.0 利用对比学习最大化双语句子对的语义相似度,最小化非配对句子的相关性;在 token-to-token 的对齐任务中,先通过同义词词典挖掘出双语语料中的同义词,类似地利用对比学习减少 token 之间的距离,增大双语对中非同义词的距离。VECO 2.0 结合 MMLM 和 TLM 任务,构建了 token-sequence,sequence-sequence,token-token 的全方位对齐,从而实现跨语言的通用表示。
VECO 2.0 目前在大规模多语言多任务基准 XTREME 上排名第一。XTREME 是 Google 提出的多语言评测榜单,其中包括分类、序列标注、问答和检索 4 大类任务共 9 个数据集,覆盖了 40 种语种,MSRA、腾讯、科大讯飞、华为都曾在该榜单上排名前列。


如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
网友评论已有0条评论, 我也要评论