聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

基于四角号码的中文单词表示增强

2021-11-18 14:36 浏览: 2444971 次 我要评论(0 条) 字号:

分布式词表示,也称为词嵌入,可应用于许多下游NLP任务,例如命名实体识别、机器翻译、文本分类、情感分析等。从数学的角度来看,词嵌入将文本语料中的每个词映射到一个连续的向量空间中,从而得到一个具有可计算语义的实值低维向量;从语言学的角度来看,词嵌入旨在捕捉词的语义关系和共现,从而获得单词之间的相关的语义。良好的单词嵌入可以捕获更加精准的语义,从而使得计算机更好的“学会”语言表示。词嵌入的过程则是利用目标单词与其上下文的共现关系来优化每个单词在嵌入空间的位置,多轮迭代后使得二者之间的预测损失最小。相比于英文,中文在具有更加丰富的语义元素,而以往的工作大多考虑的是语义相关的元素,比如偏旁、部件、拼音等。本文从另一个角度出发,针对中文象形字符的特点,结合四角编码融合了汉字形态信息的特点,设计了一个结合了形态学和语义学习特征的词嵌入训练模型,并且取得了较好的中文单词表示效果。

该成果“Improving Chinese Word Representation Using Four Corners Features” 被IEEE Transactions on Big Data(TBD)的Special Issue录用。此特刊专注于社交媒体计算,其目的是从社交媒体数据中表示、分析和提取有用的模式。

  • 论文链接:https://www.computer.org/csdl/journal/bd/5555/01/09520254/1wdNJdPropq


背景与动机

针对中文的特点,目前有许多工作从中文的多个语义层面出发来增强中文单词的表示。比如CWE利用了单词内字符所蕴含的语义及其位置信息来提高单一的词嵌入模型;JWE则提出了字符和部件的三层解耦训练结构,将子词语义元素的探索延伸到了子字符层;而GWE模型则是在子字符层使用经过ConvE模型抽取出来的字符图像的特征来提高训练性能,其也考虑到了中文的象形特性,但是采用图像的方式会引入一些噪声从而使得形态特征所带来的性能提升不明显;cw2vec使用笔画的ngram作为基础的语义元素来训练模型以改进中文表示。这些工作都具有其先进性,但是没有充分的挖掘中文的象形文字特性。故而,基于融合了形态学信息的四角号码,我们提出了四角增强的中文词嵌入模型---4CWE。本文采用四角号码作为子字符层次的语义元素来提高模型的语义捕获能力,并且针对中文单词频率的长尾分布现象和四角号码元素极少的特征,设计了两个变种模型来解决训练语料不平衡和噪声的问题。


设计与实现

四角号码设计的初衷是为了推广汉字而设计的。针对中文笔画构造的象形特性,语言学家对每一个进行形态特征提取之后,将一个汉字使用五个特征编码来表征。汉字按照笔形分为十类:头、横、垂、点、叉、插、方、角、八、小,分别用数字0-9来表示,每个字的笔形按照左上、右上、左下、右下来进行取号。同时,为了增加辨识度以及捕获进一步的形态差异,在右下角上方给出了一个额外的数字来表示笔形。最后我们可以用五个数字的编码来对汉字的形态特征做一个全面抽取。

本文采用基于CBOW的三层解耦模型进行词嵌入的训练。在语料库D中,对于其目标单词wi的一个滑动窗口,其上下文单词为Wi, 上下文字符为Ci,其本身对应的四角号码为Fi。训练的目标是使得所有的单词的上下文预测概率值最大:
其中,
此处hiw代表上下文单词向量的加权和:

hic, hif同理可得。

同时,针对语料库存在的单次分布不均衡的长尾效应,本文为4CWE模型引入了两种基于词频的注意力机制。第一种是针对训练目标词的词频改变权重,从而使得高频词更多集中于单词共现,而对于训练训练次数较少的低频词,采用高权重提高其语义元素与上下文的比重从而使其得到更充分的训练。

通过对其向量表示进行加权处理,我们可以得到更好的训练效果:

第二种注意力机制则是专注于每一个上下文本身的词频而做出权重值的变化,每一个单词在参与训练的过程中都专注于自身的词频考虑来选择语义元素的权重,从而更加精细的解决注意力机制所面临的问题。其中,字符与子字符向量的权重取决于其本身所对应的上下文单词的词频。

4CWE在单词类比、单词相似度两个衡量词嵌入语义精确性的任务上取得了较好的结果。同时,在下游的文本分类任务上,4CWE所提供的词嵌入也取得了最优的效果。


实验结果

4CWE在单词类比、单词相似度两个衡量词嵌入语义精确性的任务上取得了较好的结果。同时,在下游的文本分类任务上,4CWE所提供的词嵌入也取得了最优的效果。

单词类比(WA)任务可用于衡量模型生成的词嵌入之间的语义关系。该任务基于语义平移现象,典型为:

具体过程为给定V(King) – V(man) + V(Queen)V(Queen), 然后与所有的词汇进行与余弦相似度计算,若相似度最大值所对应的单词为woman,则类比成功。

其中不同类型的单词对结果如图所示:

单词相似度(WS)任务旨在衡量单词之间的相关性。给定一对单词以及这两个单词之间的人工相似度打分,计算其与单词向量的余弦相似度的斯皮尔曼相关系数,就可以衡量训练得到的词嵌入在单词语义相关这个任务上的性能表现。下表为各个模型从不同的语料库训练的词嵌入在不同的测试数据集上的具体表现:

据我们观察,4CWE模型在单词相似度任务上的表现与单词词性有较大的关系,在形容词与动词上,4CWE系列的模型可以取得较好的效果,而在实体或名词上的表现则没有突出表现。结合形容词与动词语义多由形态特征表征,故而可以此结果证明了我们四角号码可以辅助捕获语义的观点。

在下游任务文本分类中,我们的模型也取得了较好的表现。在此任务中,我们通过将训练好的词嵌入作为语义空间,将单词文本映射到此空间后经由CNN网络进行学习最后输出分类结果。

此结果表明,我们的4CWE模型所训练出来的词嵌入具有较好的语义表示能力,并且在下游任务中得到了进一步的佐证。



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复