自然语言处理的ELMO使用

1、概述
word embedding 是现在自然语言处理中最常用的 word representation 的方法,常用的word embedding 是word2vec的方法,然而word2vec本质上是一个静态模型,也就是说利用word2vec训练完每个词之后,词的表示就固定了,之后使用的时候,无论新句子上下文的信息是什么,这个词的word embedding 都不会跟随上下文的场景发生变化,这种情况对于多义词是非常不友好的。例如英文中的 bank这个单词,既有河岸的意思,又有银行的意思,但是在利用word2vec进行word embedding 预训练的时候会获得一个混合多种语义的固定向量表示。即使在根据上下文的信息能明显知道是“银行”的情况下,它对应的word embedding的内容也不会发生改变。
elmo的提出就是为了解决这种语境问题,动态的去更新词的word embedding。elmo的本质思想是:事先用语言模型在一个大的语料库上学习好词的word embedding,但此时的多义词仍然无法区分,不过没关系,我们接着用我们的训练数据(去除标签)来fine-tuning 预训练好的elmo 模型。作者将这种称为domain transfer。这样利用我们训练数据的上下文信息就可以获得词在当前语境下的word embedding。作者给出了elmo 和glove的对比
对于glove训练出来的word embedding来说,多义词play,根据他的embedding 找出的最接近的其他单词大多数几种在体育领域,这主要是因为训练数据中包含play的句子大多数来源于体育领域,之后在其他语境下,play的embedding依然是和体育相关的。而使用elmo,根据上下文动态调整后的embedding不仅能够找出对应的“表演”相同的句子,还能保证找出的句子中的play对应的词性也是相同的。接下来看看elmo是怎么实现这样的结果的。
2、模型结构
elmo 基于语言模型的,确切的来说是一个 bidirectional language models,也是一个 bidirectional lstm结构。我们要做的是给定一个含有n个tokens的序列
t1, t2, ... , tn
其前向表示为:
反向表示为:
从上面的联合概率来看是一个典型的语言模型,前向利用上文来预测下文,后向利用下文来预测上文。假设输入的token是,在每一个位置 k ,每一层lstm 上都输出相应的context-dependent的表征。
这里 j = 1 , 2 , ... , l ,l 表示lstm的层数。顶层的lstm 输出,通过softmax层来预测下一个。
对数似然函数表示如下:
模型的结构图如下:
elmo 模型不同于之前的其他模型只用最后一层的输出值来作为word embedding的值,而是用所有层的输出值的线性组合来表示word embedding的值。
对于每个token,一个l层的 bilm要计算出 2l + 1 个表征:
在上面等于,表示的是token层的值。
在下游任务中会把 rk压缩成一个向量:
其中是softmax标准化权重,γtask是缩放系数,允许任务模型去缩放整个elmo向量。
elmo的使用主要有三步:
1)在大的语料库上预训练 bilm 模型。模型由两层bi-lstm 组成,模型之间用residual connection 连接起来。而且作者认为低层的bi-lstm层能提取语料中的句法信息,高层的bi-lstm能提取语料中的语义信息。
2)在我们的训练语料(去除标签),fine-tuning 预训练好的bilm 模型。这一步可以看作是bilm的domain transfer。
3)利用elmo 产生的word embedding来作为任务的输入,有时也可以即在输入时加入,也在输出时加入。
elmo 在六项任务上取得了the state of the art ,包括问答,情感分析等任务。总的来说,elmo提供了词级别的动态表示,能有效的捕捉语境信息,解决多义词的问题。

新华网报道:《2022年全球DDoS攻击现状与趋势分析报告》及华为新品发布,全方位守护业务平稳运行
在不同的PCB设计平台文件转SIGRITY平台方法的详细解析
1199还要啥自行车?这样的魅族note9已经很优秀了,值得入手
电机过电流损坏的原因与特征
乐视网截至9月底有息债务高达80亿
自然语言处理的ELMO使用
手机智能卡RFID应用你对其了解多少
蓝牙耳机哪个牌子好?口碑逆天的五大蓝牙耳机品牌!
机器人的工作原理解析
【干货】建议收藏!电源设计常用公式解析
湖南科技大学材料学院在半导体器件散热领域取得新进展
FPGA与MCU/模拟技术整合趋势
不比外观、不比性能,只比游戏效果同样是骁龙835小米6和一加5哪款更好
新基建和新兴技术带动Gosund智能家居高速持续增长
粗糙度仪轮廓仪有哪些应用?
便携式气体检测仪的使用方法
江苏国泰2017净利7.9亿元 拟在波兰设电解液工厂
中国的区块链怎样开局和监管
EASYV1.00的基本原理
人工智能创作成果保护问题该如何解决