任务背景
01
情感分析
(sentiment analysis)
情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,其广泛应用于消费决策、舆情分析、个性化推荐等领域,具有很高的商业价值。例如:食行生鲜自动生成菜品评论标签辅助用户购买,并指导运营采购部门调整选品和促销策略;房天下向购房者和开发商直观展示楼盘的用户口碑情况,并对好评楼盘置顶推荐;国美搭建服务智能化评分系统,客服运营成本减少40%,负面反馈处理率100%。
02
自然语言处理(nlp)技术
自然语言处理(英语:natural language process,简称nlp)是计算机科学、信息工程以及人工智能的子领域,专注于人机语言交互,探讨如何处理和运用自然语言。最近几年,随着深度学习以及相关技术的发展,nlp领域的研究取得一个又一个突破,研究者设计各种模型和方法,来解决nlp的各类问题,其中比较常见包括lstm, bert, gru, transformer, gpt等算法模型。
方案简介
本方案采用paddlenlp工具套件进行模型训练,并基于openvino 开发套件实现在intel平台上的高效能部署。本文将主要分享如何在openvino 开发套件中“无缝”部署paddlepaddle bert模型,并对输出结果做验证。
01
paddlenlp
paddlenlp是一款简单易用且功能强大的自然语言处理开发库。聚合业界优质预训练模型并提供开箱即用的开发体验,覆盖nlp多场景的模型库搭配产业实践范例可满足开发者灵活定制的需求。
02
openvino 开发套件
openvino 开发套件是intel平台原生的深度学习推理框架,自2018年推出以来,intel已经帮助数十万开发者大幅提升了ai推理性能,并将其应用从边缘计算扩展到企业和客户端。英特尔于2022年巴塞罗那世界移动通信大会前夕,推出了英特尔 发行版openvino 开发套件的全新版本。其中的新功能主要根据开发者过去三年半的反馈而开发,包括更多的深度学习模型选择、更多的设备可移植性选择以及更高的推理性能和更少的代码更改。为了更好地对paddle模型进行支持,新版openvino 开发套件分别做了一下升级:
■直接支持paddle格式模型
目前openvino 开发套件2022.1发行版中已完成对paddlepaddle模型的直接支持,openvino 开发套件的model optimizer工具已经可以直接完成对paddle模型的离线转化,同时runtime api接口也可以直接读取加载paddle模型到指定的硬件设备,省去了离线转换的过程,大大提升了paddle开发者在intel平台上部署的效率。经过性能和准确性验证,在openvino 开发套件2022.1发行版中,会有13个模型涵盖5大应用场景的paddle模型将被直接支持,其中不乏像ppyolo和ppocr这样非常受开发者欢迎的网络。
图:openvino 开发套件的mo和ie可以直接支持paddle模型输入
■ 全面引入动态输入支持
为了适配更广泛的模型种类,openvino 2022.1版本的cpu plugin已经支持了动态input shape,让开发者以更便捷的方式部署类似nlp或者ocr这样的网络,openvino 开发套件用户可以在不需要对模型做reshape的前提下,任意送入不同shape的图片或者向量作为输入数据,openvino 开发套件会自动在runtime过程中对模型结构与内存空间进行动态调整,进一步优化dynamic shape的推理性能。
图:在nlp中的dynamic input shape
详细介绍可以参考:https://docs.openvino.ai/latest/openvino_docs_ov_ug_dynamicshapes.html
bert原理简介
01
bert结构介绍
bert (bidirectional encoder representations from transformers)以transformer 编码器为网络基本组件,使用掩码语言模型(masked language model)和邻接句子预测(next sentence prediction)两个任务在大规模无标注文本语料上进行预训练(pre-train),得到融合了双向内容的通用语义表示模型。以预训练产生的通用语义表示模型为基础,结合任务适配的简单输出层,微调(fine-tune)后即可应用到下游的nlp任务,效果通常也较直接在下游的任务上训练的模型更优。此前bert即在glue评测任务上取得了sota的结果。
图:bert的2阶段训练任务
不难发现,其模型结构是transformer的encoder层,只需要将特定任务的输入,输出插入到bert中,利用transformer强大的注意力机制就可以模拟很多下游任务。(句子对关系判断,单文本主题分类,问答任务(qa),单句贴标签(命名实体识别)),bert的训练过程可以分成预训练和微调两部分组成。
02
预训练任务(pre-training)
bert是一个多任务模型,它的任务是由两个自监督任务组成,即mlm和nsp。
■task #1:masked language model
所谓mlm是指在训练的时候随即从输入预料上mask掉一些单词,然后通过的上下文预测该单词,该任务非常像我们在中学时期经常做的完形填空。正如传统的语言模型算法和rnn匹配那样,mlm的这个性质和transformer的结构是非常匹配的。
■task #2: next sentence prediction
next sentence prediction(nsp)的任务是判断句子b是否是句子a的下文。如果是的话输出’isnext‘,否则输出’notnext‘。训练数据的生成方式是从平行语料中随机抽取的连续两句话,其中50%保留抽取的两句话,它们符合isnext关系,另外50%的第二句话是随机从预料中提取的,它们的关系是notnext的。
微调任务 (fine-tuning)
在海量单预料上训练完bert之后,便可以将其应用到nlp的各个任务中了。以下展示了bert在11个不同任务中的模型,它们只需要在bert的基础上再添加一个输出层便可以完成对特定任务的微调。这些任务类似于我们做过的文科试卷,其中有选择题,简答题等等。微调的任务包括:
■ 基于句子对的分类任务
■ 基于单个句子的分类任务
■ 问答任务
■ 命名实体识别
图:bert的4大下游微调任务
训练与部署流程
本示例包含paddlenlp训练和openvino 开发套件部署两部分组成。
01
环境安装
打开命令行终端,分别输入以下命令,完成本地环境安装和配置。
1.1 安装paddlepaddle (ai studio环境中可以略过)
如果是cpu训练环境需要执行以下命令进行安装:
如果是gpu训练环境需要执行以下命令进行安装:
1.2安装paddlenlp与相关依赖
下载paddlenlp:
安装paddlenlp相关依赖:
1.3安装openvino 开发套件
02
训练部分
训练部分是bert在 paddle 2.0上的开源实现,可以分为数据准备,bert encoder预训练,sst2情感分类任务微调以及推理模型导出这四个步骤。
可以参考paddle官方的案例说明,对以下过程做了简要汇总,地址:
https://github.com/paddlepaddle/paddlenlp/tree/develop/model_zoo/bert
图:paddle bert模型训练流程
除此之外,我们也可以借助paddle ai studio直接运行训练脚本(无脑点击运行就可以了: )),链接如下:
https://aistudio.baidu.com/aistudio/projectdetail/4193790?contributiontype=1
2.1步骤一:数据准备(可略过)
paddlenlp中bert任务下自带的create_pretraining_data.py 是创建预训练程序所需数据的脚本。其以文本文件(使用换行符换行和空白符分隔,data目录下提供了部分示例数据)为输入,经由bert tokenizer进行tokenize后再做生成sentence pair正负样本、掩码token等处理,最后输出hdf5格式的数据文件。使用方式如下,在命令行输入:
2.2步骤二:gpu训练(可略过)
使用paddle.distributed.launch配置项运行run_pretrain.py训练脚本,可以在多卡gpu环境下启动bert预训练任务。命令行指令如下:
■model_type 指示了模型类型,使用bert模型时设置为bert即可。
■model_name_or_path 指示了某种特定配置的模型,对应有其预训练模型和预训练时使用的 tokenizer。若模型相关内容保存在本地,这里也可以提供相应目录地址。
■input_dir 表示输入数据的目录,该目录下所有文件名中包含training的文件将被作为训练数据。output_dir 表示模型的保存目录。
2.3步骤三:模型fine-tunning
如果自己没有准备训练数据集的话,也可以跳过前面的步骤,直接使用huggingface提供的预训练模型进行fine-tuning,以glue中的sst-2任务为例,该脚本会自动下载sst-2任务中所需要的英文数据集,启动fine-tuning的方式如下:
■model_name_or_path 指示了某种特定配置的模型,对应有其预训练模型和预训练时使用的 tokenizer。若模型相关内容保存在本地,这里也可以提供相应目录地址。注:bert-base-uncased等对应使用的预训练模型转自huggingface/transformers
可以看到启动fine-tuning任务以后,脚本会自动下载bert-base-uncased预训练模型,以及用于fine-tuning的bert-base-uncased-vocab.txt数据集。
当训练任务到达预先设定的step轮数以后,便会停止训练,并且将.pdparam格式的模型权重保存在tmp目录下。
2.4步骤四:模型导出
在fine-tuning完成后,我们可以使用如下方式导出希望用来预测的paddle静态模型,并保存在infer_model路径下:
导出后的模型文件包含以下内容时,推理时需要保证这三个文件在同一个目录下:
model.pdmodel, model.pdiparams.info, model.pdiparams
图:导出后的paddle bert静态模型文件
03
部署部分
该示例将基于openvino 开发套件进行paddle的静态模型部署,需要开发者提前准备好用于做部署的intel平台硬件,可以是个人电脑,也可以是云服务器虚机。整体流程可以分为以下几个步骤:
图:bert模型部署流程
对于情感分析任务,bert网络的识别流程可以分成以下几个步骤:
■ 输入语句文本,并转为相应的token id
■ 为每一行token id添加padding,使其保持长度一致
■ token id作为输入数据送入bert模型进行推理 (模型内流程逻辑参考下图),通过embedding layer将一个词映射成为固定维度的稠密向量,降维后的向量会再通过encoder提取self-attentions后的向量间的关系特征,最后经过classifier对情感分类任务做出判断。
■ 获取模型结果数据,通过后处理函数,计算分类标签与每一类标签的置信度
图:bert for sst2模型内部逻辑
bert for sst2的输入的编码向量(长度不固定)是2个嵌入特征的单位和,这2个词嵌入特征是:
■ input_ids:输入文本被转化为token后的单个字的id;
■ segment_ids:就是句子级别(上下句)的标签,用于区分两个句子,例如b是否是a的下文(对话场景,问答场景等)。由于在情感分析任务中没有下句,所以这里segment_ids为全部为0的向量。
3.1步骤一:文本token表示
定义数据转换模块,将原始的输入语句转化为input_ids与segment_ids,作为输入数据。这边我们将会使用paddlenlp自带的tokenizer()方法进行转换。
3.2步骤二:padding
需要保证input_ids与segment_ids数组在axis0方向的长度一致,由于这边input_ids与segment_ids均为一维数组,所以也可以不进行该操作。
3.3步骤三:模型推理
部署代码里最核心的部分就是要定义基于openvino 开发套件的预测器,这里使用cpu作为模型的部署平台,可以看到通过read_model这个函数接口我们可以直接读取原始的.pdmodel格式模型,省去了之前繁杂的离线转化过程。此外我们需要通过compile_model这个函数讲读取后的模型在指定的硬件平台进行加载和编译。最后创建infer_request推理请求进行推理任务部署。
由于输入语句的长度往往不一致,这也导致编码后的向量长度也不一致,这里openvino 开发套件cpu plugin的支持上已经全面引入了dynamic shape功能,无需再手动调整输入数据的长度,openvino 开发套件会在runtime过程中自动匹配并动态申请一定的内存空间进行推理,优化性能表现。
由于新版openvino 开发套件已经全面支持intel 12代酷睿处理器,为了取得更佳的推理性能,我们建议使用最新的硬件平台进行测试。
3.4步骤四:结果后处理
此处得到的结果数据为两种不同评价的可能性,我们需要将其通过softmax函数还原成百分比形式,并且找到可能性最大的那个评价序号所对应的标签(positive,negative)。
最后我们找一组测试语句作为输入数据,将其封装成list以后,送入到识别器中进行识别,可以发现结果都是符合我们的先验预期的。
该示例程序可以可以准确按sst2情感二分类任务要求,输出每段输入语句的分类情感标签,并获得每种情感对应的参考置信度。
小结
作为发布至今近4年以来最大的一次更新,openvino 2022.1版本为了更好地支持nlp与语音相关的模型,在cpu plugin中已全面支持了动态input shape,并通过与百度paddlepaddle框架的深度集成,用更便捷的api接口,更丰富的模型支持,提升双方开发者在模型部署侧的使用体验,真正实现对paddlenlp模型的“无缝”转化与部署。
通过本次的全流程示例,我们看到openvino 开发套件对paddle bert模型已经做到了很好的适配,从而加速在intel平台上的推理。以下github repository中已为大家提前准备好了openvino 开发套件部署的参考实现与.pdmodel格式的bert预训练模型。
https://github.com/openvino-dev-contest/openvino_notebooks/tree/paddlebert/notebooks/005-hello-paddle-nlp
除此之外,为了方便大家了解并快速掌握openvino 开发套件的使用,我们还提供了一系列开源的jupyter notebook demo。运行这些notebook,就能快速了解在不同场景下如何利用openvino 开发套件实现一系列、包括ocr在内的、计算机视觉及自然语言处理任务。openvino notebooks的资源可以在github这里下载安装:
https://github.com/openvinotoolkit/openvino_notebooks
不锈钢薄板焊接应力的产生及消除方法
苹果因电池门再遭集体诉讼
医药价格改革公布,各方影响全面解读
2019数字经济峰会在河南郑州市国际会展中心隆重举行
铅酸电池命运 稳步走向无法逃避的末日?
如何在OpenVINO 开发套件中“无缝”部署PaddlePaddle BERT模型
数字集成电路动态功耗优化策略分析与评估
对于LCD液晶屏的表面沾染污渍该如何清理
dfrobotURM07-UART低功耗超声波测距模块简介
三自由度气动机械手的PLC控制
浅谈影响UVLED深层光固化的因素
华为无惧“芯片禁令” 任正非早就留了“后手”
家用机器人成为巨头们的“群雄逐鹿”之地
AI技术已成为高性能计算领域的关键部分
最佳USB Type-C PD快速充电的解决方案设计
石英晶振使用过程的注意事项
光刻机的工作原理以及关键技术
玩转iPhone:你可能不知道的iPhone实用技巧
数据库技术发展史
基于ADSP-BF561的宽带信息终端设计