资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

2.预训练和微调的研发范式

背景

  • 得益于深度学习中的一系列强大的特征提取网络,将NLP任务从传统的手动特征工程解放出来,通过这些强大的特征提取网络,使得模型可有效地捕获原始输入数据中所蕴含的规律和特征。随着任务复杂度的增加和效果提升的需求,深度学习模型呈现出越来越复杂的趋势。面对复杂的网络和模型效果提升的要求,则需要大量的有标注数据进行模型训练。而人工标注数据的获取成本非常高,需耗费大量的人力、物力。但是,当标注数据较少时,导致深度学习模型容易过拟合,不能很好地泛化,不利于用户模型效果的提升和实际问题的解决。
  • 为了解决上述问题,NLP领域出现了一个新的主流趋势:利用迁移学习的思想,将一个训练任务分成了两个阶段:预训练+微调,即首先使用大量的无监督语料进行模型预训练(Pre-training),学习得到通用的语言表征,然后再针对特定的NLP任务(文本分类、文本匹配、序列标注等)的少量标注语料进行模型微调(Fine-tuning)。

预训练

预训练模型通过学习大量的无监督语料得到通用的语言表征,好的语言表征能够表达非特定任务的通用先验知识,能够有助于学习器来解决AI任务,其优势主要如下:

  • 在大规模语料上进行预训练能够学习到通用的语言表示,并有助于下游任务;
  • 提供已在大规模数据上训练好的初始模型参数,提高模型的泛化性和收敛速度。

关于ERNIE模型的预训练任务可参看ERNIE章节。

微调

微调阶段主要是根据具体任务的需要,在预训练模型的基础上酌情设计并加入下游网络,然后将相关任务的数据输入模型中进行有监督训练。因为预训练模型已学习到通用的语言知识,所以只需使用少量的领域特定任务的数据便可获得较好的模型效果。

文心ERNIE的语言表征介绍

文心ERNIE采用的语言表征的方式是分布式表征,即低维实值稠密向量,其每个纬度没有特定的含义,但整个向量表达了一种具体的概念。在文心ERNIE中,语言表征分为:

  • 词级别的语义表示:get_sequence_output
  • 句子级别的语义表示:get_pooled_output

参考

[1]Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 1798-1828.

[2]Qiu X, Sun T, Xu Y, et al. Pre-trained models for natural language processing: A survey[J]. Science China Technological Sciences, 2020: 1-26.

上一篇
1.PaddlePaddle飞桨
下一篇
3.Task