12月7日,人工智能自然语言处理领域的顶级国际会议 EMNLP 2022 在阿布扎比开幕。EMNLP 聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次会议上,由阿里云机器学习平台 PAI 主导联合阿里巴巴达摩院 NLP 团队、华东师范大学高明教授团队在小样本学习方向的研究有3篇论文入选。 此次入选意味着阿里云机器学习平台 PAI 自研的自然语言处理算法和框架达到了全球业界先进水平,获得了国际学者的认可,展现了中国人工智能技术创新在国际上的竞争力。 小样本学习论文简述预训练语言模型规模的扩大,带来这一类模型在自然语言理解等相关任务效果的不断提升。然而,这些模型的参数空间比较大,如果在下游任务上直接对这些模型进行微调,为了达到较好的模型泛化性,需要较多的训练数据。小样本学习技术能充分利用预训练过程中模型获得的知识,在给定小训练集上训练得到精度较高的模型。本次阿里云机器学习平台 PAI 共有 3 篇小样本学习相关论文入选,简述如下。 基于 Prompt-Tuning 的小样本机器阅读理解算法 KECP传统的机器阅读理解任务通常需要大量的标注数据来微调模型(例如 BERT),这一任务通常需要采用序列标注或指针网络的方法,获得答案在给定文章的区间。然而,这种方法需要重头开始学习 Preduction Head 的参数,在小样本场景下容易过拟合。最近 Prompt-Tuning 相关方法的提出缓解了预训练语言模型在低资源场景下的过拟合问题。受到这个启发,我们将抽取式阅读理解转换为基于 BERT 的生成任务。我们提出的 KECP(Knowledge Enhanced Contrastive Prompt-tuning)模型综合利用了模型表示的知识增强和对比学习技术,提升了小样本学习场景下的机器阅读理解准确度,模型架构如下图。实验结果可以证明,KECP 在一些常用的机器阅读理解数据集上,在只有 16 个标注的训练样本情况下,取得了比先前提出的模型更好的精度。 基于 Span 和元学习的小样本实体识别算法 SpanProto命名实体识别是 NLP 领域中非常常见的任务,对于这一任务,预训练语言模型的 Fine-tune 需要一定数量的语料来学习 Token 与 Label(例如人名、地名)之间的依赖关系。但是在实际应用中,标注数据资源比较稀缺,传统的序列标注方法很难达到较好的效果,因为其需要解决实体识别中的标签依赖(Label Depnedency)关系,同时也无法应对实体嵌套(Nested Entity)问题。因此,我们研究一种基于 Span 和元学习的小样本实体识别技术 SpanProto,特别地,我们关注于解决 N-way K-shot 的实体识别场景。SpanProto 采用两阶段方法,即将实体识别任务分解为两个阶段,分别是 Span Extraction 和 Mention Classification,模型框架图如下所示。 在 Span Extraction 模块中,SpanProto 使用与类别无关的 Span 抽取器,抽取出可能的命名区间。在 Mention Classification 模块中,SpanProto 采用 Prototypical Learning 给每个 Span 分配标签;与此同时,我们考虑到命名实体识别的 False Positive 问题,即存在一些抽取的 Span 在当前 Episode 内没有合适的类别可以分配的情况。为了验证 SpanProto 算法的有效性,我们在 Few-NERD 这一标准评测数据集上进行了测试,效果证明 SpanProto 对精度提升明显。 统一跨任务小样本学习算法 UPT基于提示微调(Prompt Tuning)的小样本学习技术能充分利用预训练过程中模型获得的知识,在给定小训练集上训练得到精度较高的模型。然而,在小样本学习场景下,训练数据的有限性仍然对模型的准确度造成一定的制约。因此,如果可以在小样本学习阶段,有效利用其它跨任务的数据集,可以进一步提升模型的精度。跨任务小样本学习算法 UPT(Unified Prompt Tuning)是一种统一的学习范式,可以将各种下游任务和预训练任务统一成 POV(Prompt-Options-Verbalizer)的形式,使得模型可以学习利用Prompt 解决各种 NLP 任务,UPT 的任务构造形式如下所示。 EasyNLP 算法框架及算法应用Github地址:https://github.com/alibaba/EasyNLP 阿里云机器学习平台PAI论文入选 EMNLP 2022 列表1. KECP: Knowledge-Enhanced Contrastive Prompting for Few-shot Extractive Question Answering 论文作者:王嘉宁、汪诚愚、谭传奇、邱明辉、黄松芳、黄俊、高明 2.SpanProto: A Two-stage Span-based Prototypical Network For Few-shot Named Entity Recognition 论文作者:王嘉宁、汪诚愚、邱明辉、石秋慧、王洪彬、黄俊、高明 3.Towards Unified Prompt Tuning for Few-shot Text Classification 论文作者:王嘉宁、汪诚愚、罗福莉、谭传奇、邱明辉、杨非、石秋慧、黄松芳、高明 |