叙述性增强生成对知识密集型 NLP 任务的研究

飞书用户6877

2024年7月2日修改

论文地址：

https://www.aminer.cn/pub/5ecce8d991e0119170395aab/retrieval-augmented-generation-for-knowledge-intensive-nlp-tasks

摘要

•
大型预训练语言模型能记住事实知识并且在下游 NLP 任务上表现优秀​

•
但它们获取和精确操作知识的能力有限，因此在知识密集型任务上的性能较差​

•
提出可微访问机制的预训练模型，结合显式非参数存储器来克服这个问题​

引言

•
预训练神经语言模型能从数据中学到深层次的知识​

•
这些模型存在不足：不易扩展或修订记忆、难以提供预测洞察、可能产生“幻觉”​

•
混合参数内存与检索基础（非参数）内存的模型可以解决这些问题​

方法

RAG 模型

•
使用输入序列检索文本片段作为目标序列生成时的额外上下文​

•
涉及两个组件：检索器和生成器​

RAG-序列模型

•
使用相同的检索到的文档来生成完整的序列​

RAG-标记模型

•
对于每个目标标记，可以使用不同的文档​

实验

•
在各种知识密集型任务中测试 RAG​

•
包括开放领域问题回答、抽象式问题回答、问答生成和事实验证等​

结果

开放领域问题回答

•
RAG 在所有四个开放领域问题回答任务中都设立了新的最高水平​

抽象式问题回答

•
RAG-序列模型在开放 MS-MARCO 生成任务上超过了 BART 的表现​

问答生成

•
RAG 模型生成的回答比 BART 基线更具体、更有事实依据、更多样化​

事实验证

•
RAG 在事实验证任务上的准确性接近于那些使用强监督的复杂管道模型​

主题与背景

文本讨论了为知识密集型自然语言处理任务（NLP）设计的混合参数和非参数存储器模型——检索增强生成（RAG）。RAG结合了预训练的序列到序列（seq2seq）模型和基于知识的向量索引，目的是提高语言生成时的知识获取和精确操作能力。文本还介绍了两种RAG形式的对比实验，分析了在各种知识密集型NLP任务中的表现，并将RAG模型与最先进的基线方法进行了比较。​

RAG模型的组成

RAG模型包含一个预训练的seq2seq模型作为参数记忆体和基于维数稠密向量索引的非参数记忆体，由预训练的神经检索器访问。​

RAG模型的形式

RAG-Sequence模型使用相同的检索到的段落来生成整个序列。

RAG-Token模型允许为每个目标标记选择不同的文档。

实验设计

在多个知识密集型任务中测试了RAG，包括开放领域问题回答、摘要式问题回答、问答生成和事实核实。​

实验中使用了单一的维基百科快照作为非参数知识源，实验性的设置了k值为5或10。​

叙述性增强生成对知识密集型 NLP 任务的研究​

叙述性增强生成对知识密集型 NLP 任务的研究