分享
叙述性增强生成对知识密集型 NLP 任务的研究
输入“/”快速插入内容
叙述性增强生成对知识密集型 NLP 任务的研究
飞书用户6877
2024年7月2日修改
论文地址:
https://www.aminer.cn/pub/5ecce8d991e0119170395aab/retrieval-augmented-generation-for-knowledge-intensive-nlp-tasks
摘要
•
大型预训练语言模型能记住事实知识并且在下游 NLP 任务上表现优秀
•
但它们获取和精确操作知识的能力有限,因此在知识密集型任务上的性能较差
•
提出可微访问机制的预训练模型,结合显式非参数存储器来克服这个问题
引言
•
预训练神经语言模型能从数据中学到深层次的知识
•
这些模型存在不足:不易扩展或修订记忆、难以提供预测洞察、可能产生“幻觉”
•
混合参数内存与检索基础(非参数)内存的模型可以解决这些问题
方法
RAG 模型
•
使用输入序列检索文本片段作为目标序列生成时的额外上下文
•
涉及两个组件:检索器和生成器
RAG-序列模型
•
使用相同的检索到的文档来生成完整的序列
RAG-标记模型
•
对于每个目标标记,可以使用不同的文档
实验
•
在各种知识密集型任务中测试 RAG
•
包括开放领域问题回答、抽象式问题回答、问答生成和事实验证等
结果
开放领域问题回答
•
RAG 在所有四个开放领域问题回答任务中都设立了新的最高水平
抽象式问题回答
•
RAG-序列模型在开放 MS-MARCO 生成任务上超过了 BART 的表现
问答生成
•
RAG 模型生成的回答比 BART 基线更具体、更有事实依据、更多样化
事实验证
•
RAG 在事实验证任务上的准确性接近于那些使用强监督的复杂管道模型
主题与背景
文本讨论了为知识密集型自然语言处理任务(NLP)设计的混合参数和非参数存储器模型——检索增强生成(RAG)。RAG结合了预训练的序列到序列(seq2seq)模型和基于知识的向量索引,目的是提高语言生成时的知识获取和精确操作能力。文本还介绍了两种RAG形式的对比实验,分析了在各种知识密集型NLP任务中的表现,并将RAG模型与最先进的基线方法进行了比较。
RAG模型的组成
RAG模型包含一个预训练的seq2seq模型作为参数记忆体和基于维数稠密向量索引的非参数记忆体,由预训练的神经检索器访问。
RAG模型的形式
RAG-Sequence模型使用相同的检索到的段落来生成整个序列。
RAG-Token模型允许为每个目标标记选择不同的文档。
实验设计
在多个知识密集型任务中测试了RAG,包括开放领域问题回答、摘要式问题回答、问答生成和事实核实。
实验中使用了单一的维基百科快照作为非参数知识源,实验性的设置了k值为5或10。