大家好，我是Elena，我将向大家介绍我们的工作——[检测]西班牙语中的未同化借词：[注释语料库]和[建模]方法。
我们将讨论什么是[词汇]借用、我们提出的[任务]、我们已经发布的[数据集]，以及我们探索的一些[模型]。
首先，什么是[词汇]借用，为什么它作为一个[自然语言处理任务]很重要？
总的来说，[词汇]借用是将一种[语言]的[单词]并入另一种[语言]中。
例如，在西班牙语中，我们会使用来自[英语]的[单词]。
这里有几个例子，比如podcast、app和online crowdfunding等[单词]，所有这些都是我们有时会在西班牙语中使用的[英语][单词]。
[词汇]借用是一种[语言学]借用，本质上是在一种[语言]中再现其他[语言]的模式。
借用和语码转换有时会被[比较]并被描述为一个连续体，语码转换就是双语者同时混合两种[语言]时所做的事情。
然而，[词汇]借用和语码转换之间存在一些差异。
我们将重点讨论[词汇]借用。
语码转换是由双语者完成的，根据定义，语码转换并没有融入到任何一种正在使用的[语言]中，而[词汇]借用也可以由单语者完成。
借词要符合接受者[语言]的[语法]。
借词最终可以融入到接受者的[语言]中。
那么，为什么说借词是一种有趣的现象呢？
从[语言学]的角度来看，借词是[语言]如何变化以及它们如何相互作用的一种表现。
而且[词汇]借用也是新[词]的[来源]之一。
这里有一些[词汇]借用的例子，这些借词已经作为新[词]融入到西班牙语[语言]中。
就[自然语言处理]而言，借词是[词汇][单词]之外的一个常见[来源]。
而事实上，[自动地][检测][词汇]借用已被证明[对][自然语言处理][下游][任务]有用，例如[解析]、[文本]-[语音]合成或[机器翻译]。
人们越来越关注[英语]对其他[语言]的影响，尤其是与[英语][词汇]借用有关的影响，这些借词有时被称为英语的借词。
在这里，我们举了一些关于这些[语言]中借词的[自动][检测]工作的例子。
因此，我们[提出]的[任务]是检测西班牙语[新闻专线]中未同化的[词汇]借用。
也就是说，我们感兴趣的是[提取]从其他[语言]中借用的[单词]，这些单词正在西班牙语报纸中使用，但尚未融入或同化到接收者的[语言]中。
所以还没有融入西班牙语。
让我来举个例子。
这是一个西班牙语的[句子]：Las Prendas Bestsellers Se estampan con motivos florales，Animal print o retales tipo patchwork.
嗯，正如大家所看到的，有三个[跨度]的[文本]实际上是[英语][单词]，比如bestseller、animal print和patchwork。
这些是我们所感兴趣的[提取]和[检测]的[跨度]类型。
[之前]已经有关于英语[检测]的[单词]，由西班牙语[新闻专线]上[用于]英语[检测]的[CRF][模型]组成。
这个[模型]取得了86分的F1分数。
但是在[数据集]和[建模][方法]方面都有一些局限性。
该[数据集]只关注[新闻]的一个[来源]，并且仅包含头条新闻。
此外，在[训练]集和测试集中出现的借词也有重叠。
这使我们无法评估[建模][方法]是否可以实际[概括]到以前[未见]过的借词。
因此，我们的目标是解决[任务]中的一些局限性。
为此，首先我们创建了一个新的[数据集]。
我们的目标是创建一个新的[数据集]，该数据集使用[词汇]借词进行[注释]，目的是创建一个尽可能困难的测试集。
因此，[训练]集和测试集之间的[单词]和主题的重叠程度会很小。
因此，测试集来自我们在[训练]集中看不到的来源和日期。
在这里大家可以看到，在时间上没有重叠。
而且，测试集的借词密度也很高。
给大家看一些数字：如果[训练]集每1000个[令牌]包含6六个借词，那么测试集每1000个[令牌]包含20个借词。
测试集包含了尽可能多的[词汇表]外的[单词]。
事实上，测试集中92%的借词都是[OOV]。
因此，在[训练]期间看不到它们。
而[语料库]总的来说是由来自不同来源的西班牙报纸的[文本]集合而成的。
而且它是用两个标签手工[注释]的。
一个标签[用于]注释[英语][词汇]借词，这是西班牙语中的大多数[词汇]借词，然后另一个标签[用于]注释来自其他[语言]的借词。
我们使用[CONLL]格式和[BIO][编码]，这样我们就可以[编码]单个[令牌]借词，比如app，或多个[令牌]借词，比如[machine learning]。
这些是[语料库]的数字。
如大家所见，这相当于大约有37万个[令牌]。
这包含了被[标记]为[英语]的[跨度][数量]和[标记]为其他借词的[跨度][数量]，以及它们中有多少是独一无二的。
这里有几个关于[数据集]集合的例子。
正如大家所看到的，[例如]，在第一个例子中，我们有一个借词的批处理，这是一个多[单词]借词。
而且我们已经使用[BIO][编码]对其进行了[注释]。
因此，[BIO][用于]西班牙语中的[单词]，而不是[用于]未借用的[单词]。
在这个第二个例子中，大家可以看到benching和crash这两个词也被标记为是从[英语]借来的。
因此，一旦我们拥有了[数据集]，我们就[为][提取]和[检测]这些[词汇]借词的[任务]探索了几个[模型]。
我们首先尝试的是条件随机场[模型]。
这是在[之前]工作中使用过的[模型]。
我们使用了与那次工作中相同的手工制作的[特征]。
如大家所见，这些都是[特征]。
这些都是[二进制][特征]，例如大写的[单词]或[令牌]？
是标题标签吗？
是引号吗？
诸如此类的东西，这是人们在[命名实体识别][任务]中所期望的[特征]类型。
这就是我们得到的结果。
我们使用具有手工制作[特征]的[CRF][模型]获得55分的F1分数。
与报告的86分F1分数[相比]，这是一个巨大的差异，F1分数是用相同的[CRF][模型]，相同的[特征]，但是在不同的[数据集]上获得的结果，也[用于]西班牙语[词汇]借用[检测]。
因此，这证明了我们创建的[数据集]更加困难，我们需要探索更复杂的[模型][用于]这些[任务]。
因此，我们测试了两个基于[转换器]的[模型]。
我们使用了[BETO]，这是一个[单语][BERT模型]，[针对]西班牙语和[多语言BERT]训练的模型。
我们通过HuggingFace的[[转换器]]库使用这两个[模型]。
这就是我们得到的结果。
正如大家所看到的，[多语言BERT]在开发集和测试集以及所有[指标]上的表现都优于[BETO]。
正因为如此，我们有了一个比较的想法，[CRF][模型]获得了82分。
[CRF][模型]获得了55分，获得了55分的F1分数，而[多语言BERT]获得了82分，这是一个很大的差异。
所以，一旦我们得到了这些结果，我们就会问自己另一个[问题]，那就是，我们能否找到一个[BiLSTM-CRF][模型]，为它提供不同类型的[嵌入]，[嵌入]对不同类型的[语言][信息]进行[编码]，并执行优于基于[转换器]的[模型]获得的结果？
因此，为了做到这一点，我们进行了一些初步实验，我们使用flare库通过[BiLSTM-CRF][模型]运行这些实验。
我们尝试了不同类型的[嵌入]，比如基于[转换器]但也是快速的[文本]、字符[嵌入]等等。
我们发现，基于[转换器]的[嵌入]比非[情境化]的[嵌入]表现得更好，[英语][BERT]和西班牙语[BETO][嵌入]的组合比[多语言BERT][嵌入]表现得更好。
[BPE][嵌入]产生了更好的F1，字符[嵌入]产生了更好的调用。
考虑到这一点，这些是我们获得的表现最好的结果。
两个[模型]均为使用flare的[BiLSTM-CRF][模型]。
一个是[BETO]和[BERT] [嵌入]和[BPE]，另一个是[BETO]和[BERT][嵌入]和[BPE]，还有字符[嵌入]。
最后一个是在测试集上产生最高F1分数的那个，尽管在开发集上的最高分数是由没有字符[嵌入]的那个获得的。
请记住，我们使用[多语言BERT]获得的最佳结果是在开发集中获得了76分的F1分数，在测试集中获得了82分。
因此，与那些结果[相比]，这是一种进步。
最后，我们问了自己另一个[问题]，那就是在语码转换中，[词汇]借用[检测]能否被框定为[语言识别]的[迁移学习]？
因此，我们运行了使用flare运行的相同的[BiLSTM-CRF][模型]，但我们使用了语码转换[嵌入]，而不是使用这些未调整的基于[转换器]的[BETO]和[BERT][嵌入]。
什么是语码转换[嵌入]？
这些是经过微调的基于[转换器]的[嵌入]，这些[嵌入]已经在[LinCE]语码转换[数据集]的西班牙语[英语]部分经过[预训练] [用于] [语言识别]。
[LinCE]是一个关于语码转换的[数据集]，其中有一个关于西班牙语[英语]，西班牙语[英语]语码转换的部分。
因此，我们给我们的[BiLSTM-CRF]提供了语码转换[嵌入]和可选的字符[嵌入]、[BPE][嵌入]等等。
我们得到的最好结果是84.22分，这是我们在测试集上尝试的所有[模型]中最高的分数。
尽管我们在开发集上获得的最好结果F1评分为79分，低于使用未调整[嵌入]的[BiLSTM-CRF]获得的最好结果。
因此，从我们的工作中得出了一些结论。
我们已经创建了一个新的西班牙语[新闻专线][数据集]，使用未同化的[词汇]借词进行了[注释]。
与[之前]的[资源]相比，这个[数据集]的借词密度更高，并且[OOV]也更丰富。
我们已经探索了四种类型的[模型] [用于] [词汇]借用[检测]。
呃。在错误[分析]方面，调用[对于]所有[模型]来说都是一个薄弱环节。
正如大家在这里看到的，一些常见的假阴性包括大写的借词，[例如]在[英语]和西班牙语中都存在的[单词]。
同样有趣的是，[BPE][嵌入]似乎提高了F1分数。
而字符[嵌入]似乎可以改善调用。
这是一个有趣的发现，也许我们可以在未来的工作中探索。
呃。嗯，以上就是我要介绍的所有内容。
非常感谢大家的聆听。
我叫Antoine。
我是马萨诸塞大学阿默斯特分校的一名博士生。
我将介绍我们的[论文]《[KinyaBERT]：一种[形态学]意识的基尼亚卢旺达语[语言模型]》。
今天，我将谈一谈这项[研究]的动机。
然后，我将详细介绍[KinyaBERT][模型]的架构。
然后我会谈谈我们的实验结果，最后得出一些结论。
我们都知道，最近的[自然语言处理]进步是通过使用[预训练语言][模型]（如[BERT] ）实现的。
然而，仍然存在[许多]限制。
由于大多数[形态学上]丰富的[语言]所表达的[形态学]很复杂，我使用的普遍存在的[字节对编码][标记化][算法]无法提取有效[表达]所需的确切[子词][词汇]单位，即[意义][语素]。
例如，这里我们有三个基尼亚卢旺达语[单词]，其中有几个[语素]，但[BPE][算法]无法提取它们。
这是因为某些[形态化]规则产生不同的表面形式，隐藏了确切的[词汇][信息]，而完全基于表面形式的[BPE]无法访问此[词汇][模型]。
第二个挑战是，即使人们能够使用[甲骨文][形态化分析器]，用[语素]替换[BPE][令牌]也不足以表达[形态学][组合性]。
这次[研究]涉及的第三个空白是，新的[预训练语言][模型]通常是在高资源[语言]上进行评估的。
我们还需要评估它们在低[资源]和多样化[语言]上的适用性。
[所以]，我们提出[KinyaBERT]，它是[BERT]架构的一个简单但有效的改编，旨在更有效地处理[形态上]丰富的[语言]。
我们评估了基尼亚卢旺达语的[KinyaBERT]，这是一种[低资源][形态上]丰富的[语言]，在东非和中非有超过1200万人[使用]。
[模型]的[输入]是[句子]或[文档]。
[例如]这句，John twarahamubonye biradutangaza，意思是，我们惊讶地发现John在那里。
正如大家所看到的，基尼亚卢旺达语[单词]包含几个[语素]，每个[语素]包含不同的[信息]。
[所以]，在我们的[模型]中，我们将这个[句子]或[文档]传递给[形态分析器]。
然后生成包含在每个[单词]中的[词素]。
[语素]通常由词干和零个或多个词缀组成。
词缀可以表示[动词]中的时态、[方面]、主语或宾语，更多时候与班图语的[名词]类主语和宾语有关。
[形态分析器]还为每个[单词]生成[语音]标签的一部分。
在这一步之后，我们为[语音]标签的部分进行[嵌入]。
词缀的[嵌入]。
以及词干的[嵌入]。
这些是[形态学]层面的，这些是[形态学]层面的[嵌入]。
然后，我们将这些[嵌入]通过[形态学][编码器]传递，这是一个独立应用于每个[单词]的小型[转换器编码器]。
它们的输出是[情境化]的[向量]，每个[单词]都有[形态化]的[信息]。
现在，我们进行组合，其中与[语音]部分[相对应]的[形态化][嵌入]与词干连接在一起。
我们进一步将它们与[句子]级别的另一个词干[嵌入]连接起来。
然后，我们对主[句子]或[文档][编码器]形成一个[输入]。
最终输出是[情境化][嵌入]，可用于[下游][自然语言处理][任务]。
[对于][形态分析器]，我们使用有限状态二级[形态学]原则，并根据基尼亚卢旺达语[语言]定制实现。
我们有效地对所有基尼亚卢旺达语[单词]的[形态]进行[建模]，包括动词、[名词]、指示和所有格[代词]、数字等等。
我们使用[语音][标记][算法]的[无监督]部分。
一阶因子[模型]用于说明[形态学]概率，基本上是由[形态分析器]分配的概率。
我们还考虑了部分[语音]标签的优先顺序，以及[输入][单词]中存在的[句法]协议。
部分[语音][标记器]使用bidi[双向][推理]，这种方法改进了更经常[用于][解码]的Viterbi[算法]。
这里有一些注释[对于][位置编码]。
第一，[形态学][编码器]不使用任何[位置编码]。
这是因为每个[语素]在[形态化][模型]中占据了一个已知的位置。
[因此]，当给出[语素]时，位置[信息]是固有的。
第二，[句子][编码器]使用所谓的不受约束的相对位置[嵌入]，这是最近在[ICLR]会议上发表的。
这种位置[嵌入]本质上将位置[相关性]从[令牌]分离到[令牌][注意力][计算]。
与[BERT]类似，我们使用[掩码语言模型][预训练]目标。
从本质上讲，我们必须预测与[单词]相关的词干和词缀。
在[预训练]期间，所有[单词]的15%被认为[用于][预测]，其中80%被屏蔽，10%与随机[单词]交换，10%保持不变。
[对于]词缀[预测]，我们面临一些多标签[分类][问题]。
[为此]，我们要么将词缀组合成固定[数量]的集合，并将该集合预测为一个类标签。
另一种选择是预测词缀概率[向量]。
我们在实验中对这两种方法进行了评估。
我们用大约2.5千兆字节的基尼亚卢旺达语[文本]对[KinyaBERT]进行预训练，并将其与三个基线[模型]进行比较。
一个是称为[XLM]-R的[多语言][模型]，它是在由多种[语言]组成的[大型][文本][语料库]上训练的。
另外两个[基线]是使用[字节对编码][算法]或使用[形态分析]而不使用两层[转换器编码器]架构对同一基尼亚卢旺达语[文本]进行[预训练]的。
所有[模型]都是在基础架构中配置的，基础架构的参数大约在100到1000万之间，基尼亚卢旺达语和[KinyaBERT]使用的参数[数量]最少。
除[多语言]外，所有[模型]都经过[预训练][用于]32000[梯度]更新，每批次的批量大小为2560[序列]。
我们在三组[任务]上评估[预训练][模型]。
其中一个是[GLUE]基准，它经常[用于]评估[预训练语言][模型]的有效性。
我们通过使用Google翻译将原始基准[数据]翻译成基尼亚卢旺达语来获得[GLUE]基准[数据]。
第二个[任务]是基尼亚卢旺达语[命名实体识别]基准，这是一个由训练有素的母语使用者[注释]的高[质量][数据集]。
第三个是[新闻]分类[任务]，我们从几个网站中提取[新闻]文章，并收集作者分配的分类标签，然后基本上尝试预测相同的类别。
现在我们来看看结果。
对于[GLUE]基准，我们发现[KinyaBERT]始终优于基线[模型]。
在这里，我们展示了十次[微调]运行的平均表现。
我们还对Google翻译生成的[翻译]进行了[用户][评估]。
基本上，[用户]用户对大约6000个例子进行了评分，按照从1到4的等级进行评分，[评估][翻译]的[质量]。
其结果是，许多[翻译]是杂乱无章的。
但是，所有[模型]都必须应对相同的[翻译]噪声，并且[模型]之间的相对性能仍然是值得注意的重要因素。
[对于][命名实体识别][任务]，我们还发现[KinyaBERT]给出的表现最好，并且词缀分布[回归]变体表现最佳。
这些结果也是十[微调]运行的平均值。
[对于][新闻]分类[任务]，我们发现结果好坏参半。
[之前]关于基尼亚卢旺达语[文本分类]的工作发现，简单的关键词[检测]就足以解决这个特定的[任务]。
[因此]，使用[预训练语言][模型]的收益较少。
关于[新闻]分类这个特殊[任务]。
我们还进行了一项[消融]研究，看看是否有其他结构可以提高表现。
[对于][GLUE]基准，我们发现使用词缀集始终表现更好，而词缀概率[回归]目标在[命名实体识别]上产生最佳表现。
此外，通过查看[微调]的低分数，我们发现[KinyaBERT]在大多数情况下具有更好的收敛性。
总之，这项工作已经证明了在[预训练语言][模型]中明确使用[形态学][信息]的有效性。
所提出的两层[转换器编码器]架构能够捕获[形态学]复杂性[形态学][组合性]，这是[形态学]丰富[语言]的一个重要[方面]。
这些发现应该能激发对[形态学]感知[语言][预训练语言][模型]的进一步[研究]。
大家好，我叫Michał Pietruszka，我很高兴向大家介绍这篇题为《用可训练的[表示]池来对[转换器][模型]进行稀疏化》的[论文]。
这是Applica[AI]与Lukasz Borchmann和Lukasz Garncarek合作完成的一项工作。
让我先谈谈我们的工作目标。
我们的[方法]在考虑长输入的情况下效果不错。
粗略地说，这意味着超过2000个[令牌]的[任务]订单和[输入]，并且目标比提供的输入要短。
这在[自然语言处理]中有一些具体的应用。
例如，可以想象，给定一份很长的[文档]，需要对其进行总结、分类，[回答]有关它的[问题]，提取[信息]或一些关键短语。
让我回顾一下普通的[转换器]，以及我们和它的[注意力]复杂性问题，这取决于[输入]行的平方。
在普通的[转换器]中，在完全[注意力]连通的情况下，必须计算每个[令牌]与其他[令牌]之间的[关系]。
[注意力]的[计算]复杂性，这取决于层l的[数量]，[序列]长度n，另一个[序列]长度以及[表示]的维度。
类似地，在[解码器]的交叉[注意力]中，对于右侧的这张图片，这里唯一的区别是，在这种情况下，[目标][令牌]正在关注[输入][令牌]。
这也可以从这个公式中看出来。
[BLEU分数]表示必须计算的[关系]。
在完全[注意力]的情况下，我们需要计算[输入] [序列]中的每个[关系]。
现在，我们看看当我们有一个分块[编码器]时会发生什么，该编码器通过限制[令牌]连接来工作，这样它们只能看到附近的其他[令牌]。
[文本]是以块的形式读取的，这可以大大减少[编码器]端的计算[数量]，但并不能提高[解码器]的交叉[注意力]，因为无论如何，每个[输入][令牌]都会传递给[解码器]。
这种[方法]通常被称为[解码器]中的融合。
这里的改进可以解释为将n的一个[依赖关系]更改为另一个表示块大小的常数m。
我们的主要观察结果是，大多数[令牌]与各种[任务]都是不相关的，几乎可以完全忽略。这一点在幻灯片上得到了例证。
输入的唯一部分与期望的输出相关。
例如，
阅读一篇文章时，可以先用荧光笔标出最重要的部分，然后只从中间阶段开始根据这一部分写出摘要。
因此，突出显示和决定当前[令牌]是否对生成摘要至关重要的成本而言是便宜的，并且仅取决于[令牌]的[表示]。
突出显示的[令牌]可以进行池化。
多亏了我们的top k运算符，其成本可以忽略不计。
当考虑整个[输入]时，从缩短的[输入]生成摘要的成本也比普通[模型]低得多。
但这里有一个[问题]。
如何选择重要的[令牌]并将梯度反向传播到该选择？
我们解决的根本[问题]是[提出]可训练的选择机制。
一种可以允许在[训练]期间反向传播[梯度]的方法，以便网络能够学习选择最重要的[令牌]。
更确切地说，
给定从简单[线性]层获得的一些[嵌入]下划线，[任务]是返回得分最高的[嵌入]。首先，对[序列]进行排列，并准备成对，以便将得分较高的[向量]与得分较低的[向量]一起使用。
接下来，使用分数上的提升[softmax]计算[权重]。
在每一轮锦标赛之后，新的[向量]和分数被组成为这些对与所获得的[权重]的[线性]组合。
因此，简而言之，我们通过对它们的分数执行[softmax]来线性地组合它们。
并且当组合两个[令牌]时，可以产生一些噪声。
但它也允许梯度传播到所有[输入][嵌入]。
简而言之，我们[提出]的可训练的top k是基于在每个步骤中执行软选择这样的锦标赛。
而从另一个角度来看，[表示]池化是在[编码器]层之后。
首先，对每个[表示]进行评分，然后只有得分最高的那些[表示]才会被传递到下一层。
[编码]可以像标准[转换器]架构一样在全长[输入]上执行。
然而，它还可以在固定长度的块中处理固定长度的[文本]，并在全局范围内选择最佳的[表示]。
下面是一个在[编码器]之后引入的[表示]池的例子。
这直接影响了交叉[注意力]的原因，它不取决于[输入]长度N，而是常数K，代表池化长度。
这个常数通知我们有多少个[表示]被选择并传递给[解码器]。
从较短的[文本]生成摘要比[之前]的解决方案要便宜得多。
由于[序列]长度可以缩短[大的]因子。
例如，我们在实验中成功地使用了比n值小16倍甚至64倍的k值。
请注意，分块[编码]和自我[注意力]的有益影响是持续的。
请记住，[注意力]的[计算]成本取决于[输入]长度的平方。
在[编码]过程中尽早减少[输入]可以显著降低成本。
[对于]金字塔[模型]，我们缩小了每个选定层输出上[表示]的大小，导致随着[编码]的进行，[计算]成本呈指数级降低。
正如大家所看到的，这里完整的[编码器]的总[计算]成本不到全尺寸第一层成本的两倍。
当较早引入池化时，所有紫色方块的总和都受限于一个常数，而不取决于层l的[数量]。
而是取决于常数c，常数c可能受到网络内池化层的放置的影响。
我们的改进以8000个[令牌]长的输入为基准。
该图显示，当使用池化时，网络深度的最佳可扩展性得到了实现。
这里我们可以注意到，在如此长的输入上，[训练]24层的金字塔可能比[训练]两层的普通[转换器]更便宜。
更不用说，对于这么长的[输入]，普通[转换器]是多么容易耗尽内存。
我们的趋势金字塔与其他基线的qual[质量]qual[定性]比较是在长[文档][总结][任务]上执行的，或者给定来自arXiv或[PubMed]的文章主体，而[任务]是生成其摘要。
因此，人们可以看到分块（我们的基线）的表现与最近最先进[模型]的水平相当，而金字塔则保留或提高这一竞争基线的表现。
与此同时，与分块基线相比，我们的[模型]训练速度提高了80%，[推理]速度提高了450%以上。
这两个[模型]的[参数]计数要低得多，并且都是根据所选的[任务]从头开始训练的。
[之前]实现[类似]表现的方法必须使用更多的参数，并利用[预训练]基础[模型]和额外的[语言][预训练]目标来实现[类似]的表现。
我们邀请大家阅读我们的完整[论文]并使用我们的GitHub代码。
感谢大家的观看。
大家好，我是来自哈佛大学的Jiawei Zhou。
我很高兴向大家介绍我们在[在线][语义解析][用于]减少面向[任务]的[对话]中的延迟方面的工作。
这项工作是与来自微软[语义]机器公司的Jason、Michael、Anthony和Sam共同完成的。
在面向[任务]的[对话]中，[用户]通常在说话时与处理来自[用户][话语]请求的[系统]进行交互。
从[用户][话语]结束到[系统]响应，通常存在明显的延迟。
在表面之下，[用户][话语]被翻译成一个可执行程序。
然后执行该程序，以便[系统]能够正确响应。
因为该程序被表示为概述[计算]的[语义][图形]，其中节点表示一个函数调用，而其子节点是参数。
大的[节点]标记瞬时操作，但其他节点执行起来很慢。
在我们这里展示的简单例子中，这些程序通常可以是比树结构更复杂的[图形]。
在这次演讲中，我们提出了这样一个问题：我们是否可以在[用户]完成[话语]之前就开始[生成]程序并执行它，以便[系统]能够实现更快的响应？
这就是[在线][预测]和决策[问题]。
在这个领域还有许多其他例子。
例如，[同步][翻译]，其中现场翻译人员实时将一种[语言]翻译成另一种语言，智能[文本]自动补全功能用于猜测[用户]意图；再比如优步拼车，根据预测的需求将司机送到可能需要的地方。
所有这些场景都有一个共同点。
也就是说，在看到所有[输入]之前做出决策是有益的。
在我们的案例中，我们将处理[在线][语义解析]，这可能具有挑战性，因为我们必须猜测[用户]可能会说什么。
而且它也没有得到充分的探索，没有正式的[评估]指标。
首先，让我们来看看一个普通的[系统]是如何工作的。
它只在[用户][话语]结束时通过[解析]对程序进行离线操作。
在这里，字符[图形]是在看到所有[信息]之后预测的。
相反，我们提出了一个[在线][系统]，可以对每个[话语]前缀进行比较。
例如，每当我们看到一个新的[令牌]，我们就会预测一个新的[图形]。
请注意，可能存在错误。
在与Barack Obama的泳池派对上，我们得到了一张关于人物和[事件]主题正确[节点]的图表，但猜错了时间[信息]。
这个过程一直持续到我们接收到完整的[用户][话语]。
这将如何影响离线[系统]中的执行时间线？
我们将在最后得到程序[图形]，以便[系统]可以在这一点上开始执行。
请记住，大的[节点]是快速操作，因此我们只考虑彩色慢速函数的执行时间线。
首先，这两个“查找人员”函数可以[并行]执行，由于它们与其他功能没有[依赖关系]，因此在粉色框中以白色突出显示。
接下来，在获得下层[节点]的结果后，节点创建[事件]可以得到执行，然后顶层函数产生，从而完成整个程序。
执行过程是严格的，仅限于程序[依赖关系][结构]，其中一些操作无法并行化，从而导致明显的延迟。
在我们的[在线][系统]中，我们可以随时预测，因此程序可以更早地开始执行。
在这里，在Obama后面的前缀处，我们自信地预测“查找人员”函数应该在程序中，但其余部分可能包含错误，因为它们显示为灰色。
节点的执行可以作为一个步骤立即开始。
然后，使用更多的[令牌]，我们预测一个全新的[图形]，但其中一部分已经被执行。
因此，我们只需要考虑我们也有信心的其余[节点]。
在这里，可以[并行]执行另一个“查找人员”函数。
同样，我们可能会做出错误的预测。
有了更多的[文本]，我们就有更多的能力来纠正错误。
比如这里的[事件]时间，对上午的预测也是正确的。
然后，我们可以按照程序[依赖关系][结构]开始执行其余部分。
通过将执行时间线与[话语]时间线重叠，我们节省了大量时间。
于是我们提出了[在线][语义解析]的[任务]。
一个基本假设是，执行时间主导[模型][预测]时间。
因此，我们只能通过提前预测来争取时间。
另一个假设是，由于[预测]和执行是在后台进行的，所以对用户来说是不可见的。
没有必要保持一致的[解析]历史记录。
因此，我们在每个[令牌]之后从头开始解析。
具体而言，我们[提出]一个两步骤[方法]。
一个提议的步骤，用于预测具有完整[结构]的[图形]，以及一个选择步骤，用于选择此时值得执行的[节点]。
我们提出的[方法]有两种变体。
第一种[方法]将[语言模型]的完成与完整的[话语]到[图形]的[解析]相结合。
具体来说，Obama之后的前缀首先是通过一个微调过的[BART][语言模型]完成的，然后转换为具有完全离线[解析器]的程序。
第二种[方法]直接从[用户][话语]前缀预测程序。
这是通过[训练]单个[在线][解析器]将每个前缀转换为目标[图形]来实现的。
这有助于[模型]学习正确的预期。
更详细地说，我们如何生成这些[图形]？
我们通过[生成][图形]的序列版本来表述[问题]。
每个节点或边都由一个动作表示。
在这里，我们从第一个节点开始。
下面的[数字]记录了动作历史记录中的绝对索引。
然后，我们得到了第二个节点。
接下来，是它们之间的边。
它包含指向[前一个]节点索引和边标签的指针。
这里的0表示将最近的节点与第0个动作和下一个节点的下一个边[生成]的节点连接起来。
这个过程一直持续到生成完整的[图形]为止。
底层[模型]基于[转换器]，具有[类似于]基于[解析器]的[之前]转换的自指向机制。
在[生成]完整的[图形]之后，我们获得了与[图形]不同部分相对应的动作水平概率。
我们根据要执行的阈值[启发式]选择置信度子图。
稍后，我们将改变阈值，以在延迟减少和执行成本之间实现不同的权衡。
对于[在线][方法]的正式[评估]，我们[提出]最终延迟减少或[FLR]指标。
以下是离线[系统]如何完成执行时间线的概述。
在[在线][系统]中，执行与[话语]时间线重叠，因此会提前结束。
[FLR]被定义为与离线[系统][相比]的减少时间，以执行结束为标志。
我们在两个[大的][会话式][语义解析][数据集]上进行了实验，即[SMCalFlow]和[TreeDST]。
当离线操作时，我们基于[图形]的[解析器]在两个[数据集]上的[解析]都[达到]了最先进的性能。
与节点完成的简单基线[相比]，LM完成[模型]也[达到]了非平凡的[BLEU]增益。
现在，让我们来看看我们对[图形][解析器]前缀的[预测]准确性。
我们测试y轴上验证[数据]中[生成]和go[图形]之间的[图形]元组的匹配F1分数，以百分比表示x轴上的每个前缀长度。
这些曲线中的每一条都代表不同的[模型]，唯一的区别在于[训练数据]。
最下面的曲线是离线[解析器]，我们混合不同长度的前缀[数据]，以将[模型]转换为[在线][解析器]。
例如，图例前缀80%+表示使用前缀长度大于整个[话语]长度的80%的前缀[数据]来训练[模型]。
左上角是所需的区域。
正如我们所看到的，黑色曲线中的离线[解析器]在前缀[数据]上表现不佳。
当我们在[训练]中混合更多的前缀，曲线向上和向左提升，在所有前缀长度上表现得更好。
然而，在右上角的点中，完整的[话语][解析]表现不受影响。
基于这些强有力的结果，我们可以减少多少延迟？
我们通过[来源][令牌]的[数量]来衡量时间，并模拟不同的函数执行时间。
这些曲线显示了[FLR]指标和执行成本之间的权衡，通过不正确的超额函数成本的[数量]来衡量。
这是通过改变子图选择阈值来实现的。
较高的阈值选择较少的错误函数，但获得较小的[FLR]，而较低的阈值更积极地选择和执行程序。
我们比较了我们[提出]的两种方法和一个基线，这个基线除了直接应用离线[解析器][用于][在线]使用外，什么都不做。
左上区域具有最佳[FLR]和成本权衡。
我们看到我们的两种[方法]都以很[大的]幅度击败了基线，并且它们在[TreeDST]上的表现更加相似。
虽然单个函数的执行速度更快，但往往有更多的运行执行和更低的延迟减少空间。
当单个函数的执行速度较慢时，[FLR]的改进空间较大。
我们的两种方法在不同的成本区域实现了更好的表现。
总体而言，我们实现了30%到63%的相对延迟减少，具体取决于执行时间和允许的成本。
最后，当允许的成本是三次运行执行时，我们对每种类型函数节点的[令牌]中平均延迟减少进行了细分。
正如我们所看到的，各方面都有收获。
还有一些函数，在红色条较长的情况下，我们获得了令人印象深刻的延迟减少，例如查找管理员和收件人。
这些都是较低级别的函数，与其他函数没有太多[依赖关系]。
总之，我们提出了[在线][语义解析]作为新的[任务]，以探索严格的延迟减少指标。
通过强大的基于[图形]的[语义][解析器]，我们可以通过具有LM补全和完整[解析器]的管道[方法]，或者直接通过基于前缀的学习[解析器]，来实现相对较好的延迟减少。
[而且]，我们的[方法]可以是一个通用框架，并且可以应用于不同[域]中的其他可执行[语义][表示]。
未来的工作可以探索更智能的[预测]和执行集成[方法]。
谢谢聆听！
大家好！
我将讨论我们在[为][问题回答][任务][生成][检索][增强型]反事实方面的工作。
这是我在Google Research实习期间完成的工作，在那里我得到了Matthew Lamm和Ian Tenney的指导。
为了激发这项任务的动机，让我从定义一个[反事实]开始。
在这项工作中，我们将[反事实]定义为[输入] [文本]的扰动，其在某种有意义的受控方式上与原始[文本]不同。
并允许我们对结果或[任务]标签的变化进行推理。
例如，将[单词]“引人入胜”改为“令人着迷”，或将“意料之中”改为“单调无聊”，就会改变这篇电影评论的[情绪]。
同样，在下面的示例中，在[问题]中添加限定词“women's”，就会改变[问题]的[回答]。
与在[任务]上训练的[自然语言处理][模型]相比，人类通常对这种扰动具有很强的适应性。
为什么会这样？
[数据集]可以通过系统性[偏见]进行采样，从而导致一个简单的决策边界被[反事实]所违反。
正如这个2D[分类][问题]中所示。
我的工作发现，在[训练数据]中添加[反事实]示例可以使[模型]对这种扰动具有鲁棒性。
那么，如果反事实是有价值的，我们如何才能产生它们呢？
这个[任务]对于[自然语言处理]来说尤其困难，因为这里有三个来自三个不同[自然语言处理][任务]的例子。
正如大家所看到的，违反结果之间的决策边界的例子需要通过扰乱此处下划线的[文本]的某些属性来精心制作。
这可以通过[人类][注释]来完成，但这样做不仅昂贵，而且还带有偏见。
之前的一些工作侧重于使用[句法]树或[语义角色标签]。
但是，由这些技术[生成]的扰动集受到[语义]框架的限制。
最近的工作使用掩码[语言模型]来填充[文本]的掩码部分以更改标签。
但是，找出[文本]的哪些部分会造成扰动是一项具有挑战性的工作。
具体而言，在[为][问题回答][生成]反事实[产生]方面存在更多的挑战。
这项[任务]需要背景[知识]。
例如，为了扰乱原来的[问题]，《夺宝奇兵之末日神庙》是一部前传吗？
我们需要了解《夺宝奇兵》系列的其他电影，才能回答这样的[问题]：《夺宝奇兵之法柜奇兵》是一部前传吗？
[此外]，随机扰动可能导致无法用现有证据回答或具有错误前提的[问题]。
[而且]，一些[问题]扰动可能导致与原始[输入]的显著[语义]偏差。
例如，这个[问题]是印第安纳·琼斯是否在《末日神庙》中奴役儿童？
我们[提出]一种非常简单但有效的技术，称为检索生成过滤器或[RGF]，以解决[问题]的[反事实]扰动，并旨在解决上述所有其他挑战。
[RGF]背后的核心直觉是，产生扰动所需的必要背景[信息]可能存在于[问题回答][模型]造成的未遂事件中。
例如，最先进的[模型][REALM]为“谁是里士满足球俱乐部的队长”这个[问题]提供以下前k个回答？
虽然它确实提取了原始参考段落并[回答]“Trent Cotchin”作为首选。
它还检索了其他段落和回答，可用于指导[问题]扰动。
例如，它还提取了另外两个回答，分别对应于同一俱乐部预备队和女队的队长，这可能会带来有趣的编辑。
总而言之，[RGF]首先检索前k个最相关的回答和[上下文]中与参考[回答]不匹配的[上下文]。
在这一步骤之后，[问题生成][模型]以这些备选回答为条件，生成一个与它们相对应的[问题]。
最后，我们可以基于最小化或基于我们有兴趣引入的[语义]扰动的类型来过滤[生成的][问题]。
更详细地检查[检索]的每个步骤，我们使用检索然后读取[模型]，如[REALM]，将原始[问题]作为[输入]，并使用像[维基百科]这样的[大型][语料库]。
它由两个模块组成。
检索器模块对密集的段落索引执行[相似性][搜索]，以检索与[问题]最相关的前k个段落。
然后，阅读器模块从每个段落中提取一个跨度作为潜在的[回答]。
在大多数情况下，[REALM]会检索黄金段落和[回答]。
然而，在这项工作中，我们更感兴趣的是它进一步检索的回答案和[上下文]。
在下一步[问题生成]中，我们使用这些备选回答和[上下文]来重新生成与这些备选回答相对应的新[问题]。
[问题生成][模型]是一个预先训练好的[文本]到[文本]的[转换器]，它在NQ[数据]上进行了微调，以[针对]已在[上下文]中标记的[回答]生成一个[问题]。
在[推理]过程中，我们提供[问题生成][模型]、备选[回答]以及我们在[前]一步中[检索]到的[上下文]。
例如，[对于]“谁是里士满足球俱乐部的队长？”这个[询问]，[REALM]检索由Jess Kennedy担任队长的俱乐部女队的段落，而[问题生成][模型]生成[询问]“谁是里士满足球俱乐部有史以来第一支女子足球队的队长？”
它有一个特定的[语义]扰动。
通过[类似的]方式，我们也会得到一些这样的[询问]，比如“谁是里士满[VFL]预备队的队长？”
或者“格雷厄姆在去年的总决赛中打败了谁？”
最后，我们根据一些期望的特征过滤掉[生成的][询问]的一个子集。
如前所述，我们希望确保新的[问题]仍然在[语义上]接近原始问题。
[对于]不需要额外监督的过滤技术，我们只需保留与原始[问题]有较小[令牌]标签[编辑]距离的新[问题]。
例如，我们删除了“格雷厄姆在去年的总决赛中打败了谁？”的[问题] 。
因为它与原始[问题]有一个较长的[编辑]距离。
在我们的实验中，我们证明了这个简单的[启发式]可以用来增强[训练数据]并将其排入队列。
我们还试验了一种基于[语义]扰动类型的过滤策略。
为此，我们使用了一个名为[QED]的通用[询问]分解框架。
[QED]确定[问题]的两个部分，一个是[谓词]，一个是引用。
引用是[问题]中与[上下文]中的[实体]相对应的[名词]短语。
[谓词]基本上是[问题]的剩余部分。
例如，我们能够将“谁是里士满足球俱乐部有史以来第一支女子足球队的队长”的[询问]分解为两个参考：里士满足球俱乐部女子足球队和谁担任队长X的[谓词]。
在NQ的引用[谓词][注释]上训练的[模型]为我们提供了这个[问题]的分解。
根据[QED]分解原始[问题]和[生成的][问题]，使我们能够对[生成的]反事实进行分类[评估]。
具体而言，我们得到两组[问题]。
在保留[谓词]的同时进行引用更改的问题，以及进行[谓词]更改并可选地添加引用的问题。
例如，“谁是里士满[VFL]预备队的队长？”是进行引用更改。
而“谁在俱乐部穿9[号]球衣”是进行[谓词]更改。
我们现在评估当[增强]到[训练数据]时[RGF]扰动的有效性。
因此，为了有效地评估[反事实][增强]的有效性，我们特别对两个强大的[数据增强][基线]进行实验。
第一个基线称为随机[回答]和[问题生成]，添加了与原始[问题]没有[关系]的[数据]。
也就是说，段落和回答都是从[维基百科]中随机抽取的。
这个基线基本上增加了更多看起来像NQ的[数据]。
通过第二个基线黄金[回答]和[问题生成]，我们特别更新了我们[方法]的[检索]部分。
在这里，备选回答是从包含黄金[回答]的相同段落中选择的。
在[模型]能够访问[问题]和[上下文]的情况下，[基线]和[RGF][增强]在[阅读理解]方面的表现如何？
我们对[域][数据集]中的六个数据集进行了实验，并在这里展示了结果，其中[数据]是[训练数据]，在[增强]中增加了一倍。
我们发现两个[数据增强][基线]都无法改善我们的[域][泛化]。
事实上，在原始[数据]上训练的六个[模型]的集合似乎是最具竞争力的基线。
与基线相比，我们发现[RGF]反事实能够提高[域]外表现，同时保持[域]内表现。
这表明通过[反事实][增强]填补[模型]的[推理]空白，比从[训练]分布中添加更多的[数据]更有效。
[此外]，我们发现，使用[检索]对备选结果或回答进行抽样，[对于]有效的[CDA]非常重要。
我们还尝试了开放[域] [问答]设置，其中[模型]只看到[问题]，然后我们再次对[域][数据集]中的四个[数据集]进行评估。
我们发现基线[模型][对][域]外[泛化]并不那么有效。
然而，使用[RGF]的[数据增强]显示出更显著的改进。
我们甚至在[域]NQ[数据集]中进行了改进。
我们假设[反事实][数据增强]有助于[模型][学习]更好的[询问]编码，[用于]非常[相似]的[询问]。
最后，我们还评估了[模型]在原始[问题]的局部邻域中提高一致性的能力。
一致性衡量的是[模型]正确回答[问题]的比例，其中原始问题和[反事实][询问]都得到了正确回答。
这显然有助于我们衡量[模型]对原始[输入]邻域中的小扰动的[鲁棒性]。
我们对五个[数据集]进行了实验，这些数据集包含[语义上]彼此接近的[问题]对。
除了已经可用的三个[数据集][AQA]、[AmbigQA]和[QUOREF]-对比集之外，我们还根据[RGF]反事实与原始NQ[问题]配对，评估它们是否经历了[谓词]变化或引用变化。
这些子集在内部进行了[注释]，以消除噪声，并作为资源提供。
所有[基线]都无法显著提高与整体[模型]的一致性，只能小幅提高一致性。
然而，[RGF][反事实][增强]在先前的[数据集]和我们为引用和[谓词]扰动策划的两个子集上的一致性方面都取得了令人印象深刻的提高。
请注意，[增强][RGF][数据]不会因扰动类型而产生偏差，只有[评估]集才会产生偏差。
事实上，对[生成的]各种反事实的[定性]检查表明，[生成的][问题]包含几种不同的扰动。
例如，这个关于明尼苏达州沃尔纳特格罗夫人口的原始[问题]在不同维度上受到扰动，如城镇、州、国家，以及不同的[谓词]，如位置、贫困、学校[数量]。
扰动的音频是[上下文]特定的。
例如，这另一个[问题]与温布尔登网球公开赛单打锦标赛有关，扰动取决于比赛类型、锦标赛类型或比赛结果。
最后的总结：我们解决了[反事实][数据增强]和[信息]扰动寻求[询问]的[任务]，并通过逆转[生成][方法]来解决其独特的挑战，通过使用[模型]的未遂事件来过度生成，并根据扰动类型或最小化进行过滤。
我们发现这种技术不需要额外的监督，并且这些示例被[标记][用于][增强]。
[增强]改善了[域]外[泛化]和邻域一致性。
我们发现，[RGF]反事实在[语义上]是多样化的，不会在[增强]过程中引入偏差。
谢谢！