您好，我是Elena ，我将介绍我们的工作，西班牙语检测未同化借款：注释语料库和建模方法。
因此，我们将介绍什么是词汇借用，我们提出的任务，我们发布的数据集以及我们探索的一些模型。
但首先，什么是词汇借用，为什么它作为NLP任务很重要？
词汇借用基本上是将一种语言中的单词合并到另一种语言中。
例如，在西班牙语中，我们使用来自英语的单词。
这里有一些例子，例如播客，应用程序和在线众筹，所有这些都是我们有时在西班牙语中使用的英语单词。
词汇借用是一种语言借用，基本上是以其他语言的一种语言模式复制。
借用和代码切换有时被比较和描述为一个连续统一体，代码切换是双语者同时混合两种语言所做的事情。
然而，词汇借用和代码交换之间存在一些差异。
我们将专注于词汇借贷。
代码交换是由双语者完成的，根据定义，代码交换机不会集成到使用中的任何语言中，而词汇借用也是由单语者完成的。
借款将符合接收方语言的语法。
借款最终可以集成到接收方语言中。
那么，为什么借贷是一个有趣的现象呢？
从语言学的角度来看，借用是语言如何变化以及它们如何相互作用的表现。
词汇借用也是新词汇的来源。
这里有一些词汇借用的例子，这些词汇借用已作为新单词纳入西班牙语。
就NLP而言，借贷是词汇外单词的常见来源。
事实上，自动检测词汇借用ah已被证明对NLP下游任务有用，例如解析，文本到语音合成或机器翻译。
人们对英语对其他语言的影响越来越感兴趣，特别是与英语词汇借用有关的借用，有时被称为英语借用。
在这里，你有一些关于自动检测其中一些语言的借贷的例子。
因此，我们提出的任务是检测西班牙新闻通讯中未同化的词汇借款。
这意味着我们有兴趣从西班牙报纸上使用的其他语言中提取词汇，但尚未整合或同化到收件人语言中。
所以还没有融入西班牙语。
这里有一个例子。
这是西班牙语中的一句话： Las prendas畅销书se estampan con motivos florales ，动物印花o retales tipo拼凑。
嗯，正如你所看到的，有三个跨度的文本，实际上是英语单词，如畅销书，动物印刷和拼凑。
这些是我们有兴趣提取和检测的跨度的类型。
以前有过关于英语检测的词语，它由西班牙新闻通讯社的英语检测CRF模型组成。
这款车型的F1得分为86分。
但数据集和建模方法都有一些局限性。
因此，数据集仅关注一个新闻来源，仅包括标题。
此外，在训练集和测试集中出现的借款也有重叠。
这妨碍了对建模方法是否可以真正推广到以前看不见的借款的评估。
因此，我们的目标是解决这项任务中的一些限制。
首先，我们创建了一个新的数据集。
啊，一个新的数据集的目标是用词汇借用注释，目的是创建一个尽可能困难的测试集。
因此，训练集和测试集之间的单词和主题的重叠最小。
因此，测试集来自我们在训练集中看不到的来源和日期。
在这里你可以看到，在时间上没有重叠。
此外，测试集也非常借贷密集。
只是给你一些数字，如果训练集每千个令牌包含六个借款，测试集每千个令牌包含二十个借款。
测试集包含尽可能多的词汇单词。
事实上，测试集中92%的借款是OOV。
他们在训练中没有被发现。
语料库基本上由来自西班牙报纸不同来源的文本组成。
啊，是用手写的，啊，用两个标签。
一个是英语词汇借用，这是西班牙语大多数词汇借用，然后是从其他语言借用的标签。
我们使用CONLL格式，我们使用生物编码，以便我们可以对单个令牌借用（如APP ）或多个令牌借用（如机器学习）进行编码。
这些是语料库的数字。
正如你所看到的，它相当于大约三十七万个代币。
这里有被标记为英语的跨度和被标记为其他借款的跨度，以及其中有多少是独一无二的。
这里有几个数据集的例子。
正如你在这里可以看到的，在第一个例子中，我们有ah ，我们有借用批烹饪，这是一个多字借用。
我们已经用生物um编码注释了它。
因此，简介用于西班牙语中的单词，而不是用于未借用的单词。
在这里，在第二个例子中，你有板凳和崩溃，这也被标记为从英语借来的。
所以，一旦我们有了数据集，我们探索了几个模型来提取和检测这些词汇借用。
我们尝试的第一个是条件随机场模型。
啊，这是以前工作中使用的模型。
我们使用了同样的手工制作的特征从那些从工作。
正如你所看到的，这些都是特征。
这些是二进制特征，例如单词或大写的令牌？
是titlecase吗？
它是否是引号?。
类似的东西，这是人们在命名实体识别任务中期望的功能类型。
这就是我们得到的结果。
我们使用具有手工制作特征的CRF模型获得了55个F1分数。
这与报告的F1评分86分有很大的不同，这是使用相同的CRF模型获得的结果，相同的特征，但在不同的数据集上也用于西班牙语词汇借用检测。
因此，这证明我们创建的数据集更加困难，我们需要为这些任务探索更复杂的模型。
因此，我们测试了两种基于变压器的模型。
我们使用了BETO ，这是一个为西班牙语和多语言BERT训练的单语BERT模型。
这两个模型我们通过HuggingFace的transformers库使用它们。
这就是我们得到的结果。
正如你所看到的，多语言BERT在开发集和测试集以及所有指标上的表现都优于BETO。
正因为如此，我们有了一个比较的想法， CRF模型获得了八十二分。
CRF模型获得了55分，获得了55分F1分数，而多语言BERT模型获得了82分，这是一个很大的差异。
所以，一旦我们得到了这些结果，我们就问自己另一个问题，我们能否找到一个BiLSTM-CRF模型，给它提供不同类型的嵌入，编码不同类型的语言信息的嵌入，并执行优于基于变压器的模型获得的结果？
因此，为了做到这一点，我们进行了一些初步的实验，我们用BiLSTM-CRF模型使用FLARE库来运行它。
我们尝试了不同类型的嵌入，如基于变压器的快速文本，字符嵌入等。
我们发现，基于变压器的嵌入比非上下文嵌入表现更好，英语BERT和西班牙语BETO嵌入的组合优于多语言BERT嵌入。
而且BPE嵌入产生了更好的F1和字符嵌入产生了更好的回忆。
考虑到这一点，这些是我们获得的最佳表现结果。
两种模型都是使用FLARE的BiLSTM-CRF模型。
一个是BETO和BERT嵌入和BPE ，另一个是BETO和BERT嵌入和BPE以及字符嵌入。
最后一个是在测试集中产生最高F1分数的测试集，尽管开发集上的最高分数是由没有字符嵌入的测试集获得的。
请记住，我们使用多语言BERT获得的最佳结果在开发集中获得了76分的F1 ，在测试集中获得了82分。
因此，与这些结果相比，这是一个改进。
最后，我们问自己另一个问题，即词汇借用检测可以被定义为代码切换中语言识别的迁移学习吗？
因此，我们运行了使用flare运行的相同的BiLSTM-CRF模型，但不是使用这些基于变压器的BETO和BERT嵌入，而是使用代码开关嵌入。
什么是代码交换嵌入？
这些嵌入是基于变压器的微调嵌入，这些嵌入已经在LinCE代码交换数据集的西班牙语英语部分进行了语言识别预训练。
LinCE是一个关于代码切换的数据集，其中有一个关于西班牙语英语，西班牙语英语代码切换的部分。
因此，我们为BiLSTM-CRF提供了代码开关嵌入和可选的字符嵌入， BPE嵌入等。
我们得到的最佳结果是八十四点二十二分，这是我们在测试集中尝试的所有模型中最高的。
尽管我们在开发集中得到的最佳结果F1分数是79 ，低于使用未适应嵌入的BiLSTM-CRF获得的最佳结果。
从我们的工作中得出了一些结论。
我们制作了一个新的西班牙新闻通讯数据集，该数据集带有未经同化的词汇借用注释。
这个数据集比以前的资源更密集、更丰富。
我们已经探索了四种类型的词汇借用检测模型。
在误差分析方面，召回是所有模型的一个弱点。
啊，正如你在这里所看到的，一些频繁的假阴性包括大写借用，例如英语和西班牙语中都存在的单词。
同样有趣的是， BPE嵌入似乎提高了F1分数。
字符嵌入似乎可以改善回忆。
这是一个有趣的发现，也许我们可以在未来的工作中探索。
这就是我所拥有的一切
非常感谢您的聆听。
我叫安东尼
我是马萨诸塞大学阿默斯特分校的博士生
我提出我们的论文KinyaBERT ：形态感知的基尼亚卢旺达语言模型。
今天，我将谈谈这项研究的动机。
然后我将详细介绍KinyaBERT模型架构。
然后我将谈论我们的实验结果，然后得出一些结论。
我们都知道，最近的自然语言处理的进步是通过使用预先训练的语言模型（如BERT ）实现的。
然而，仍然存在一些局限性。
由于大多数形态丰富的语言所表达的复杂形态，我使用的无处不在的字节对编码标记化算法无法提取精确的子词汇词汇单位，即有效表示所需的语素。
例如，这里我们有三个基尼亚卢旺达语单词，其中有几个语素，但BPE算法无法提取它们。
这是因为一些形态学规则产生了不同的表面形式，隐藏了确切的词汇信息，并且仅基于表面形式的BPE无法访问此词汇模型。
第二个挑战是，即使人们可以访问oracle形态分析仪，用语素替换BPE标记也不足以表达形态组合性。
研究的第三个差距是，新的预训练语言模型最常在高资源语言上进行评估。
我们还需要评估它们在低资源和多种语言上的适用性。
因此，我们提出了KinyaBERT ，这是对BERT架构的简单但有效的适应，旨在更有效地处理形态丰富的语言。
我们在Kinyarwanda上评估KinyaBERT ，这是一种低资源形态丰富的语言，在东非和中非有超过一千二百万人使用。
模型的输入要么是一个句子，要么是一个文档。
例如，这里有John twarahamubonye biradutangaza ，这意味着我们很惊讶地发现约翰在那里。
正如你所看到的，基尼亚卢旺达语单词包含几个语素，其中包含不同的信息。
因此，在我们的模型中，我们将此句子或文档传递给形态分析仪。
然后生成每个单词中包含的语素。
语素通常由词干和零个或多个词缀组成。
这些词缀可以在动词中表示时态、方面、主语或客体，并且更经常地涉及主语和客体的Bantu名词类。
形态分析仪还为每个单词生成语音标记的一部分。
在这一步之后，我们为Spee-嵌入语音标记的部分。
缀的嵌入。
和茎的嵌入物。
这些是形态水平，这些是形态水平的嵌入。
然后，我们将这些嵌入通过形态编码器，这是一个独立应用于每个单词的小型变压器编码器。
的输出是与每个词的形态信息相关联的向量。
现在，我们执行组合，其中对应于部分语音和词干的形态嵌入连接在一起。
我们进一步将它们与句子级别的另一个STEM嵌入连接起来。
然后我们形成主句或文档编码器的输入。
最终输出是可用于下游NLP任务的上下文嵌入。
对于形态分析仪，我们使用有限状态二级形态原理，并根据基尼亚卢旺达语定制实现。
我们有效地对所有基尼亚卢旺达语单词的形态进行建模，包括动词、名词、示意代词和占有代词、数字等。
我们使用语音标记算法的无监督部分。
一阶分解模型用于考虑形态概率，基本上是形态分析仪分配的概率。
我们还考虑了语音标记优先级的部分以及输入词中存在的句法一致性。
语音标注器的部分使用双向双向推理，这改进了更常用的维特比解码算法。
这里有一些关于位置编码的说明。
首先，形态编码器不使用任何位置编码。
这是因为每个语素在形态模型中占据一个已知的槽。
因此，当给出语素时，位置信息是固有的。
其次，句子编码器使用了最近在ICLR会议上发布的所谓不绑定的相对位置嵌入。
这种位置嵌入基本上解开了从令牌到令牌注意力计算的位置相关性。
与BERT类似，我们使用掩蔽语言模型预训练目标。
从本质上讲，我们必须预测与单词相关的词干和词缀。
在预训练期间，所有单词中有15 ％被考虑用于预测，其中80 ％被掩盖， 10 ％被随机单词交换， 10 ％保持不变。
对于后缀预测，我们面临一些多标签分类问题。
为此，我们要么将它们组合成一个固定数量的集合，并预测该集合作为一个类标签。
另一种选择是预测后缀概率向量。
我们在实验中评估了这两种方法。
我们在约2.5千兆字节的Kinyarwanda文本上预训练KinyaBERT ，并将其与三个基线模型进行比较。
一种是称为XLM-R的多语言模型，该模型在由多种语言组成的大型文本语料库上进行训练。
另外两个基线使用字节对编码算法或使用形态分析而不使用两层变压器编码器架构在同一Kinyarwanda文本上进行预训练。
所有模型都配置在基础架构中，大约有一亿到一千一百万个参数， Kinyarwanda和KinyaBERT使用的参数最少。
除多语言外，所有模型都经过预训练，每批进行三万二千次梯度更新，批量大小为二千五百六十个序列。
我们在三组任务上评估预训练模型。
一种是胶水基准，它经常被用来评估预训练语言模型的有效性。
我们通过使用Google翻译将原始基准数据翻译成基尼亚卢旺达语来获得胶水基准数据。
第二个任务是Kinyarwanda命名的实体识别基准，这是一个由训练有素的母语人士注释的高质量数据集。
第三个是新闻分类任务，我们从几个网站提取新闻文章，收集作者分配的分类标签，然后基本上尝试预测相同的类别。
现在我们来看结果。
对于胶水基准，我们发现KinyaBERT始终优于基线模型。
在这里，我们展示了十次微调运行的平均性能。
我们还对Google翻译生成的翻译进行了用户评估。
从本质上讲，用户对大约6000个示例进行了评级，按照1到4的等级分配了分数，评估了翻译的质量。
其结果是，许多翻译是嘈杂的。
但是，所有模型都必须应对相同的翻译噪声，并且模型之间的相对性能仍然值得注意。
对于命名的实体识别任务，我们还发现KinyaBERT具有最佳性能，并且后缀分布回归变量性能最佳。
这些结果也是10次微调的平均值。
对于新闻分类任务，我们发现结果好坏参半。
以前关于Kinyarwanda文本分类的工作发现，简单的关键字检测基本上足以解决这一特定任务。
因此，使用预训练语言模型的收益较少。
关于新闻分类的特殊任务。
我们还进行了一项消融研究，看看是否有其他结构可以提高性能。
对于胶水基准测试，我们发现使用后缀集始终表现更好，而后缀概率回归目标在命名实体识别上获得最佳性能。
此外，通过观察微调的低分数，我们发现KinyaBERT在大多数情况下具有更好的收敛性。
总而言之，这项工作已经证明了在预先训练的语言模型中显式使用形态信息的有效性。
提出的双层变压器编码器架构能够捕获形态复杂性形态组合性，这是形态丰富语言的一个重要方面。
这些发现应该激励对形态学意识语言预训练语言模型的进一步研究。
您好，我叫Michał Pietruszka ，我很高兴向您介绍题为Sparsifying Transformer Models with Trainable Representation Pooling的论文。
Applica AI与Lukasz Borchmann和Lukasz Garncarek合作完成的一项工作。
让我先谈谈我们的工作目标。
我们的方法适用于考虑长输入的情况。
粗略地说，它适用于超过两千个令牌的任务订单和输入，目标比提供的输入短。
这在NLP中有一些具体的应用。
例如，可以想象，给定一个长文档，需要对其进行总结，分类，回答有关它的问题，提取信息或一些关键短语。
让我回顾一下香草变压器和我们及其注意力复杂性的问题，这取决于输入线的平方。
在原生变压器中，通过充分的关注连接，必须计算每个令牌与其他令牌的关系。
注意力的计算复杂性，这取决于层数l ，序列长度n ，另一个序列长度和表示的维度。
同样，在解码器的交叉注意中，右侧的这张图片，这里唯一的区别是目标令牌在这种情况下关注输入令牌。
这也可以从这个公式中看出。
BLEU分数表示必须计算的关系。
在充分注意的情况下，我们需要计算输入序列中的每个关系。
现在，我们看到当我们有一个块式编码器时会发生什么，该编码器通过限制令牌连接来工作，以便它们只能看到附近的其他令牌。
文本以块形式读取，这可以大大减少编码器侧的计算次数，但不会改善解码器的交叉注意力，因为无论如何，每个输入令牌都传递给解码器。
这种方法在解码器中通常被称为融合。
这里的改进可以解释为将n的一个依赖关系更改为表示块大小的另一个常量m。
我们的关键观察是，大多数代币与各种各样的任务无关，几乎可以完全忽略。这在幻灯片中举例说明。
输入的唯一部分与期望的输出相关。
举个例子。
可以阅读一篇文章，用荧光笔标记最重要的部分，然后仅根据中间阶段的这一部分生成摘要。
因此，突出显示和决定当前令牌是否对生成摘要至关重要的成本是便宜的，并且仅取决于令牌的表示。
可以汇集突出显示的代币。
感谢我们的顶级k运营商，其成本可以忽略不计。
从缩短的输入生成摘要的成本也比考虑整个输入时的香草模型低得多。
但这里有一个问题。
如何选择重要的令牌并反向传播梯度到该选择？
我们解决的基本问题是提出可训练的选择机制。
可以允许梯度在训练期间反向传播，以便网络可以学习选择最重要的令牌。
更准确地说
给定一些从简单线性层获得的嵌入下划线，任务是返回得分最高的嵌入。首先，将序列排列并制备对，以使得较高的评分向量与较低的评分向量一起拍摄。
接下来，使用增强的softmax超过分数来计算权重。
每轮比赛结束后，新的矢量和分数将作为这些对与获得的权重的线性组合组成。
因此，简而言之，我们通过对它们的分数执行softmax来线性地组合它们。
当结合两个代币时，可能会产生一些噪音。
但它也允许梯度传播到所有输入嵌入。
简而言之，我们提出的可训练的top k基于在每个步骤中执行类似软选择的锦标赛。
从不同的角度来看，表示池遵循编码器层。
首先，对每个表示进行评分，然后只有得分最高的表示才会传递到下一层。
编码可以像标准变压器架构中的全长输入一样进行。
但是，可以处理固定长度的固定长度块中的文本，并在全局范围内选择最佳表示。
下面是编码器之后引入的表示池的示例。
这直接影响了交叉注意的原因，交叉注意的原因不取决于输入长度N ，而是常数K ，表示汇集的长度。
此常量通知选择并传递给解码器的表示形式数量。
从较短的文本生成摘要比以前的解决方案便宜得多。
由于序列长度可以缩短一个很大的因素。
例如，我们在实验中成功地使用了比n值小16倍甚至60倍的k ，甚至是n值的64倍。
请注意，块式编码和自我关注的有益影响是持续的。
请记住，注意力的计算成本取决于输入长度的平方。
在编码过程的早期减少输入可以显着降低成本。
对于金字塔模型，我们缩小了每个选定层输出上的表示的大小，导致随着编码的进行，计算成本的指数级减少。
如您所见，这里全编码器的总计算成本不到全尺寸第一层成本的两倍。
当较早引入池化时，所有紫色平方的总和因此被限定为常数，而不依赖于层数l。
但是在常数c上，可以通过在网络中放置池化层来影响。
我们的改进以8000个令牌长输入为基准。
该图显示，当池化参与时，可以实现网络深度的最佳可扩展性。
在这里，人们可以注意到，训练二十四层的金字塔比在如此长的输入上训练两层香草变压器更便宜。
更不用说，对于如此长的输入，香草变压器是多么容易耗尽内存。
我们的趋势金字塔与其他基线的质量质量定性比较是在长文档摘要任务上执行的，或者给定arXiv或PubMed的文章正文，任务是生成其抽象。
因此，人们可以看到块状，这是我们的基线，在re的水平上执行，最近最先进的模型，而金字塔保留或提高了这种竞争基线的性能。
同时，我们的模型训练速度比块式基线快80% ，推理速度比块式基线快45%。
这两个模型的参数计数都要低得多，并且从头开始接受所选任务的训练。
以前实现类似性能的方法必须使用更多的参数，并利用预训练的基础基础模型和额外的语言预训练目标来实现类似的性能。
我们邀请您阅读我们的完整论文并使用我们的GitHub代码。
感谢您的收看。
大家好，我是哈佛大学的Jiawei Zhou。
我非常高兴地介绍我们在面向任务的对话中减少延迟的在线语义解析方面的工作。
这是与Microsoft Semantic Machines的Jason ， Michael ， Anthony和Sam的联合工作。
在面向任务的对话中，用户与通常在说话中处理用户话语请求的系统进行交互。
从用户话语结束到系统响应，通常会有明显的延迟。
在引擎盖下，用户话语被转换成可执行程序。
然后执行，以便系统可以正确响应。
因为程序表示为概述计算的语义图，其中节点表示函数调用，其子节点表示参数。
伟大的节点标志着瞬时操作，但其他节点的执行速度很慢。
我们在这里展示的简单例子是，这些程序通常可以是树结构之外的更复杂的图形。
在这个演讲中，我们提出了一个问题，我们可以在用户完成话语之前开始生成程序并执行它，以便系统可以实现更快的响应吗？
这是在线预测和决策的问题。
这个领域还有很多其他人。
示例包括同步翻译，其中实时口译员将一种语言实时翻译成另一种语言，智能文本自动完成以猜测用户意图，以及优步池，其中根据预测需求将司机发送到可能需要的地方。
所有这些场景都有一个共同点。
也就是说，在看到所有输入之前做出决定是有益的。
在我们的例子中，我们将处理在线语义解析，这可能是具有挑战性的，因为我们必须猜测用户可能会说什么。
它也被低估了，没有正式的评估指标。
首先，让我们看看一个普通的系统是如何工作的。
它仅在用户话语结束时通过解析到程序来脱机操作。
在这里，字符图是在看到所有信息后预测的。
相比之下，我们提出了一个在线系统，可以在每个话语前缀进行比较。
例如，每次我们看到一个新的令牌，我们都会预测一个新的图形。
请注意，可能存在错误。
在与巴拉克•奥巴马（ Barack Obama ）举行的泳池派对上的位置，我们得到了一张图表，其中包含人物和事件主题的正确节点，但猜错了时间信息。
这个过程一直持续到我们收到完整的用户话语为止。
这将如何影响离线系统的执行时间表？
我们将在最后得到程序图，以便系统可以在此时开始执行。
请记住，伟大的节点是快速操作，所以我们只考虑彩色慢函数的执行时间线。
首先，这两个FIND PERSON函数可以并行执行，从粉色框中以白色突出显示，因为它们不依赖于其他函数。
接下来，节点创建事件可以在从较低级别的节点获得结果后执行，然后顶级函数产生，从而完成整个程序。
执行过程是严格的，仅限于程序依赖结构，其中一些操作不能并行化，从而导致明显的延迟。
在我们的在线系统中，我们可以随时预测，程序执行可以更早地开始。
在这里，在奥巴马之后的前缀，我们自信地预测查找人员函数应该在程序中，但其余的可能包含错误，因为它们是灰色的。
节点的执行可以立即开始作为一个步骤。
然后，使用更多的令牌，我们预测一个全新的图形，但其中的一部分已经被执行。
因此，我们只需要考虑我们有信心的其余节点。
在这里，可以并行执行另一个查找人。
再一次，我们可能有错误的预测。
有了更多的文字，我们就有更多的能力去做正确的事情。
例如这里的事件时间， AM也被正确预期。
然后，我们可以按照程序依赖结构开始执行其余部分。
通过将执行时间线与话语时间线重叠，我们节省了大量的时间。
所以我们提出了在线语义解析的任务。
一个潜在的假设是执行时间主导模型预测时间。
因此，我们只能通过早期预测来获得时间。
另一个假设是，当预测和执行发生在后台时，它对用户不可见。
没有必要保持一致的解析历史记录。
因此，我们在每个令牌之后从头开始重新解析。
我们特别建议采取两步走的办法。
一个提议的步骤，预测一个具有完整结构的图形和一个选择步骤，选择此时值得执行的节点。
我们提出了两种不同的方法。
第一种方法将语言模型完成与图解析的完整话语相结合。
特别是，奥巴马之后的前缀首先通过微调的BART语言模型完成，然后翻译成具有完全离线解析器的程序。
第二种方法直接从用户话语前缀预测程序。
这是通过训练一个在线解析器来从每个前缀转换到目标图来实现的。
这有助于模型学习正确的预测。
更详细地说，我们如何生成这些图表？
我们通过生成图的串行版本来制定问题。
每个节点或边缘都由一个动作表示。
在这里，我们从第一个节点开始。
下面的数字记录了操作历史记录中的绝对索引。
然后我们得到了第二个节点。
接下来，是他们之间的边缘。
它包含指向上一个节点索引和边缘标签的指针。
这里的零意味着将最新的节点与第0个动作和下一个节点下一个边缘生成的节点连接起来。
这个过程一直持续到生成完整的图形为止。
底层模型基于变压器，具有类似于以前基于转换的解析器的自指向机制。
在生成完整的图形后，我们得到了与图形的不同部分相对应的动作级概率。
我们根据要执行的阈值启发式选择置信度子图。
稍后，我们将改变阈值，以实现延迟减少和执行成本之间的不同权衡。
对于在线方法的正式评估，我们提出最终延迟减少或FLR指标。
以下是离线系统如何完成执行时间线的概述。
在在线系统中，执行与话语时间线重叠，因此它更早结束。
FLR被定义为与离线系统相比的缩短时间，以执行结束为标志。
我们在两个大型会话语义解析数据集SMCalFlow和TreeDST上进行实验。
我们基于图的解析器在离线操作时，在解析两个数据集时实现了最先进的性能。
与节点完成的简单基线相比， LM完全模型还实现了非平凡的BLEU增益。
现在，让我们来看看我们的图解析器前缀的预测精度。
我们在y轴上的验证数据中测试生成和转到图之间的图元组的匹配F1分数，以百分比表示x轴上的每个前缀长度。
这些曲线中的每一条都代表了一个不同的模型，唯一的区别是训练数据。
底部曲线是离线解析器，我们以不同的长度混合前缀数据，将模型转换为在线解析器。
例如，图例前缀百分之八十加表示模型使用前缀长度大于完整话语长度百分之八十的前缀数据进行训练。
左上角是所需的区域。
正如我们所看到的，黑色曲线中的离线解析器在前缀数据上表现不佳。
当我们在训练中混合更多的前缀时，曲线向上和向左提升，在所有前缀长度上表现得更好。
但是，完整的话语解析性能不会受到右上角点的影响。
基于这些强劲的结果，我们可以减少多少延迟？
我们通过源代币的数量来衡量时间，并模拟不同的函数执行时间。
曲线显示了FLR指标和执行成本之间的权衡，通过不正确的过度函数成本的数量来衡量。
这是通过改变子图选择阈值来实现的。
较高的阈值选择较少的错误函数，但获得较小的FLR ，而较低的阈值更积极地选择和执行程序。
我们比较了我们提出的两种方法和一个基线，它除了直接将离线解析器应用于在线使用之外什么都不做。
左上角区域具有最佳的FLR和成本权衡。
我们看到我们的两种方法都大大超过了基线，并且它们在TreeDST上的表现更相似。
虽然单个函数执行速度更快，但往往有更多的运行执行和更低的延迟减少空间。
当单个函数执行较慢时， FLR改进的空间更大。
我们的两种方法在不同的成本成本区域实现了更好的性能。
总体而言，我们实现了30 ％至63 ％的相对延迟减少，具体取决于执行时间和允许的成本。
最后，当允许的成本是三次运行执行时，我们对每种类型的函数节点的平均延迟减少进行了细分。
正如我们所看到的，整个董事会都有收获。
还有一些功能，我们可以在红色条更长的地方获得令人印象深刻的延迟减少，例如查找管理器和收件人。
这些是低级函数，不太依赖于其他函数。
总之，我们提出了在线语义解析作为新的任务，以探索严格的延迟减少指标。
通过强大的基于图的语义解析器，我们可以通过LM完成和完整解析器的管道方法或直接通过前缀上的学习解析器实现相对良好的延迟减少。
此外，我们的方法可以是一个通用框架，可以应用于不同领域的其他可执行语义表示。
未来的工作可以探索更智能的预测和执行集成方法。
感谢您的聆听。
嗨。
我将讨论我们在为问答任务生成检索增强反事实方面的工作。
这是我在Google Research实习期间完成的工作，由Matthew Lamm和Ian Tenney指导。
为了激励这项任务，让我首先定义一个反事实。
在这项工作中，我们将反事实定义为输入文本的扰动，其以某种有意义的受控方式与原始文本不同。
并允许我们推理结果或任务标签的变化。
例如，将“迷人”改为“迷人”或“预期”改为“麻木” ，改变了这部电影评论的情绪。
同样，在问题中添加限定词“women 's”会改变下面例子中问题的答案。
与在这项任务上训练的NLP模型相比，人类通常对这种扰动具有鲁棒性。
为什么会这样？
数据集可以通过系统偏差进行采样，从而导致被反事实违反的简单决策边界。
如2D分类问题所示。
我的工作发现，在训练数据中添加反事实示例可以使模型对这种扰动具有鲁棒性。
那么，如果反事实是有价值的，我们如何才能产生它们？
这个任务对NLP来说特别困难，因为这里有三个不同的NLP任务的三个例子。
正如你所看到的，违反结果之间的决策边界的例子需要通过扰乱这里强调的文本的一些属性来非常仔细地制作。
这可以通过人工注释来完成，但这是昂贵且有偏见的。
以前的一些工作主要集中在使用语法树或语义角色标签。
但是，这些技术生成的一组扰动受到语义框架的限制。
最近的工作使用了掩码语言模型来填充文本的掩码部分以更改标签。
但是，找到要扰乱文本的哪些部分可能具有挑战性。
在为具体回答问题生成反事实方面存在更多挑战。
这项任务需要背景知识。
例如，扰乱最初的问题是印第安纳琼斯神庙的毁灭前传？
我们需要了解特许经营中的其他电影才能得到一个问题，比如印第安纳琼斯“失落的方舟突袭者”是前传吗？
此外，随机扰动可能导致无法用现有证据回答的问题或有错误的前提。
此外，一些问题扰动可能导致从原始输入显著的语义漂移。
例如，这个问题是印第安纳琼斯在毁灭神庙练习奴役儿童？
我们提出了一种非常简单但有效的技术，称为检索生成过滤器或RGF ，以解决问题的反事实扰动，并旨在解决上述所有其他挑战。
RGF背后的核心直觉是，生成扰动所需的必要背景信息可能存在于问答模型的近距离未命中中。
例如，最先进的模型领域为里士满足球俱乐部的队长提供了以下k个答案。
虽然它确实恢复了原始的参考段落，并回答Trent Cotchin是最好的选择。
它还检索了其他段落和答案，可用于指导问题扰动。
例如，它又恢复了两个对应于预备队队长和同一俱乐部女子队的答案，这可能会导致有趣的编辑。
总而言之， RGF首先检索最相关的前k个答案和上下文中与参考答案不匹配的上下文。
在此步骤之后，问题生成模型对这些备选答案进行条件化，以生成与它们相对应的问题。
最后，我们可以根据最小化或基于我们有兴趣引入的语义扰动的类型来过滤生成的问题。
在更详细地检索每个步骤时，我们使用检索然后阅读模型，如REALM ，它将原始问题作为输入，以及像维基百科这样的大型语料库。
它由两个模块组成。
检索器模块对密集的段落索引执行相似性搜索，以检索与问题最相关的前k个段落。
然后，阅读器模块从每个段落中提取一个跨度作为潜在的答案。
在大多数情况下， REALM会检索黄金通道并回答。
然而，在这项工作中，我们对它进一步检索的答案和背景更感兴趣。
在下一步，问题生成中，我们使用这些替代答案和上下文来重新生成与这些替代方案相对应的新问题。
问题生成模型是一个预先训练的文本到文本转换器，它对NQ数据进行了微调，以生成在上下文中标记的答案的问题。
在推理过程中，我们提供了问题生成模型，我们在上一步中检索到的替代答案和上下文。
例如，对于询问谁是里士满足球俱乐部的队长？ REALM检索了由Jess Kennedy担任队长的俱乐部女子队的段落，问题生成模型生成了里士满足球俱乐部第一支女子队的队长是谁？
它有一个特定的语义扰动。
以类似的方式，我们也会收到询问，例如谁是里士满的VFL储备队的队长？
格雷厄姆在去年的总决赛中否决了谁？
最后，我们根据一些期望的特征过滤掉生成的查询的一个子集。
如前所述，我们希望确保新问题在语义上仍然接近原始问题。
对于不需要额外监督的过滤技术，我们只需保留与原始问题具有较小标记标签编辑距离的新问题。
例如，我们删除了格雷厄姆在去年的总决赛中否决了谁的问题？
因为它与原始问题的编辑距离更长。
在我们的实验中，我们证明了这种简单的启发式可以用来增加和排队训练数据。
我们还实验了一种基于语义扰动类型的过滤策略。
为此，我们使用称为QED的通用查询分解框架。
QED确定问题的两个部分，一个谓词和一个参考。
引用是问题中与上下文中的实体相对应的名词短语。
谓词基本上是问题的剩余部分。
例如，我们能够将里士满第一支女子队的队长分解为两个参考：里士满足球俱乐部女子队和队长X的谓词。
在NQ的参考谓词注释上训练的模型给出了这个问题分解。
根据QED对原始问题和生成的问题进行分解，使我们能够对生成的反事实进行分类以进行评估。
具体而言，我们得到两组问题。
那些在保留谓词的同时经历引用更改的人，以及那些经历了谓词更改并可选地添加引用的人。
例如，谁是里士满的VFL预备队的队长是一个参考变化？
然而，谁为俱乐部穿9号是一个前提的变化。
我们现在评估RGF扰动的有效性，当增加到训练数据。
因此，为了有效地评估反事实增强的有效性，我们试验了两个强大的数据增强基线。
第一个基线称为随机答案和问题生成，它添加了与原始问题无关的数据。
也就是说，段落和答案只是从维基百科随机抽样。
这个基线基本上增加了更多看起来像NQ的数据。
通过第二个基线黄金答案和问题生成，我们特别更新了方法的检索部分。
在这里，替代答案只是从包含黄金答案的相同段落中选择。
在模型可以访问问题和上下文的情况下，基线和RGF ah增强如何基于阅读理解？
我们试验了六个域外数据集，并在这里展示了结果，其中数据是训练数据在增强中翻了一番。
我们发现这两个数据增强基线都无法改善我们的领域泛化。
事实上，基于原始数据训练的六个模型集合似乎是最具竞争力的基线。
与基线相比，我们发现RGF反事实能够提高域外性能，同时保持域性能。
这表明通过反事实增强填补模型的推理空白比从训练分布中添加更多数据更有效。
此外，我们发现使用检索来采样替代结果或答案对于有效的CDA非常重要。
我们还试验了开放域QA设置，其中模型只看到问题，我们再次评估四个域外数据集。
我们发现基线模型对于域外推广没有那么有效。
然而，使用RGF进行的数据增强显示出更显着的改善。
我们甚至改进了域内NQ数据集。
我们假设反事实数据增强有助于模型为非常相似的查询学习更好的查询编码。
最后，我们还评估了模型在原始问题的局部邻域中提高一致性的能力。
一致性衡量模型正确回答问题的比例，其中原始查询和反事实查询都得到正确回答。
这明确地帮助我们测量模型对原始输入附近的小扰动的鲁棒性。
我们尝试使用五个数据集，其中包含在语义上彼此接近的问题对。
除了已经可用的三个数据集AQA ， AmbigQA和QUOREF-对比度集之外，我们还根据它们是否经历了谓词变化或参考变化来评估与原始NQ问题配对的RGF反事实。
这些子集在内部注释以消除噪声，并作为资源提供。
所有基线都无法显著提高与整体模型的一致性，从而使一致性提高一小部分。
然而， RGF反事实增强在先前的数据集和我们为参考和谓词扰动而策划的两个子集的一致性方面都有令人印象深刻的增加。
请注意，增强的RGF数据不受扰动类型的偏差，只有评估集有偏差。
事实上，对所产生的各种反事实的定性检查表明，所产生的问题包含几个不同的扰动。
例如，这个关于明尼苏达州核桃树林人口的原始问题在不同的维度上受到干扰，如城镇，州，国家，以及不同的谓词，如位置，贫困，学校数量。
扰动的音频是特定于上下文的。
例如，对于有关温布尔登单打锦标赛的另一个问题，扰动是比赛类型，锦标赛类型或比赛结果。
最后的收获;我们解决了反事实数据增强和扰动的任务，以寻求查询信息，并通过逆转生成方法来解决其独特的挑战，过度使用模型的近乎未命中和过滤器基于扰动类型或最小化。
我们发现这种技术不需要额外的监督，并且示例被标记为增强。
增强改进了域泛化和邻域一致性。
我们发现RGF反事实在语义上是多样化的，而不会在增强过程中引入偏差。
谢谢。
