大家好。今天我将介绍我们的研究工作Learning to Reason Deductively: Math Word Problem Solving as Complex Relation Extraction。
我是ByteDance AI Lab的Allan ，这是与德克萨斯大学奥斯汀分校的Jierui Li和SUTD的Wei Lu的合作。
首先，我想谈谈我们的推理动机。
所以在这里，我们展示了一个多步骤推理很有帮助的例子。
因此，该图取自PaLM论文，其中他们执行提示以解决少数镜头学习场景中的网络问题。
因此，在左侧，我们可以看到如果我们只给出一些问题和答案的例子，我们可能无法获得正确的答案。
但是，如果我们给出一些更多的推理描述，该模型能够预测推理描述，并在此处做出正确的预测。
因此，将可解释的多步骤推理作为输出是很好的。
我们还认为数学单词问题是一个简单的应用程序来评估这种推理能力。
因此，在我们的问题设置中，鉴于我们需要解决这个问题并获得数字答案。
因此，在我们的数据集中，我们还得到了数学表达式，这也导致了这个特定答案的出现。
因此，某些假设也适用于以前的工作。
我们假设数量的精确度是已知的。
我们只考虑基本运算符，如加法，减法，乘法，除法和指数。
此外，复杂的运算符实际上可以分解成这些基本运算符。
所以，以前解决数学单词问题的工作啊实际上可以分为序列到序列和序列到树模型。
因此，传统的序列到序列模型将表达式转换为特定序列以进行生成。
它很容易实现，并且可以概括为许多不同的复杂问题。
但缺点是性能实际上并不比结构化模型好，而且缺乏预测的可解释性。
但实际上这个方向仍然很受欢迎，因为变压器模型。
因此，在基于树的模型中，我们实际上以树的形式构建这些表达式，并在树代中遵循预先排序的遍历。
所以在这里，我们继续生成运算符，直到我们到达叶子，这就是数量。
所以这里的好处是，它实际上给了我们这个二叉树结构，它嗯，但实际上它是非常违反直觉的，因为我们首先生成运算符，然后最后我们生成数量。
其次，它还包含一些重复的计算。
因此，如果我们看一下这个表达式，八乘三加三实际上生成两次，但实际上我们应该重复使用结果。
因此，在我们提出的方法中，我们希望以一步一步和可解释的方式解决这些问题。
例如，在第二步中，我们可以得到这些除数，即27。
我们还可以参考原始问题来查找相关内容。
在这些步骤中，我们得到了除数。
所以，啊，然后在第三步，我们实际上得到了商。
好的。经过这三个步骤，我们实际上可以重复使用第二个步骤的结果，然后得到第四个步骤的结果，最后我们可以得到红利。
因此，在这里我们实际上直接生成整个表达式，而不是生成单个运算符或数量。
这使得这个过程更加准确。
因此，在我们的演绎系统中，我们首先从问题中提出的一堆量开始，并且还包括一些常数作为我们的初始状态。
因此，表达式由e i j o p表示。
我们执行从q_i到q_j的运算符，这样的表达式实际上是定向的。
所以，我们也有减法，在这里用单词来表示相反的方向。
这与关系提取非常相似。
因此，在一个正式的演绎系统中，在一个时间步t ，我们在q_i和q_j对之间应用运算符，然后我们得到这个新表达式。
我们把它添加到下一个状态，成为一个新的数量。
因此，这些幻灯片实际上可视化了我们不断向当前状态添加表达式的状态的演变。
因此，在我们的模型实现中，我们首先使用预训练语言模型，它可以是BERT或Robertas ，然后我们对句子进行编码，然后我们得到这些量表示。
所以，一旦我们得到了数量表示，我们就可以开始进行推理。
在这里，我们展示了一个q_1的例子，以获得q_2除以q_2的表示，然后乘以q_3。
首先我们得到ah对表示，这基本上只是q_1和q_2之间的串联，然后我们应用一个由运算符参数的前馈网络。
最后我们得到表达式q_1除以q_2。
但实际上，在实践中，在推理阶段，我们也可能会得到错误的表达式。
因此，这里所有可能的表达式等于运算符数量的三倍。
所以这里的好处是我们可以轻松地添加约束来控制这个搜索空间。
例如，如果不允许此表达式，我们可以简单地在搜索空间中删除此表达式。
所以在第二步中，我们做同样的事情，但唯一的区别是我们唯一的区别是另一个数量。
所以这个数量来自之前计算的表达式。
所以我们终于可以得到这个最后的表达式q_3乘以q_4。
我们还可以看到所有可能的ah表达式的数量与上一步不同。
因此，这种差异使得应用波束搜索变得困难，因为这两个步骤之间的概率分布是不平衡的。
因此，训练过程类似于训练序列到序列模型，其中我们优化每个时间步的损失。
在这里，我们也使用这个tau来表示我们何时应该终止这个生成过程。
在这里，空间因序列而异，因为空间在每个时间步骤上都不同，而在传统的序列到序列模型中，这是词汇的数量。
它还允许我们从先验知识中施加某些限制。
因此，我们对常用的数学单词问题数据集MAWPS ， Math23K ， MathQA和SVAMP进行实验。
在这里，我们简要地展示了与以前最佳方法相比的结果。
因此，我们表现最好的变体是Roberta-DeductiveReasoner。
事实上，我们不使用波束搜索，相比之下，以前的所有方法都使用波束搜索。
好的。所以，最好的方法通常是基于树的模型。
因此，总的来说，我们的推理者能够显著优于这种基于树的模型。
但我们可以看到MathQA或SVAMP上的绝对数字并不高。
因此，我们进一步研究了SVAMP的结果。
这个数据集具有挑战性，因为作者试图手动添加一些东西来混淆NLP模型，例如添加不相关的信息和额外的数量。
因此，在我们的预测中，我们发现一些中间值实际上是负的。
例如，嗯，在这些问题中，我们问杰克有多少个苹果？
但我们有一些额外的信息，比如少了17张照片，史蒂文有8张照片，这完全无关紧要。
因此，我们的模型做出了一些像这样的预测，产生了负值。
我们观察到这两个表达式实际上有相似的分数。
所以，我们实际上可以通过删除那些否定的结果来限制这个搜索空间，这样我们就可以让答案正确。
因此，我们进一步发现，对于某些模型来说，这种约束实际上改善了很多。
例如，对于BERT ，我们提高了7分，然后对于Roberta基础模型，我们实际上提高了两分。
因此，更好的语言模型具有更好的语言理解能力，因此Roberta的数字更高， BERT的数字更低。
我们还试图分析所有这些数据集背后的困难。
我们假设未使用数量的数量可以被视为不相关的信息。
所以在这里我们可以看到，啊，我们有未使用数量的样本的百分比，而SVAMP数据集具有最大的部分。
在这里，我们还展示了整体表现。
对于那些没有未使用数量的样品，因此整体性能实际上高于，性能实际上高于整体性能。
但是对于那些未使用数量的样品，实际上比整体性能差得多。
对于MAWPS ，我们真的没有太多的测试用例，所以我只是忽略了这一部分。
最后，我们想通过一个问题扰动示例来展示可解释性。
因此，我们的模型实际上在第一步就做出了错误的预测。
所以，我们实际上可以把这个表达式和这里的句子联系起来。好的。
因此，我们认为这句话可能会误导模型做出错误的预测。
因此，在这里再种植35个模型会使模型认为它应该是一个加法运算符。
因此，我们尝试将句子修改为梨树的数量比苹果树少三十五棵。
因此，我们使其传达更准确的语义，以便模型能够使预测正确。
因此，这项研究展示了可解释的预测如何帮助我们理解模型行为。
总结一下我们的工作，首先我们的模型是非常有效的。
我们能够提供可解释的解决方案。
我们可以轻松地将一些先验知识作为约束条件，这有助于提高性能。
最后一点是，底层机制不仅适用于网络问题解决任务，还适用于涉及多步骤推理的其他任务。
我们也有一定的局限性。
啊，如果我们有大量的运算符或常量，内存消耗可能相当高。
第二件事是，如前所述，由于不同时间步长之间的概率分布不平衡，因此应用波束搜索策略也非常具有挑战性。
演讲到此结束，欢迎提问。谢谢。
你好，我叫安托万，来自马斯特里赫特大学。
我将介绍我与Jerry的联合工作，这是关于法定文章检索的新数据集。
法律问题是许多人生活中不可或缺的一部分。
但大多数公民对其权利和基本法律程序知之甚少。
因此，许多负担不起法律专家昂贵援助的弱势公民得不到保护，最糟糕的是遭到剥削。
所有工作都旨在通过制定有效的法定条款检索系统来弥合人与法律之间的差距。
这样一个系统可以为非技术人员提供免费的专业法律援助服务。
在深入探讨这项工作的主要贡献之前，让我们首先描述法定文章检索的问题。
给出一个关于法律问题的简单问题，例如，如果我违反专业保密规定，我该怎么冒险？
需要一个模型从大量立法中检索所有相关的法定条款。
这个信息检索任务有它自己的一组挑战。
首先，它涉及两种类型的语言。
问题的共同自然语言和法规的复杂法律语言。
语文分布的差异使得系统更难检索相关候选人，因为它间接需要一个固有的口译系统，可以将自然问题转化为与法规术语相匹配的法律问题。
此外，成文法不是一堆独立的文章，可以被视为自己的完整信息来源，不像新闻或食谱，例如。
相反，它是一个结构化的法律条款集合，只有在整体上下文中考虑时才具有整体意义，也就是说，连同相邻文章的补充信息，它们所属的字段和子字段，以及它们在法律结构中的位置。
最后，法定条款不是小段落，通常是大多数检索作品中的典型检索单元。
在这里，有长达六千字的文件。
NLP的最新进展引发了人们对许多法律任务的巨大兴趣，例如法律判断预测或自动联系合同审查。
但由于缺乏大型和高质量的标记数据集，法定文章检索仍然主要未受影响。
在这项工作中，我们提出了一个新的法国本土以公民为中心的数据集，以研究检索模型是否可以近似于法定文章检索任务的法律专家的效率和可靠性。
我们的比利时法定文章检索数据集BSARD由比利时公民提出的一千一百多个法律问题组成。
这些问题涵盖了广泛的主题，从家庭，住房，金钱，工作和社会保障。
他们中的每一个都被经验丰富的法学家标记，并引用了比利时法律法规中超过二万二千六百个法律条款的相关条款。
现在让我们来谈谈我们是如何收集这个数据集的。
首先，我们从汇编大量的法律文章开始。
我们考虑了32个公开的比利时代码，并提取了所有文章以及相应的章节标题。
然后，我们收集了法律问题，并参考了相关法规。
为此，我们与比利时律师事务所合作，该律师事务所每年收到约4000封来自比利时公民的电子邮件，他们就个人法律问题征求意见。
我们很幸运能够访问他们的网站，他们经验丰富的法学家团队解决了比利时人最常见的法律问题。
我们收集了成千上万的问题，其中包括类别，子类别和相关法规的法律参考。
最后，我们通过了法律参考文献，并过滤掉了我们所考虑的法律守则中没有提及条款的问题。
其余的参考文献被匹配并转换为我们语料库中相应的文章ID。
我们最终得到了一千一百零八个问题，每个问题都仔细地标记了我们22000和6333篇法定文章的大量语料库中的相关文章的ID。
此外，每个问题都带有主要类别和子类别的串联。
每篇文章都附带了法律结构中的子标题的串联。
这些额外的信息没有在目前的工作中使用，但可能对未来关于法律信息检索或法律文本分类的研究感兴趣。
让我们来看看我们的数据集的一些特征。
问题长度在五到四十四个单词之间，中位数为十四个单词。
文章要长得多，中位数为七十七个字，其中一百四十二个超过一千个字。
最长的一个是多达五千七百九十个单词。
如前所述，这些问题涵盖了广泛的主题，其中约85 ％涉及家庭，住房，金钱或正义。
其余15 ％涉及社会保障，外国人或工作。
这篇文章也非常多样化，因为它们来自32个不同的比利时代码，涵盖了大量的法律主题。
以下是从这些比利时代码中收集的文章总数。
在二万二千六百三十三篇文章中，只有一千六百十二篇被认为与数据集中的至少一个问题有关。
这些文章中约有80 ％来自民法典，司法法典，刑事调查法典或刑法典。
与此同时， 32个代码中有18个至少有一个问题涉及不到5篇文章。
这可以解释为这些守则较少关注个人及其关切。
总体而言，这些被引用文章的中位引用次数为2次，其中引用次数超过5次的不到25%。
使用所有数据集，我们对几种检索方法进行了基准测试，包括词汇和密集架构。
给定一个查询和一篇文章，词汇模型通过计算该文章中每个术语权重的查询项的总和来为查询文章对分配分数。
我们尝试使用标准的TF-IDF和BM25排名功能。
这些方法的主要问题是，它们只能检索包含查询中存在的关键字的文章。
为了克服这个限制，我们尝试了一种基于神经的架构，可以捕获查询和文章之间的语义关系。
我们使用双编码器模型，将查询和文章映射到密集的矢量表示中，并通过其嵌入的相似性计算查询文章对之间的相关性分数。
这些嵌入通常源于对单词嵌入模型输出的池化操作。
首先，我们研究了暹罗双编码器在零拍摄评估设置中的有效性，这意味着预先训练的单词嵌入模型在没有任何额外微调的情况下被应用于开箱即用。
我们尝试使用上下文无关的文本编码器，即word2vec和fastText ，以及上下文相关的嵌入模型，即Roberta ，更具体地说，是法国Roberta模型的CamemBERT。
此外，我们在我们的数据集上训练我们自己的基于CamemBERT的模型ah双编码器。
请注意，对于训练，我们尝试使用双编码器架构的两种风格。
Siamese使用一个独特的单词嵌入模型，将查询和文章映射在一个共享的密集向量空间中，以及双塔模型，它使用两个独立的单词嵌入模型，将查询和文章分别编码到不同的嵌入空间中。
我们尝试使用均值，最大值和CLS池以及产品和余弦来计算相似性。
以下是我们在测试集上的基线结果。
使用上面的词法方法， Siamese双编码器在中间的零拍摄设置中进行评估，下面的微调双编码器。
总体而言，微调的双编码器明显优于所有其他基线。
双塔模型在召回率达到100时比其暹罗变体有所改进，但在其他指标上表现相似。
虽然BM25的性能明显低于训练好的双编码器，但其性能表明它仍然是域特异性检索的强大基线。
关于Siamese双编码器的零拍摄评估，我们发现直接使用预训练CamemBERT模型的嵌入而不优化信息检索任务的结果很差，这与先前的研究结果一致。
此外，我们观察到基于word2vec的双编码器明显优于基于fastText和BERT的模型，这表明当开箱即用时，预训练的单词级嵌入可能比字符级或子词级嵌入更适合任务。
虽然有希望，但这些结果表明，与熟练的法律专家相比，有充分的改进机会，后者最终可以将所有相关文章检索到任何问题，从而获得满分。
最后，让我们讨论一下我们的数据集的两个局限性。
首先，该条款的内容仅限于从32部比利时法典中收集的内容，这些法典不包括整个比利时法律，因为缺少法令、指令和法令中的条款。
在数据集构建过程中，所有对这些未收集文章的引用都会被忽略，这导致一些问题最终只有最初相关文章数量的一小部分。
因此，这一信息意味着其余相关条款中的答案可能是不完整的，尽管它仍然是完全合适的。
其次，我们应该注意到，并非所有的法律问题都可以仅靠法规来回答。
例如，问题是，如果他们制造太多噪音，我可以驱逐我的租户吗？
在成文法中可能没有详细的答案来量化允许驱逐的特定噪音阈值。
相反，房东可能应该更多地依赖判例法，并找到与他们目前情况相似的先例。
例如，租户每周举行两次派对，直到凌晨2点。
因此，有些问题比其他问题更适合法定文章检索任务，不太合适的问题的领域仍有待确定。
我们希望我们的工作能够激发开发实用可靠的法定文章检索模型的兴趣。
这有助于改善所有人诉诸司法的机会。
您可以通过以下链接查看我们的论文、数据集和代码。谢谢。
您好，我们很高兴介绍我们在VALSE上的工作;一个独立于任务的基准，用于测试具有特定语言现象的视觉和语言模型。
为什么我们在建立这个基准时遇到了麻烦？
在过去的几年里，我们已经看到了基于变压器的视觉和语言模型的爆炸式增长，这些模型预先训练了大量的图像文本对。
这些模型中的每一个都推动了视觉和语言任务的最先进技术，例如视觉问答，视觉常识推理，图像检索，短语接地。
所以我们得到了一个信息，这些任务和特定基准的准确性正在稳步提高。
但我们知道模型实际上学到了什么吗？
当为这张图片和这句话分配高分时，视觉和语言变换器理解了什么？
而这一次的低分呢？
视觉和语言模型是否专注于正确的事情？
或者他们是否像以前的工作所显示的那样专注于偏见？
为了更多地阐明这一方面，我们提出了一个更多的任务不可知的方向，并介绍了VALSE ，该方向测试视觉和语言模型对影响语言和视觉模式的特定语言现象的敏感性。
我们的目标是存在，多元化，计数，空间关系，行动和实体核心。
但是我们如何测试视觉和语言模型是否捕捉到了这种现象？
通过挫败以前应用于视觉和语言模型的方法，仅适用于Ravi Shekhar和合作者的名词短语，以及我们在以前的工作中的计数。
Foiling基本上意味着我们对图像进行说明，并通过改变标题来产生箔片，使其不再描述图像。
我们通过关注六个特定的部分来进行这些短语改变，例如存在，复数，计数，空间关系，动作和实体核心参数，其中每个部分可以由一个或多个工具组成，以防我们发现不止一种有趣的方法来创建箔实例。
例如，在动作片的情况下，我们有两种工具，一种是动作动词用不同的动作改变，另一种是动作动作被交换。
计数和核对也是具有多个仪器的件。
我们通过确保它们无法描述图像来创建这些箔纸，它们是语法的，否则是有效的句子。
这并不容易，因为挫败的标题可能比原始标题更不可能。
例如，虽然这不是不可能的，但从统计学上讲，植物切割一个人的可能性比切割植物的人要小，大视野和语言模型可以理解这一点。
因此，要获得有效的箔纸，我们必须采取行动。
首先，我们利用强大的语言模型来提出箔纸。
其次，我们使用自然语言推断或短NLI来过滤掉可能仍在描述图像的箔片，因为在构建箔片时，我们需要确保它们无法描述图像。
为了自动测试这一点，我们应用了自然语言推理，其基本原理如下。
我们认为图像是前提，其标题是其附带的假设。
此外，我们认为标题是前提，而箔纸是其假设。
如果NLI模型预测箔片与标题相矛盾或保持中立，我们将其视为有效箔片的指标。
如果NLI预测字幕将包含箔纸，它就不可能是一个好的箔纸，因为通过传递性，它将给出图像的真实描述，我们将这些箔片过滤掉。
但这个过程并不完美，它只是有效箔片的指标。
因此，作为生成有效箔的第三个措施，我们使用人工注释器来验证VALSE中使用的数据。
因此，经过过滤和人工评估，我们有尽可能多的测试实例，如表中所述。
请注意， VALSE不提供任何训练数据，只提供测试数据。
由于它仅是一个零镜头测试基准，因此它旨在利用预训练后的视觉和语言模型的现有功能。
微调只会使模型能够利用数据中的伪影或统计偏差。
我们都知道这些模特喜欢作弊和走捷径。
正如我们所说，我们有兴趣评估视觉和语言模型在预训练后的能力。
我们在VALSE上试验了五种视觉和语言模型，即CLIP ， LXMert ， ViLBERT ， ViLBERT TWELVE IN ONE和VisualBERT。
我们最重要的两个评估指标是模型将图像句子对分类为标题和箔片的准确性。
也许与此视频更相关，我们将展示我们更宽松的指标，即成对准确度，该指标衡量正确图像文本对的图像句子对齐分数是否大于其箔纸对。
有关更多指标和结果，请查看我们的论文。
这里显示了具有成对准确性的结果，它们与我们从其他指标中获得的结果一致，即ViLBERT十二合一实现了最佳零拍性能，其次是ViLBERT ， LXMert ， CLIP ，最后是VisualBERT。
值得注意的是，以存在和名词短语等单个对象为中心的仪器几乎可以由ViLBERT 12合1解决，强调模型能够识别命名对象及其在图像中的存在。
但是，在我们的对抗性挫败设置中，剩余的部分都不能可靠地解决。
我们从多个和计数仪器中看到，视觉和语言模型难以区分对单个和多个对象的引用，或在图像中计算它们。
关系片段表明，它们难以正确地对图像中对象之间的命名空间关系进行分类。
他们也很难区分行动和识别他们的参与者，即使我们在行动中看到有合理性的偏见。
从核心参照部分中，我们发现使用代词追踪图像中同一对象的多个引用对于视觉和语言模型也是困难的。
作为一个理智的检查，因为这是一个有趣的实验，我们还对两个文本模型进行了基准测试， GPT 1和GPT 2 ，通过计算正确和挫折标题的困惑度来评估VALSE是否可以通过这些单模态模型解决，这里没有图像，并以最低的困惑度预测条目。
如果箔纸的困惑度更高，我们认为这表明箔纸的标题可能存在合理性偏差或其他语言偏差。
有趣的是，在某些情况下，只有GPT模型的文本比视觉和语言模型更好地捕捉了世界的合理性。
总而言之， VALSE是一个基准，它使用语言结构的镜头来帮助社区通过努力测试他们的视觉基础能力来改善视觉和语言模型。
我们的实验表明，视觉和语言模型很好地识别了命名对象及其在图像中的存在，正如存在片段所示，但是当被迫尊重语言指标时，它们在视觉场景中的相互依赖性和关系很难。
我们真的希望鼓励社区使用VALSE来衡量视觉和语言模型在语言基础上的进展。
更重要的是， VALSE可以用作数据集的间接评估，因为可以在训练或微调之前和之后评估模型，以查看数据集是否帮助模型改进VALSE测试的任何方面。
如果您有兴趣，请查看GitHub上的VALSE数据，如果您有任何疑问，请随时与我们联系。
您好，我是东京大学的Kamezawa。
我将发表一篇题为《RNSum ：通过提交日志摘要自动生成发行说明的大规模数据集》的论文。
我将按照这个顺序解释。
首先，我将介绍我们在这项研究中正在进行的自动发行说明生成。
发行说明是一个技术文档，它总结了软件产品的每个版本所分发的更改。
图片显示了vuejs库版本二点六点四的发布说明。
发行说明在开源开发中起着重要作用，但手动准备非常耗时。
因此，能够自动生成高质量的发布说明将是非常有用的。
我将推迟到先前关于自动发行说明生成的两项研究。
第一个是在二十四世纪发布的一个名为ARENA的系统。
它采用基于规则的方法，例如使用变更提取器从版本之间的差异中提取所有差异，库更改和文档更改，并最终将其组合。
该系统最显着的特点是右上角的问题提取器。
这必须留给问题跟踪系统JIRA ，并且只能应用于使用JIRA的项目。
换句话说，它不能用于GitHub上的许多项目。
第二个是Glyph ，最近在2020年宣布。
它可以在互联网上使用，并且可以通过pip安装。
该系统具有简单的基于学习的文本分类模型，并输出五个标签之一，例如每个输入提交消息的特征或错误修复。
此图像是返回纠正或错误修复标签的示例用法。
Glyph的训练数据相当小，大约5000个，将在下面的实验中显示。
文本分类模型的性能不高。
我提出了两个相关的研究，但他们的问题是有限的适用性和稀缺的数据资源。
我们的论文解决了这两个问题，并自动生成高质量的发布说明。
对于有限的适用性问题，我们提出了一种仅使用提交消息作为输入的高质量类汇总方法。
此方法可用于所有英文仓库。
对于稀缺数据资源的第二个问题，我们通过使用GitHub API从公共GitHub存储库收集数据，构建了由大约八万二千条数据组成的RNSum数据集。
接下来，我将描述我们的数据集。
这里有一个数据的例子。
左侧是提交消息，右侧是发行说明。
发行说明被标记为改进或修复等。
我们设置了一个任务，将提交消息作为输入并输出标记的发布说明。
这可以看作是一项总结任务。
我们预先定义了四个标签：功能，改进，错误修复，弃用删除和突破性更改。
这些都是根据以前的研究和其他因素确定的。
右下角的发行说明是从左下角的发行说明中提取的。
此时，有必要检测已提前设置的四个标签。
但是标签并不总是与每个存储库一致。
例如，改进标签包括改进、增强、优化等。
我们为这些符号变体中的每一个准备了一个大约30个标签的词汇表。
这是为了检测发行说明类，并收集下面作为类的发行说明句子的发行说明文本。
接下来是提交消息。
提交消息不绑定到每个发行版。
如下图所示，如果当前版本是二点五到十九，我们需要识别前一个版本二点五到十八并得到一个diff。
这有点乏味，仅仅获得发布列表并查看之前和之后是不够的。
我们创建了一个启发式匹配规则来获取以前和下一个版本。
数据集分析。
最终，收集了七千二百个存储库和八万二千个数据。
此外，发行说明令牌的平均数量为63 ，这对于摘要任务来说相当高。
此外，独特代币的数量相当大，为八千八百三十万。
这是因为在存储库中发现了大量的唯一类或方法名称。
接下来，我将解释提出的方法。
分类提取抽象总结模型由两个神经模块组成。
使用BERT或CodeBERT的分类器和使用BART的生成器。
首先， CEAS使用分类器将每个提交消息分为五个版本说明类，其中使用改进，错误修复，弃用以及其他。
被归类为“其他”的提交消息将被丢弃。
然后， CEAS将生成器独立应用于四个标记的文档，并为每个类生成发行说明。
在此任务中，提交消息和发布说明之间的直接对应关系尚不清楚。
因此，为了训练分类器，这就是为什么我们使用每个提交消息的前十个字符将调查重新分配给每个输入提交消息的原因。
我们通过两种不同的方法对分类抽象总结方法进行建模。
第一个模型，我们称之为CAS-Single ，由单个六到六个网络组成，并生成一个单一的发行说明文本，给出输入提交消息的串联。
输出文本可以根据特殊的类特定端点符号分为类段。
第二种方法，我们称之为CAS-Multi ，由四个不同的seq2seq网络组成，每个网络对应于一个固定的发布说明类。
好吧，让我解释一下实验。
比较了五种方法： CEAS ， CAS-Single ， CAS-Multi ， Clustering和先前的研究， Glyph。
在评估方面，在某些情况下，发行说明会以多个句子输出。
由于很难计算句子的数量，因此它们与空格组合并被视为一个长句子。
当系统输出短句时， BLEU将受到惩罚。
这种惩罚导致下面描述的实验结果中较低的BLEU值。
最后，我们还计算了特异性，因为如果发行说明为空，则无法计算ROUGE和BLEU。
更高的特异性意味着在发布说明假设为空的情况下，模型正确地输出空文本。
以下是结果。
由于数据集包含电子邮件地址，散列值等，我们还评估了清除的数据集，这排除了它们。
CEAS和CAS的ROUGE-L得分比基线高10分以上。
特别是在干净的测试集上，提出的方法与基线之间的分数差距跃升至20分以上。
这些结果表明， CEAS和CAS受到严重影响。
CEAS比CAS获得了更好的ROUGE-L分数，这表明将分类器和生成器组合起来对于使用伪标签训练分类器是有效的。
可以实现CEAS的高覆盖率，可能是因为分类器可以专注于为每个类选择相关的提交消息。
CAS-Multi倾向于产生比CAS-Single更高的ROUGE-L。
建议为每个发行说明类独立开发不同的抽象总结模型也是有效的。
这里有一个错误分析。
CAS方法倾向于输出比人类参考句更短的句子。
在右图中，参考句子有三四个句子，而CAS只有一个。
这个模型不情愿的原因是，在训练数据中，只有33%的句子存在于特征标签中， 40%的句子存在于改进标签中。
此外，如果没有额外的信息，化学文摘社方法无法生成准确的发行说明。
右侧的顶部示例是一个非常混乱的提交消息的示例，如果没有相应的进度或问题，则无法生成完整的句子。
下面的示例显示输入中的两个提交消息是相关的，应该合并成一个句子，但它没有这样做。
最后，一个结论。
我们为自动生成发行说明构建了一个新的数据集。
我们还制定了输入提交消息并对其进行总结的任务，以便它适用于用英语编写的所有项目。
我们的实验表明，所提出的方法在比基线更高的覆盖率下产生更少的噪声释放注释。
请在GitHub上查看我们的数据集。
谢谢。
你好我叫Asaf Harari
我将介绍我们的论文，使用微调变压器架构的Few-Shot Tabular Data Enrichment。
数据科学家分析数据，主要关注操纵数据的现有特征。
但有时，这些特征是有限的。
使用另一个数据源生成特征可能会添加大量信息。
我们的研究目标是使用外部来源的自由文本自动丰富表格数据。
假设我们有一个表格数据集和一个知识库。
我们需要一个涉及实体链接和文本分析的自动过程，以从知识库的自由文本中提取新功能。
我们的框架FeSTE正是这个自动过程。
让我们来看一个数据集中的例子，这个数据集被馈送到FeSTE中。
在这个例子中，数据集是大学数据集。
当它的目标是将大学分为低排名的大学和高排名的大学时。
作为知识库，我们使用维基百科。
FeSTE的第一阶段是实体链接。
当每个实体（在这个例子中是大学名称）链接到知识库中的一个实体时。
并且将知识库实体的文本提取并添加到数据集中。
在这个例子中，文本是维基百科页面的摘要。
现在，我们需要从检索到的文本中生成或提取特征。
所以，我们需要啊特征提取阶段啊，其中包括文本分析。
这是本文的主要新颖之处，我将在接下来的幻灯片中深入探讨。
在特征提取阶段之后，有一个特征生成阶段，当我们使用提取的特征来生成少量新特征时。
首先在原始数据集的类数中生成ah特征。
在这个例子中，原始数据集有两个类。
因此， FeSTE生成了两个新功能。
但是，如果数据集有五个类，则FeSTE会生成五个新功能。
每个特征表示每个类的可能性。
为了分析文本，我们使用当前最先进的文本分析技术，即基于变换器的语言模型，如BERT ， GPT ， XLNet等。
这是不可能的，但我们不太可能使用输入数据集训练语言模型。
所以一个天真的方法将是啊目标任务的微调。
因此，在特征提取阶段，我们可以下载预训练的语言模型，通过目标数据集微调语言模型。
在这个例子中要对语言模型进行微调，要对ah进行分类，将文本分类为类，抽象为类，低或高。
接收语言模型输出，这是每个类的可能性，并用作新功能。
这种方法的问题是数据集可能只有少数不同的实体/文本。
在我们的实验中，几乎一半的数据集包含不到400个样本，最小的数据集包含35个样本。
因此，要在ah上微调语言模型，这个数据集将是无效的。
但我们可以使用有关预分析数据集的先验知识。
因为FeSTE ，我们将FeSTE应用于多个数据集，我们可以使用n减1个数据集来收集有关n减1个数据集的信息，并在分析第n个数据集时使用这些信息。
我们的建议是添加另一个微调阶段。
一个初步的多任务微调阶段。
当你在n减去一个数据集上微调语言模型时。
然后，我们执行另一个微调阶段，这是一个目标任务微调，当我们在第n个目标数据集上微调语言模型时，你会很好。
最先进的多任务AH多任务微调称为MTDNN。
在MTDNN中， MTDNN在训练集中保持ah头数。
因此，在这个例子中，训练集中有四个任务，因此MTDNN保持四个头，如图所示。
它从训练集中随机抽取ah的批次。
如果它们属于随机批处理，例如单个句子分类任务，它会通过第一个头部执行前进和后退路径。
如果随机批次属于成对排名任务，它将通过最后一个head执行前进和后退路径。
在我们的场景中，表格数据集的类别数量各不相同。
因此，有很多任务。
MTDNN保留了类、头、输出层的数量。
另外， MTDNN需要使用新任务为新数据集初始化新的数据头。
我们的方法，称为任务重新制定微调，在我们的方法中，任务重新制定微调，而不是保持多个头，我们将每个数据集重新公式化为每个分类问题的句子，这是两个类的任务。
让我们来看一个例子。
这里是我们的输入数据集，它由实体、特征、文本和类组成。
而且，我们重新制定任务，将文本分类为低或高，将文本，抽象和类分类为真或假。
或者换句话说，我们训练语言模型将抽象和类ah分类为抽象和类ah ，如果抽象属于类或不属于类。
因此，在这种情况下，标签向量始终保持ah ，它始终由两个类组成。
这是我们精细的，重新制定的微调方法的算法。
让我们来看看完整的框架。
数据集输入FeSTE。
然后， FeSTE执行实体链接阶段。
它从知识库中提取文本，在这个例子中，它是维基百科页面的摘要。
然后，它将任务重新定义为成对句子分类任务。
将语言模型应用于新任务和每个类的输出可能性。
现在，语言模型已经使用初步的多任务微调在n减去一个数据集上进行了微调。
然后我们使用语言模型的输出向量作为类数中新生成的特征。
为了评估我们的框架，我们使用了17个表格分类数据集，这些数据集的大小，特征，平衡，域和初始性能各不相同。
作为知识库，我们使用维基百科。
我们设计我们的实验作为留下一个出ah评估，我们训练FeSTe超过16个数据集，并将其应用于第十七个数据集。
我们还将每个数据集拆分为四个折叠，并应用四个折叠交叉验证。
然后，我们生成新特征，并使用五个评估分类器对其进行评估。
我们在实验中使用了BERT基础架构。
这是我们实验的结果。
您可以看到，我们将我们的框架与目标数据集微调、目标任务微调和MTDNN初步微调进行了比较。
我们重新配制的微调达到了最佳效果，最佳性能。
而MTDNN比目标数据集微调提高了2%。
我们的方法实现了6%的改进。
当我们查看小的ah数据集时，我们可以看到MTDNN的性能下降，预处理的改进，初步的多任务微调阶段下降到百分之一点五。
但与目标任务微调相比，我们的性能提高到了11%。
总而言之，在我们的实验中， FeSTE可以从35个样品中进行少量富集。
它对所有任务和数据集使用一个架构。
它保留了模型的头部。
但它增加了重新制定阶段。
它增强了火车集，它需要一个具有语义意义的目标值，因此我们可以将其输入语言模型并将其用于句子对分类问题。
谢谢。
