Привет всем. Сегодня я собираюсь представить нашу исследовательскую работу Learning to Reason Deductively: Math Word Problem Solving as Complex Relation Extraction.
Я Аллан из ByteDance AI Lab, и это совместная работа с Цзэруем Ли из Техасского университета в Остине и Вэй Лу из SUTD.
Во-первых, я хотел бы поговорить о нашей мотивации для рассуждений.
Итак, здесь мы покажем примеры, где многошаговые рассуждения полезны.
Таким образом, эта цифра взята из статьи PaLM, где они выполняют подсказки для решения сетевой проблемы в сценарии обучения с несколькими снимками.
Итак, слева мы можем увидеть, что если мы дадим некоторые примеры с просто вопросами и ответами, мы не сможем получить правильные ответы.
Но если мы дадим еще какое-то описание рассуждений, модель сможет предсказать описание рассуждений, а также сделать правильное предсказание здесь.
Поэтому хорошо иметь интерпретируемые многошаговые рассуждения в качестве вывода.
И мы также думаем, что задача математического слова является простым приложением для оценки таких рассуждающих способностей.
Итак, здесь, в нашей постановке задачи, учитывая вопросы, нам нужно решить этот вопрос и получить численные ответы.
Таким образом, в наших наборах данных нам также дано математическое выражение, которое также приводит к ah к этому конкретному ответу.
Итак, некоторые предположения ah также применимы, как и в предыдущей работе.
Мы предполагаем, что точность величин известна.
И мы рассматриваем только основные операторы, такие как сложение, вычитание, умножение, деление и экспоненциальный.
Кроме того, сложные операторы могут быть фактически разложены на эти основные операторы.
Таким образом, предыдущие работы по решению математических задач на словах ah на самом деле могут быть классифицированы на последовательность к последовательности и последовательность к модели дерева.
Таким образом, традиционная модель последовательности для последовательности преобразует выражение в конкретную последовательность для генерации.
И его довольно легко реализовать, и он может обобщить множество различных сложных проблем.
Но недостатки заключаются в том, что производительность на самом деле, как правило, не лучше, чем у структурированной модели, и ее недостаточная интерпретируемость для прогнозирования.
Но на самом деле это направление все еще довольно популярно из-за модели трансформатора.
Таким образом, в древовидных моделях мы структурируем эти выражения в древовидной форме и следуем заранее заказанному обходу в древовидных поколениях.
Так что здесь мы продолжаем генерировать операторов, пока мы не дойдем до листьев, которые являются количествами.
Так что хорошо, что это на самом деле дает нам эту двоичную древовидную структуру, и это гм, но на самом деле это довольно противоречиво, потому что мы сначала генерируем оператор, а затем в конце мы генерируем величины.
А во-вторых, он также содержит некоторые повторяющиеся вычисления.
Итак, если мы посмотрим на это выражение, восемь умножить на три плюс три на самом деле генерируется дважды, но на самом деле мы должны повторно использовать результаты.
Таким образом, в нашем предлагаемом подходе мы хотим решать эти проблемы поэтапно и интерпретируемыми способами.
Так, например, здесь, на втором шаге, мы можем получить эти делители, которые двадцать семь.
И мы также можем вернуться к первоначальным вопросам, чтобы найти соответствующее содержание.
И в этих шагах мы получаем делители.
Итак, на этом третьем шаге мы получаем частное.
Хорошо. И после этих трех шагов мы можем повторно использовать результаты второго шага, а затем получить результаты четвертого шага, и, наконец, мы можем получить дивиденды.
Таким образом, здесь мы фактически генерируем целое выражение напрямую, а не генерируем единичные операторы или величины.
Это делает процесс более точным.
Итак, в нашей дедуктивной системе мы сначала начинаем с кучи величин, представленных в вопросах, а также включаем некоторую константу в качестве нашего начального состояния.
Таким образом, выражение представлено как e i j o p.
Где мы выполняем оператор от q_i до q_j, и такое выражение фактически направлено.
Итак, у нас также есть вычитание со словами здесь, чтобы представить противоположное направление.
Это очень похоже на извлечение отношения.
Таким образом, в формальной дедуктивной системе на временном шаге t мы применяем оператор между парой q_i и q_j, а затем получаем это новое выражение.
Мы добавляем его к следующему состоянию, чтобы стать новым количеством.
Таким образом, эти слайды фактически визуализируют эволюцию состояния, в котором мы продолжаем добавлять выражение к текущему состоянию.
Таким образом, в наших модельных реализациях мы сначала используем предварительно обученную языковую модель, которая может быть BERT или Robertas, а затем мы кодируем предложение, а затем получаем эти представления величин.
Итак, как только мы получим представление величины, мы можем начать делать вывод.
Здесь мы показываем пример q_1, чтобы получить представление для q_2, деленное на q_2, а затем умноженное на q_3.
Сначала мы получаем представление пары ah, которое в основном является просто конкатенацией между q_1 и q_2, а затем мы применяем сеть прямой связи, которая параметризуется оператором.
И, наконец, мы получаем представление выражения q_1, деленное на q_2.
Но на практике, на стадии вывода, мы могли бы также получить неправильное выражение.
Итак, здесь все возможные выражения равны трем числам операторов.
Так что хорошая вещь здесь в том, что мы можем легко добавить ограничения для управления этим поиском это пространство поиска.
Например, если это выражение не разрешено, мы можем просто удалить это выражение в нашем пространстве поиска.
Итак, на втором шаге мы делаем то же самое, но единственное различие в том, что единственное различие - это еще одна величина.
Таким образом, эта величина исходит из предыдущего вычисленного выражения.
Итак, наконец, мы можем получить это окончательное выражение q_3, умноженное на q_4.
И мы также видим, что число всех возможных выражений ah отличается от предыдущего шага.
Таким образом, такая разница затрудняет применение поиска луча, потому что распределение вероятности между этими двумя шагами несбалансировано.
Таким образом, процедура обучения похожа на обучение последовательности для модели последовательности, где мы оптимизируем потери на каждом временном шаге.
И здесь мы также используем этот тау, чтобы представить, когда мы должны прекратить этот процесс генерации.
И здесь пространство отличается от последовательности к последовательности, потому что пространство отличается на каждом временном шаге, в то время как в традиционной последовательности к модели последовательности это количество словарного запаса.
И это также позволяет нам налагать определенные ограничения из априорного из априорного знания.
Поэтому мы проводим эксперименты над часто используемыми наборами данных математических задач, MAWPS, Math23K,  MathQA и SVAMP.
И здесь мы кратко покажем результаты по сравнению с предыдущими лучшими подходами.
Таким образом, наш лучший вариант - Roberta-DeductiveReasoner.
И на самом деле мы не используем поиск луча, в отличие от всех предыдущих подходов, использующих поиск луча.
Итак, лучшие подходы часто основаны на древовидной модели.
Таким образом, в целом наш рассудок способен значительно превзойти эту древовидную модель.
Но мы можем видеть, что абсолютные цифры на MathQA или SVAMP не очень высоки.
Поэтому мы продолжаем исследовать результаты SVAMP.
И этот набор данных является сложным, потому что автор попытался вручную добавить что-то, чтобы запутать модель НЛП, например, добавить нерелевантную информацию и дополнительные количества.
Таким образом, в нашем прогнозе мы находим, что некоторые промежуточные значения на самом деле являются отрицательными.
Например, в этих вопросах мы спрашиваем, сколько яблок у Джейка?
Но у нас есть некоторая дополнительная информация, например, на семнадцать снимков меньше, а у Стивена восемь снимков, что совершенно не имеет значения.
Таким образом, наша модель делает некоторое предсказание, подобное этому, которое производит отрицательные значения.
И мы видим, что эти два выражения на самом деле имеют схожие оценки.
Таким образом, мы можем фактически ограничить это пространство поиска, удалив те результаты, которые являются отрицательными, чтобы мы могли сделать ответ правильным.
Таким образом, мы далее находим, что такое ограничение на самом деле улучшает довольно много для некоторых моделей.
Например, для БЕРТА мы улучшили семь очков, а затем для базовой модели Роберты мы фактически улучшили два очка.
Таким образом, лучшая языковая модель обладает лучшими способностями к пониманию языка, так что число здесь выше для Роберты и ниже для БЕРТА.
И мы также пытаемся проанализировать сложность, стоящую за всеми этими наборами данных.
Мы предполагаем, что количество неиспользованных количеств здесь можно рассматривать как нерелевантную информацию.
Итак, здесь мы видим, что ах, у нас есть процент образцов с неиспользованными количествами, а набор данных SVAMP имеет наибольшую часть.
И здесь мы также показываем общую производительность.
Для тех образцов без неиспользованных количеств, поэтому общая производительность на самом деле выше, чем у, производительность на самом деле выше, чем общая производительность.
Но с теми образцами, которые с неиспользованным количеством на самом деле намного хуже, чем общая производительность.
Для MAWPS у нас нет слишком большого количества тестовых случаев, поэтому я просто игнорирую эту часть.
Итак, наконец, мы хотим показать интерпретируемость на примере возмущения вопроса.
Таким образом, наша модель на самом деле делает неправильный прогноз на первом шаге.
Таким образом, мы можем связать это выражение с предложением здесь. Хорошо.
Таким образом, мы думаем, что это предложение может ввести в заблуждение модель к неправильным прогнозам.
Таким образом, здесь посадка еще тридцати пяти заставляет модель думать, что она должна быть оператором сложения.
Поэтому мы пытаемся пересмотреть предложение так, чтобы количество груш было на тридцать пять меньше, чем яблонь.
Таким образом, мы делаем его, чтобы передать более точную семантику, так что модель способна сделать гм предсказание правильным.
Таким образом, это исследование показывает, как интерпретируемые предсказания помогают нам понять поведение модели.
Итак, чтобы завершить нашу работу, сначала наша модель на самом деле довольно эффективна.
И мы можем обеспечить интерпретируемую процедуру решения.
И мы можем легко включить некоторые предварительные знания в качестве ограничения, которое может помочь улучшить производительность.
И последнее - лежащий в основе механизм применим не только к задачам сетевого решения проблем, но и к другим задачам, предполагающим многошаговое рассуждение.
У нас также есть определенные ограничения.
Ах, если у нас есть большое количество операторов или констант, потребление памяти может быть довольно высоким.
И второе, как уже упоминалось, потому что распределение вероятностей несбалансировано между различными временными шагами, поэтому также довольно сложно применить стратегию поиска луча.
Итак, это конец разговора, и вопросы приветствуются. Спасибо.
Привет, меня зовут Антуан и я из Маастрихтского университета.
Я представлю свою совместную работу с Джерри, которая касается нового набора данных для поиска статутных статей.
Юридические вопросы являются неотъемлемой частью жизни многих людей.
Но большинство граждан мало знают о своих правах и фундаментальных правовых процессах.
В результате многие уязвимые граждане, которые не могут позволить себе дорогостоящую помощь эксперта по правовым вопросам, остаются без защиты или, что еще хуже, подвергаются эксплуатации.
Вся работа направлена на преодоление разрыва между людьми и законом путем разработки эффективной системы поиска статутных статей.
Такая система могла бы обеспечить бесплатную профессиональную юридическую помощь для неквалифицированных людей.
Прежде чем погрузиться в основной вклад этой работы, давайте сначала опишем проблему поиска уставных статей.
Если задать простой вопрос по юридическому вопросу, например, что я рискую, если нарушу профессиональную конфиденциальность?
Требуется модель для извлечения всех соответствующих статутных статей из большого количества законодательных актов.
Эта задача поиска информации сопряжена со своим собственным набором проблем.
Во-первых, речь идет о двух типах языка.
Общий естественный язык для вопросов и сложный юридический язык для уставов.
Эта разница в распределении языков затрудняет для системы поиск соответствующих кандидатов, поскольку она косвенно требует присущей ей системы устного перевода, которая может перевести естественный вопрос в юридический вопрос, соответствующий терминологии статутов.
Кроме того, статутное право - это не стопка самостоятельных статей, которые можно трактовать как полноценный источник информации самостоятельно, в отличие, например, от новостей или рецептов.
Вместо этого это структурированный сборник правовых положений, которые имеют целое значение только при рассмотрении в общем контексте, то есть вместе с дополнительной информацией из соседних статей, полей и подполей, к которым они принадлежат, и их место в структуре права.
Наконец, нормативные статьи - это не маленькие абзацы, которые обычно являются типичной единицей поиска в большинстве поисковых работ.
Здесь имеются длинные документы, которые могут содержать до шести тысяч слов.
Недавние достижения в области НЛП вызвали огромный интерес ко многим юридическим задачам, таким как прогнозирование судебных решений или автоматический обзор контрактов на контакт.
Но нормативный поиск статей остался в основном нетронутым из-за отсутствия больших и высококачественных меченых наборов данных.
В этой работе мы представляем новый набор данных, ориентированный на коренных жителей Франции, для изучения того, могут ли модели поиска приблизиться к эффективности и надежности эксперта по правовым вопросам для задачи поиска уставных статей.
Набор данных BSARD состоит из более чем тысячи ста юридических вопросов, поставленных бельгийскими гражданами.
Эти вопросы охватывают широкий круг тем: от семьи, жилья, денег до работы и социального обеспечения.
Каждый из них был отмечен опытными юристами ссылками на соответствующие статьи из корпуса из более чем двадцати двух тысяч шестисот правовых статей из бельгийских кодексов права.
Давайте теперь поговорим о том, как мы собрали этот набор данных.
Во-первых, мы начали с составления большого корпуса юридических статей.
Мы рассмотрели тридцать два общедоступных бельгийских кода и извлекли все статьи, а также соответствующие заголовки разделов.
Затем мы собрали юридические вопросы со ссылками на соответствующие уставы.
Для этого мы сотрудничаем с бельгийской юридической фирмой, которая ежегодно получает около четырех тысяч электронных писем от бельгийских граждан, которые просят совета по личному юридическому вопросу.
Нам посчастливилось получить доступ к их веб-сайтам, где их команда опытных юристов решает наиболее распространенные юридические вопросы бельгийцев.
Мы собрали тысячи вопросов, аннотированных категориями, подкатегориями и юридическими ссылками на соответствующие уставы.
Наконец, мы передали юридические ссылки и отфильтровали вопросы, ссылки на которые не были статьями в одном из рассмотренных нами кодексов права.
Остальные ссылки были сопоставлены и преобразованы в соответствующие идентификаторы статей из нашего корпуса.
В конце концов мы получили тысячу сто восемь вопросов, каждый из которых был тщательно помечен идентификаторами соответствующих статей из нашего большого корпуса из двадцати двух тысяч шестисот тридцати трех уставных статей.
Кроме того, каждый вопрос поставляется с основной категорией и объединением подкатегорий.
И каждая статья приходит с конкатенацией заголовка подпоследовательности в структуре закона.
Эта дополнительная информация не используется в настоящей работе, но может представлять интерес для будущих исследований по поиску правовой информации или классификации юридического текста.
Давайте посмотрим на некоторые характеристики нашего набора данных.
Вопросы составляют от пяти до сорока четырех слов со средним значением четырнадцати слов.
Статьи намного длиннее, средняя длина которых составляет семьдесят семь слов, а сто сорок два из них превышают тысячу слов.
Самый длинный - до пяти тысяч семисот девяноста слов.
Как упоминалось ранее, вопросы охватывают широкий круг тем, причем около 85 процентов из них касаются семьи, жилья, денег или правосудия.
Оставшиеся 15% касаются либо социального обеспечения, либо иностранцев, либо работы.
Статья также очень разнообразна, поскольку они исходят из тридцати двух различных бельгийских кодексов, которые охватывают большое количество юридических тем.
Вот общее количество статей, собранных с каждого из этих бельгийских кодов.
Из двадцати двух тысяч шестисот тридцати трех статей только одна тысяча шестьсот двенадцать упоминается как относящаяся по крайней мере к одному вопросу в наборе данных.
Около восьмидесяти процентов этих цитируемых статей относятся либо к гражданскому кодексу, либо к судебным кодексам, либо к уголовно-процессуальным кодексам, либо к уголовным кодексам.
Между тем, восемнадцать из тридцати двух кодексов имеют менее пяти статей, упомянутых как относящиеся по крайней мере к одному вопросу.
Это можно объяснить тем фактом, что эти кодексы в меньшей степени ориентированы на отдельных лиц и их проблемы.
В целом, среднее количество цитирований для этих цитируемых статей составляет два, и менее двадцати пяти процентов из них цитируются более пяти раз.
Используя все наборы данных, мы сравнили несколько подходов к поиску, включая лексическую и плотную архитектуру.
Учитывая запрос и статью, лексическая модель присваивает оценку паре статей запроса, вычисляя сумму по запросам весов каждого из этих терминов в этой статье.
Экспериментируем со стандартными функциями ранжирования TF-IDF и BM25.
Основная проблема этих подходов заключается в том, что они могут получать только статьи, содержащие ключевые слова, присутствующие в запросе.
Чтобы преодолеть это ограничение, мы экспериментируем с нейронной архитектурой, которая может захватывать семантические отношения между запросами и статьей.
Мы используем двукодерную модель, которая отображает запросы и статьи в плотные векторные представления и вычисляет оценку релевантности между парой статей запроса по сходству их вложений.
Эти вложения обычно являются результатом операции объединения на выходе модели вложения слов.
Во-первых, мы изучаем эффективность сиамских бикодеров в настройке оценки нулевого выстрела, что означает, что предварительно обученные модели встраивания слов применяются из коробки без какой-либо дополнительной тонкой настройки.
Мы экспериментируем с контекстно-независимым кодировщиком текста, а именно word2vec и fastText, и контекстно-зависимыми моделями вложений, а именно Roberta и более конкретно CamemBERT, которая является французской моделью Roberta.
Кроме того, мы обучаем наших собственных CamemBERT на основе модели ah bi-кодировщиков на нашем наборе данных.
Обратите внимание, что для обучения мы экспериментируем с двумя вкусами архитектуры би-кодера.
Siamese, которая использует уникальную модель встраивания слов, которая отображает запрос и статью вместе в общем плотном векторном пространстве, и Two-tower, которая использует две независимые модели встраивания слов, которые кодируют запрос и статью отдельно в разные пространства встраивания.
Мы экспериментируем со средним, максимальным и CLS пулом, а также с продуктом и косинусом для вычисления сходства.
Вот результат нашей базовой линии на тестовых наборах.
С помощью приведенных выше лексических методов сиамские бикодеры оценивались в установке нулевого выстрела посередине, а тонко настроенные бикодеры - ниже.
В целом, доработанный бикодер значительно превосходит все остальные базовые линии.
Модель с двумя башнями улучшается по сравнению с ее сиамскими вариантами при отзыве на сто, но работает аналогично с другими метриками.
Хотя BM25 значительно отставал от обученного бикодера, его производительность указывала на то, что он по-прежнему является сильным исходным уровнем для поиска в конкретной области.
Что касается оценки нулевого выстрела сиамского бикодера, мы находим, что непосредственное использование вложений предварительно обученной модели CamemBERT без оптимизации для задачи извлечения информации дает плохие результаты, что согласуется с предыдущими выводами.
Кроме того, мы наблюдаем, что бикодер на основе word2vec значительно превосходит модели на основе fastText и BERT, предполагая, что, возможно, предварительно обученные вложения на уровне слов более подходят для задачи, чем вложения на уровне символов или подсловесного уровня при использовании из коробки.
Хотя и многообещающие, эти результаты предлагают широкие возможности для улучшения по сравнению с опытным юристом, который может в конечном итоге получить все соответствующие статьи на любой вопрос и, таким образом, получить идеальные оценки.
Давайте в заключение обсудим два ограничения нашего набора данных.
Во-первых, свод статей ограничивается теми, которые собраны из тридцати двух рассмотренных бельгийских кодексов, которые не охватывают все бельгийское законодательство, поскольку статьи из декретов, директив и постановлений отсутствуют.
Во время построения набора данных все ссылки на эти несобранные статьи игнорируются, что приводит к тому, что некоторые вопросы заканчиваются лишь долей от первоначального количества соответствующих статей.
Таким образом, эта информация подразумевает, что ответ, содержащийся в оставшихся соответствующих статьях, может быть неполным, хотя он все еще полностью уместен.
Во-вторых, следует отметить, что не все правовые вопросы могут быть решены только с помощью законов.
Например, вопрос, могу ли я выселить своих арендаторов, если они производят слишком много шума?
Может не иметь подробного ответа в рамках статутного права, который количественно определяет конкретный порог шума, при котором разрешено выселение.
Вместо этого арендодатель, вероятно, должен больше полагаться на прецедентное право и находить прецеденты, аналогичные их нынешней ситуации.
Например, арендаторы устраивают две вечеринки в неделю до двух часов ночи.
Следовательно, некоторые вопросы лучше, чем другие, подходят для задачи поиска уставной статьи, и область менее подходящих еще предстоит определить.
Мы надеемся, что наша работа вызовет интерес к разработке практических и надежных моделей поиска статей.
Это может помочь улучшить доступ к правосудию для всех.
Вы можете ознакомиться с нашей статьей, набором данных и кодом по следующим ссылкам. Спасибо.
Здравствуйте, мы рады представить нашу работу по VALSE; независимый от задачи тест, предназначенный для тестирования зрения и языковых моделей с конкретными языковыми явлениями.
Почему мы сделали все возможное, чтобы установить этот ориентир?
Ну, в последние годы мы наблюдаем взрыв трансформаторного зрения и языковых моделей, предварительно обученных на больших количествах текстовых пар изображений.
Каждая из этих моделей подталкивает современное зрение и языковые задачи, такие как визуальные ответы на вопросы, визуальные рассуждения о здравом смысле, поиск изображений, обоснование фраз.
Таким образом, мы получили сообщение, что точность выполнения этих задач и конкретных тестов неуклонно растет.
Но знаем ли мы, чему на самом деле научились модели?
Что понимается преобразователем видения и языка при присвоении высокого балла этому изображению и этому предложению?
И низкий балл для этого?
Модели зрения и языка фокусируются на правильной вещи?
Или они сосредоточены на предвзятости, как показано в предыдущей работе?
Чтобы пролить больше света на этот аспект, мы предлагаем более агностическое направление и представляем VALSE, которое проверяет чувствительность зрения и языковых моделей к конкретным языковым явлениям, которые влияют как на языковые, так и на визуальные модальности.
Мы нацелены на существование, множественность, подсчет, пространственные отношения, действия и кореференцию сущностей.
Но как мы можем проверить, отразили ли эти явления визуальные и языковые модели?
Срывая метод, ранее применявшийся для моделей зрения и языка, только для фраз существительных Рави Шекхара и его сотрудников, и рассчитывая на нас в предыдущей работе.
Скрытие в основном означает, что мы берем подпись изображения и производим фольгу, изменяя подпись таким образом, чтобы она больше не описывала изображение.
И мы делаем эти изменения фразы, сосредотачиваясь на шести конкретных частях, таких как существование, множественность, подсчет, пространственные отношения, действия и кореференция сущностей, где каждая часть может состоять из одного или нескольких инструментов, в случае, если мы нашли более одного интересного способа создания экземпляров фольги.
Например, в случае части действия, у нас есть два инструмента, один, в котором глагол действия изменяется с другим действием, и один, в котором активисты меняются местами.
Подсчет и кореференция также являются частями, которые имеют более одного инструмента.
И мы создаем эти фольги, убедившись, что они не описывают изображение, что они грамматические и в противном случае действительные предложения.
Это нелегко сделать, потому что фальсифицированная подпись может быть менее вероятной, чем оригинальная подпись.
Например, хотя это не невозможно, статистически менее вероятно, что растения срежут человека, чем человек, чтобы срезать растения, и большие модели зрения и языка могут подхватить это.
Поэтому, чтобы получить действительную фольгу, мы должны принять меры.
Во-первых, мы используем сильные языковые модели для предложения фольги.
Во-вторых, мы используем вывод естественного языка или короткий NLI для фильтрации фольги, которая все еще может описывать изображение, поскольку при построении фольги нам нужно убедиться, что они не описывают изображение.
Чтобы проверить это автоматически, мы применяем вывод естественного языка со следующим обоснованием.
Мы рассматриваем изображение как предпосылку, а его подпись - как гипотезу.
Кроме того, мы считаем, что подпись является предпосылкой, а фольга - ее гипотезой.
Если модель NLI предсказывает, что фольга будет противоречить или быть нейтральной по отношению к подписи, мы принимаем это как индикатор действительной фольги.
Если NLI предсказывает, что фольга будет связана с подписью, она не может быть хорошей фольгой, поскольку по транзитивности она даст правдивое описание изображения, и мы отфильтровываем эти фольги.
Но эта процедура не идеальна, это просто индикатор для действительной фольги.
Поэтому в качестве третьей меры для получения действительной фольги мы используем аннотаторы человека для проверки данных, используемых в VALSE.
Таким образом, после фильтрации и оценки человеком у нас есть столько тестовых экземпляров, сколько описано в этой таблице.
Обратите внимание, что VALSE не предоставляет никаких обучающих данных, а только тестовые данные.
Поскольку это только тест с нулевым выстрелом, он предназначен для использования существующих возможностей визуальных и языковых моделей после предварительной подготовки.
Тонкая настройка позволит моделям использовать только артефакты или статистические искажения в данных.
И мы все знаем, что эти модели любят обманывать и использовать ярлыки.
И, как мы уже говорили, нам интересно оценить, какими возможностями обладают зрительные и языковые модели после предварительной подготовки.
Мы экспериментируем с пятью моделями зрения и языка на VALSE, а именно с CLIP, LXMert, ViLBERT, ViLBERT двенадцать в одном и VisualBERT.
Двумя нашими наиболее важными оценочными метриками являются точность моделей при классификации пар предложений изображений на подписи и фольгу.
Возможно, более актуально для этого видео, мы продемонстрируем нашу более разрешительную метрику, попарную точность, которая измеряет, будет ли оценка выравнивания предложения изображения больше для правильной пары текста изображения, чем для его сорванной пары.
Чтобы узнать больше о метриках и результатах, ознакомьтесь с нашей статьей.
Результаты с попарной точностью показаны здесь, и они согласуются с результатами, которые мы получили из других метрик, заключается в том, что лучшая производительность нулевого выстрела достигается ViLBERT двенадцать в одном, за которым следуют ViLBERT, LXMert, CLIP и, наконец, VisualBERT.
Примечательно, что инструменты, сосредоточенные на отдельных объектах, таких как существование и существительные, почти решаются ViLBERT двенадцать в одном, подчеркивая, что модели способны идентифицировать названные объекты и их присутствие на изображениях.
Тем не менее, ни одна из оставшихся частей не может быть надежно решена в наших состязательных условиях.
Мы видим из множества и подсчета инструментов, что зрение и языковые модели имеют проблемы с различением ссылок на один против нескольких объектов или подсчетом их в изображении.
Отношение показывает, что у них есть трудности в правильной классификации именованного пространственного отношения между объектами в изображении.
Им также трудно различать действия и идентифицировать их участников, даже если они поддерживаются предвзятостью правдоподобия, как мы видим в части действий.
Из основной части мы узнаем, что отслеживание нескольких ссылок на один и тот же объект в изображении с помощью местоимений также затруднено для визуальных и языковых моделей.
В качестве проверки здравомыслия, и поскольку это интересный эксперимент, мы также сравниваем две текстовые модели, GPT одну и GPT два, чтобы оценить, разрешима ли VALSE этими унимодальными моделями, вычисляя недоумение правильного и фольгированного заголовка, никакого изображения здесь и прогнозируя запись с наименьшей недоумением.
Если недоумение выше для фольги, мы воспринимаем это как указание на то, что сорванная подпись может страдать от предвзятости правдоподобности или других лингвистических предубеждений.
И интересно видеть, что в некоторых случаях текст только GPT модели захватили правдоподобность мира лучше, чем видение и языковые модели.
Таким образом, VALSE является эталоном, который использует линзу лингвистических конструкций, чтобы помочь сообществу улучшить зрение и языковые модели путем жесткого тестирования их визуальных возможностей заземления.
Наши эксперименты показывают, что зрение и языковые модели хорошо идентифицируют названные объекты и их присутствие в изображениях, как показано в части существования, но изо всех сил пытаются обосновать их взаимозависимость и отношения в визуальных сценах, когда вынуждены уважать лингвистические показатели.
Мы очень хотели бы призвать сообщество использовать VALSE для измерения прогресса в языковом обосновании с помощью видения и языковых моделей.
Более того, VALSE может использоваться в качестве косвенной оценки наборов данных, поскольку модели могут быть оценены до и после обучения или тонкой настройки, чтобы увидеть, помогает ли набор данных улучшить модели по любому из аспектов, протестированных VALSE.
Если вы заинтересованы, проверьте данные VALSE на GitHub, и если у вас есть какие-либо вопросы, не стесняйтесь обращаться к нам.
Здравствуйте, меня зовут Камезава из Токийского университета.
Я представлю документ под названием RNSum: крупномасштабный набор данных для автоматической генерации примечаний к выпуску с помощью обобщения журналов фиксации.
Я объясню в этом порядке.
Во-первых, я представлю автоматическую генерацию заметок о выпуске, над которой мы работаем в этом исследовании.
Примечание к выпуску - это технический документ, в котором обобщаются изменения, распространяемые с каждым выпуском программного продукта.
Изображение показывает примечание к выпуску для версии 2, 6, 4 библиотеки vuejs.
Примечания к выпуску играют важную роль в разработке с открытым исходным кодом, но они требуют много времени для подготовки вручную.
Поэтому было бы очень полезно иметь возможность автоматически генерировать высококачественные заметки о выпуске.
Я остановлюсь на двух предыдущих исследованиях по автоматическому созданию заметок о выпуске.
Первая - это система под названием ARENA, выпущенная в двадцати четырнадцати.
Используется подход, основанный на правилах, например, использование экстрактора изменений для извлечения всех различий, изменений библиотеки и изменений документа из различий между выпусками и, наконец, их объединения.
Наиболее заметной особенностью этой системы является экстрактор проблем в правом верхнем углу.
Который должен быть предоставлен JIRA, системе отслеживания задач, и может быть применен только к проектам, использующим JIRA.
Другими словами, он не может быть использован для многих проектов на GitHub.
Второй - Glyph, недавно анонсированный в двадцать два.
Он доступен в Интернете и может быть установлен через PIP.
Эта система имеет простую модель классификации текста на основе обучения и выводит одну из пяти меток, таких как функции или исправления ошибок для каждого сообщения фиксации ввода.
Это изображение представляет собой пример использования, который возвращает метку исправления или исправления ошибок.
Обучающие данные Глифа довольно малы, около пяти тысяч, и будут показаны в экспериментах, описанных ниже.
Эффективность модели классификации текста невысока.
Я представляю два смежных исследования, но их проблемы ограничены применимостью и скудными ресурсами данных.
Наша статья решает эти две проблемы и автоматически генерирует высококачественные заметки о выпуске.
С ограниченной проблемой применимости мы предлагаем высококачественный метод классового обобщения, использующий только коммит-сообщения в качестве входных данных.
Предлагаемый метод может быть использован для всех английских репозиториев.
Для второй проблемы дефицитных ресурсов данных мы построили наш датасет RNSum, состоящий примерно из восьмидесяти двух тысяч единиц данных, путем сбора данных из общедоступных репозиториев GitHub с использованием GitHub API.
Далее я опишу наш набор данных.
Вот пример данных.
Левая сторона - это сообщение о фиксации, а правая сторона - примечания к выпуску.
Примечания к выпуску помечены как улучшения или исправления и т. д.
Мы создали задачу, которая принимает сообщения фиксации в качестве входных данных и выводит помеченные примечания к выпуску.
Это можно рассматривать как задачу обобщения.
Мы заранее определили четыре метки: функции, улучшения, исправления ошибок, удаления устаревших версий и изменения.
Они были установлены на основе предыдущих исследований и других факторов.
Примечание о выпуске в правом нижнем углу извлечено из примечания о выпуске в левом нижнем углу.
В это время необходимо обнаружить четыре метки, которые были установлены заранее.
Но метки не всегда согласуются с каждым репозиторием.
Например, метка улучшения включает улучшения, усовершенствования, оптимизации и так далее.
Мы подготовили словарный список из около тридцати ярлыков для каждого из этих нотных вариантов.
Это необходимо для обнаружения класса примечаний к выпуску, и собирает текст выпуска, который следует в качестве предложения примечаний к выпуску для класса.
Далее - коммит-сообщение.
Сообщения фиксации не привязаны к каждому выпуску.
Как показано на рисунке ниже, если текущий релиз - это версия два с пятью по девятнадцать, нам нужно определить предыдущую версию релиза два с пятью по восемнадцать и получить разницу.
Это немного утомительно, и недостаточно просто получить список релизов и посмотреть на до и после.
Мы создали эвристическое правило соответствия, чтобы получить предыдущую и следующую версии.
Анализ наборов данных.
В итоге было собрано семь тысяч двести хранилищ и восемьдесят две тысячи единиц данных.
Также среднее количество токенов релизов составляет шестьдесят три, что довольно много для задачи подведения итогов.
Также количество уникальных токенов довольно велико - восемь тысяч восемьсот тридцать тысяч.
Это связано с большим количеством уникальных имен классов или методов, найденных в репозитории.
Далее я объясню предложенный метод.
Классовая экстрактивная, а затем абстрактная модель обобщения состоит из двух нейронных модулей.
Классификатор с использованием BERT или CodeBERT и генератор с использованием BART.
Во-первых, CEAS использует классификатор для классификации каждого сообщения фиксации на пять классов заметок выпуска, которые используют улучшения, исправления ошибок, устаревшие версии и другие.
Сообщения фиксации, классифицированные как другие, отбрасываются.
Затем CEAS применяет генератор к четырем помеченным документам независимо и создает примечания к выпуску для каждого класса.
В этой задаче не известны прямые соответствия между сообщениями фиксации и примечаниями к выпуску.
Поэтому, чтобы обучить классификатор, мы переназначаем опросы каждому входному сообщению фиксации, используя первые десять символов каждого сообщения фиксации.
Мы смоделировали подход к классовому абстрактному обобщению двумя различными методами.
Первая модель, которую мы называем CAS-Single, состоит из одной сети от шести до шести и генерирует один текст уведомления о выпуске, который дает объединение входных сообщений о фиксации.
Выходные тексты могут быть разделены на классовые сегменты на основе специальных символов конечных точек для конкретного класса.
Второй метод, метод, который мы называем CAS-Multi, состоит из четырех различных сетей seq2seq, каждая из которых соответствует одному из классов заметок с фиксированным выпуском.
Хорошо, позвольте мне объяснить эксперименты.
Были сравнены пять методов: CEAS, CAS-Single, CAS-Multi, Clustering и предыдущее исследование Glyph.
Что касается оценки, то в некоторых случаях примечания к выпуску выводятся в виде нескольких предложений.
Поскольку трудно рассчитать количество предложений, как они есть, они сочетаются с пробелами и рассматриваются как одно длинное предложение.
BLEU наказывается, когда система выводит короткое предложение.
Этот штраф приводит к более низкому значению BLEU в результатах эксперимента, описанных ниже.
Наконец, мы также рассчитываем специфичность, потому что ROUGE и BLEU не могут быть рассчитаны, если примечания к выпуску пусты.
Более высокая специфичность означает, что модель правильно выводит пустой текст в тех случаях, когда примечания к выпуску предполагают пустой.
Вот результаты.
Поскольку набор данных содержит адреса электронной почты, хешированные значения и т. Д., Мы также оценили очищенный набор данных, который исключает их.
CEAS и CAS достигли оценки ROUGE-L более чем на десять пунктов выше, чем базовые уровни.
В частности, на чистом тестовом наборе разрыв в баллах между предлагаемым методом и базовыми показателями подскочил до более чем двадцати баллов.
Эти результаты указывают на то, что CEAS и CAS значительно затронуты.
CEAS получил лучшую оценку ROUGE-L, чем CAS, предполагая, что сочетание классификатора и генератора эффективно для обучения классификатора с использованием псевдо-метки.
Высокий охват CEAS может быть достигнут, вероятно, потому, что классификатор может сосредоточиться на выборе соответствующих сообщений фиксации для каждого класса.
CAS-Multi, как правило, дает более высокий ROUGE-L, чем CAS-Single.
Предполагая, что также эффективно независимо разрабатывать различные абстрактные модели обобщения для каждого класса примечаний к выпуску.
Вот анализ ошибок.
Методы CAS, как правило, выводят более короткие предложения, чем референсные предложения человека.
На рисунке справа эталонное предложение имеет три или четыре предложения, в то время как CAS имеет только одно.
Причина нежелания этой модели заключается в том, что в обучающих данных только тридцать три процента предложений присутствуют в этикетке функций и сорок процентов в этикетке улучшений.
Кроме того, методы CAS не могут генерировать точные примечания о выпуске без дополнительной информации.
Верхний пример справа является примером очень грязного сообщения о коммите, и полное предложение не может быть сгенерировано без ссылки на соответствующий прогресс или проблему.
В приведенном ниже примере показано, что два коммит-сообщения во вводе связаны и должны быть объединены в одно предложение, но это не так.
И, наконец, вывод.
Мы создали новый набор данных для автоматической генерации заметок о выпуске.
Мы также сформулировали задачу ввода сообщений фиксации и их обобщения, чтобы она применима ко всем проектам, написанным на английском языке.
Наши эксперименты показывают, что предлагаемый метод генерирует менее шумные заметки о выбросах при более высоком охвате, чем базовые линии.
Пожалуйста, ознакомьтесь с нашим набором данных на GitHub.
Спасибо.
Здравствуйте, меня зовут Асаф Харари.
И я представлю нашу статью «Обогащение табличных данных несколькими снимками с использованием тонко настроенных трансформаторных архитектур».
Ученые анализируют данные и в основном сосредоточены на манипулировании существующими функциями данных.
Но иногда эти характеристики ограничены.
Создание признаков с использованием другого источника данных может добавить существенную информацию.
Целью нашего исследования является автоматическое табличное обогащение данных с использованием свободного текста внешних источников.
Предположим, у нас есть табличный набор данных и база знаний.
Нам нужен автоматический процесс, который включает в себя связывание сущностей и анализ текста, чтобы извлечь новые функции из свободного текста базы знаний.
Наш фреймворк FeSTE - это именно этот автоматический процесс.
Итак, давайте посмотрим пример в наборе данных, подаваемом в FeSTE.
В этом примере набор данных является университетским набором данных.
Когда его цель состоит в том, чтобы классифицировать университеты в низкорейтинговые университеты и высокорейтинговые университеты.
В качестве базы знаний мы используем Википедию.
Первым этапом FeSTE является связывание сущностей.
Когда каждая сущность, в этом примере название университета, связана с сущностью в базе знаний.
И текст сущностей базы знаний извлекается и добавляется в датасет.
В этом примере текст является аннотацией страницы Википедии.
Теперь нам нужно сгенерировать или извлечь функции из извлеченного текста.
Итак, нам нужно выполнить фазу извлечения функции, которая включает анализ текста.
И в этом главная новизна этой статьи, и я углублюсь в нее в следующих слайдах.
После фазы извлечения функции, есть фаза генерации функции, когда мы используем извлеченные функции для создания небольшого количества новых функций.
Сначала сгенерируйте признаки ah в количестве классов исходного набора данных.
В этом примере исходный набор данных имеет два класса.
Таким образом, FeSTE генерирует две новые функции.
Но если набор данных имеет пять классов, FeSTE генерирует пять новых функций.
Каждая характеристика представляет собой вероятность для каждого класса.
Для анализа текста мы используем современное состояние анализа текста, которое представляет собой трансформаторные языковые модели, такие как BERT, GPT,  XLNet и т. Д.
Но вряд ли мы сможем обучать языковые модели, используя входные наборы данных.
Таким образом, наивный подход будет заключаться в тонкой настройке целевой задачи.
Итак, на этапе извлечения признаков мы можем загрузить предварительно обученные языковые модели, точно настроить языковую модель над целевым набором данных.
В этом примере для тонкой настройки языковой модели, для классификации ah, чтобы классифицировать текст на классы, абстрактный на классы, низкий или высокий.
Получите вывод языковой модели, который является вероятностью для каждого класса и используйте в качестве новых функций.
Проблема с этим подходом заключается в том, что наборы данных могут иметь несколько отдельных объектов / текстов.
В нашем эксперименте почти половина наборов данных содержит менее четырехсот образцов, а самый маленький набор данных содержит тридцать пять образцов в ИТС в обучающем наборе.
Таким образом, тонкая настройка языковой модели над этим набором данных будет неэффективной.
Но мы можем использовать предварительные знания о предварительно проанализированных наборах данных.
Поскольку FeSTE мы применяем FeSTE для нескольких наборов данных, мы можем использовать n минус один набор данных для сбора информации о n минус один набор данных и использовать эту информацию при анализе n-го набора данных.
Что мы, что мы предлагаем, чтобы добавить, чтобы добавить еще одну фазу тонкой настройки.
Предварительная многозадачная фаза тонкой настройки.
При тонкой настройке языковой модели над n минус один набор данных.
И затем мы выполняем еще одну фазу тонкой настройки, которая является тонкой настройкой целевой задачи, когда вы тонко настраиваете языковую модель над n-м целевым набором данных.
Современная многозадачная ah многозадачная тонкая настройка, называемая MTDNN.
В MTDNN MTDNN поддерживает ah руководителей в количестве задач в наборе обучения.
Итак, в этом примере в обучающем наборе есть четыре задачи, поэтому MTDNN поддерживает четыре головы, как вы можете видеть на изображении.
И он отбирает случайную партию из тренировочного набора.
И если они случайным образом принадлежат к, например, одной задаче классификации предложения, он выполняет прямой и обратный пути через первую голову.
И если случайный пакет относится к задаче парного ранжирования, он выполняет прямой и обратный путь через последнюю голову.
В нашем сценарии табличные наборы данных ah различаются по количеству классов.
Таким образом, есть много задач.
MTDNN поддерживал количество классов, глав, выходных слоев.
И дополнительно, дополнительно MTDNN нужно инициализировать новые заголовки для нового датасета с новой задачей.
Наш подход, называемый тонкой настройкой переформулировки задач, заключается в том, что в нашем подходе тонкой настройки переформулировки задач вместо поддержания нескольких глав мы переформулируем каждый набор данных в предложение для задачи классификации, которая является задачами двух классов.
Рассмотрим пример.
Вот наш входной набор данных, который состоит из сущностей, функций, текста и классов.
И мы переформулируем задачу из классификации текста на низкий или высокий, чтобы классифицировать текст, аннотацию и класс на истинный или ложный.
Или, другими словами, мы обучили языковую модель классифицировать абстракт и класс ah на абстракт и класс ah, если абстракт принадлежит к классу или нет.
Таким образом, вектор метки в этом случае всегда остается ah, который всегда состоит из двух классов.
И это алгоритм ah для нашего тонкого, переформулированного подхода к тонкой настройке.
Итак, давайте посмотрим на всю структуру.
Набор данных, подаваемый в FeSTE.
И затем ah FeSTE выполняет фазу связывания сущностей.
Он извлекает текст из базы знаний, которая в этом примере является аннотацией страницы Википедии.
Затем он переформулировал задачу в попарную задачу классификации предложений.
Применил языковую модель к новой задаче и вероятность вывода для каждого класса.
И теперь, когда языковая модель уже тонко настроена над n минус один набор данных с использованием предварительной многозадачной тонкой настройки.
Затем мы используем выходной вектор языковой модели в качестве вновь созданного признака в числе классов.
Для оценки нашей структуры мы используем семнадцать табличных классификационных наборов данных, которые различаются по размеру, характеристикам, балансу, области и первоначальной производительности.
В качестве базы знаний мы используем Википедию.
Мы разрабатываем наш эксперимент как оставляем одну оценку, где мы обучаем FeSTe более шестнадцати наборов данных и применяем его к семнадцатому набору данных.
Мы также разделили каждый набор данных на четыре сгиба и применили перекрестную валидацию четырех сгибов.
Затем мы создаем новые функции и оцениваем их, используя пять классификаторов оценки.
Мы используем в наших экспериментах базовую архитектуру BERT.
Вот результаты наших экспериментов.
Вы можете видеть, что мы сравниваем нашу структуру с целевой тонкой настройкой набора данных, целевой тонкой настройкой задачи и предварительной тонкой настройкой MTDNN.
И наша переработанная тонкая настройка обеспечивает лучший результат, лучшую производительность.
В то время как MTDNN достигла двухпроцентного улучшения по сравнению с тонкой настройкой целевого набора данных.
Наш подход улучшился на 6%.
Когда мы смотрим на малый набор данных ah, мы можем видеть, что производительность MTDNN снижается, а улучшение предварительной фазы предварительной многозадачной тонкой настройки уменьшается до одной точки на пять процентов.
Но наша производительность увеличилась до одиннадцати процентов по сравнению с одной только тонкой настройкой целевой задачи.
Для суммирования, FeSTE включает немного обогащения выстрела от тридцати пяти образцов в наших экспериментах.
Он использует одну архитектуру для всех задач и наборов данных.
И он держит голову ах модели.
Но это добавляет этап переформулировки.
Он дополняет набор поездов, и ему нужно целевое значение с семантическим значением, чтобы мы могли загрузить его в языковую модель и использовать его в задаче классификации пар предложений.
Спасибо.
