Здравствуйте! Сегодня я представлю нашу исследовательскую работу «Обучение дедуктивному рассуждению: решение текстовых математических задач как извлечение сложных отношений».
Меня зовут Аллан. Я работаю в лаборатории ByteDance AI. Эта работа выполнена в сотрудничестве с Цзэруем Ли из Техасского университета в Остине и Вэй Лу из SUTD.
Во-первых, я хочу поговорить о нашем интересе к рассуждению.
Здесь показаны примеры, в которых полезно многоступенчатое рассуждение.
Этот показатель взят из работы PaLM, авторы которой используют подсказки для решения сетевой проблемы в сценарии обучения с несколькими выстрелами.
Слева видно, что, если мы рассмотрим несколько примеров, содержащих только вопрос и ответы, правильных ответов мы не получим.
Но, если мы предоставим дополнительное описание рассуждения, модель сможет предсказать описание рассуждения, а также сделать правильное предсказание.
Это значит, что полезно иметь многоступенчатое рассуждение в качестве выхода.
Мы также считаем, что текстовая математическая задача представляет собой простое приложение для оценки таких способностей к рассуждению.
В нашей структурной схеме набора задачи с данными вопросами нам нужно решить эту задачу и получить численные ответы.
В наших наборах данных также содержится математическое выражение, которое тоже приводит нас к этому конкретному ответу.
Таким образом, здесь также применимы некоторые предположения из предыдущей работы.
Мы предполагаем, что точность величин известна.
И мы рассматриваем только основные операции, такие как сложение, вычитание, умножение, деление и экспоненциальная функция.
Кроме того, сложные операции могут быть фактически разложены на эти основные операции.
Предыдущая работа по решению текстовой математической задачи на самом деле может быть классифицирована как «последовательность к последовательности» и «последовательность к модели дерева».
Традиционная модель «последовательность к последовательности» преобразует выражение в конкретную последовательность для генерации.
При этом ее довольно легко реализовать и можно обобщить для множества различных сложных задач.
Недостатки заключаются в том, что ее производительность, как правило, не лучше, чем у структурированной модели, а также в том, что в ней отсутствует интерпретируемость для предсказания.
Однако это направление все еще довольно популярно из-за модели преобразования.
Таким образом, в моделях на основе дерева мы фактически структурируем эти выражения в форме дерева и следуем предварительно упорядоченному обходу в генерациях деревьев.
В итоге мы продолжаем генерировать операции, пока не достигнем листьев, представляющих собой величины.
Это преимущество двоичной структуры дерева, однако на самом деле такая структура довольно нелогична, поскольку сначала мы генерируем операцию и только в конце — величины.
К тому же она содержит некоторые повторяющиеся вычисления.
Если мы посмотрим на это выражение (восемь умножить на три плюс три), оно генерируется дважды, при этом нам нужно повторно использовать результаты.
В предложенном нами подходе мы стремимся решать такие задачи поэтапно и интерпретируемыми способами.
Например, здесь мы можем получить эти делители на втором шаге, а именно, двадцать семь.
Мы также можем обратиться к исходным вопросам, чтобы найти соответствующее содержание.
В рамках этих шагов мы получаем делители.
На этом третьем шаге мы получаем частное.
Хорошо. После этих трех шагов мы можем повторно использовать результаты второго шага, а затем получить результаты четвертого шага. В итоге мы получим делимые.
Таким образом, здесь мы фактически генерируем целое выражение напрямую без генерации отдельных операций или величин.
Это делает процесс более точным.
Итак, в нашей дедуктивной системе мы начинаем с большого количества величин, представленных в вопросах, а также добавляем некоторую константу в качестве начального состояния.
Таким образом, выражение представлено как e i j o p.
Мы выполняем операцию от q_i к q_j, и такое выражение фактически является направленным.
Чтобы представить противоположное направление, у нас также есть вычитание, представленное словами.
Это очень похоже на извлечение отношения.
Таким образом, в формальной дедуктивной системе на временном шаге t мы применяем операцию между парой q_i и q_j, а затем получаем это новое выражение.
Мы добавляем его к следующему состоянию, чтобы получить новую величину.
Эти слайды фактически визуализируют эволюцию состояния, в котором мы продолжаем добавлять выражение к текущему состоянию.
При реализации модели мы сначала используем предварительно обученную языковую модель (это может быть BERTs или Robertas), затем кодируем предложение и в итоге получаем представления этой величины.
После получения представлений величины можно переходить к выводу.
Здесь показан пример q_1, демонстрирующий получение представления для значения q_2, разделенного на q_2, а затем умноженного на q_3.
Сначала мы получаем представление пары, которое в основном является просто конкатенацией между q_1 и q_2, а затем применяем сеть с механизмом прогнозирования событий, которая параметризуется операцией.
И наконец, получаем представление выражения q_1, разделенного на q_2.
Однако на практике мы могли бы также получить неправильное выражение на этапе вывода.
Здесь все возможные выражения равны числу операций, умноженному на три.
Полезно то, что мы можем легко добавить ограничения для управления этой областью поиска.
Например, если это выражение не разрешено, можно просто удалить его из нашей области поиска.
На втором шаге делаем то же самое. Единственное различие в том, что у нас есть еще одна величина.
Эта величина получена из предыдущего вычисляемого выражения.
Наконец, можно получить это окончательное выражение q_3, умноженное на q_4.
Мы также видим, что число всех возможных выражений отличается от полученного на предыдущем шаге.
Эта разница затрудняет применение лучевого поиска, поскольку распределение вероятности между этими двумя шагами несбалансированно.
Таким образом, процедура обучения аналогична обучению модели «последовательность к последовательности», где мы оптимизируем потери на каждом временном шаге.
И здесь мы также используем это значение tau, чтобы представить, когда необходимо прекратить процесс генерации.
В этом случае область отличается от модели «последовательность к последовательности»: она является различной на каждом временном шаге, в то время как в традиционной модели «последовательность к последовательности» — это всегда число слов в словаре.
Этот подход также позволяет нам устанавливать определенные ограничения на основе предшествующего знания.
Таким образом, мы экспериментируем над широко используемыми наборами данных текстовых математических задач, MAWPS, Math23K, MathQA и SVAMP.
Здесь вкратце представлены результаты, сравненные с предыдущими лучшими подходами.
Вариант, который дал наилучшие результаты в нашем случае — Roberta-DeductiveReasoner.
К тому же мы не используем лучевой поиск в отличие от всех предыдущих подходов.
Итак, лучшие подходы часто являются моделями на основе дерева.
В целом наш механизм рассуждений способен значительно превзойти эту основанную на дереве модель.
Однако, как видим, абсолютные показатели на MathQA или SVAMP не очень высоки.
Поэтому мы продолжаем исследовать результаты, полученные на SVAMP.
Этот набор данных достаточно сложен, поскольку автор пытался развить NLP-модель с помощью ручного добавления нерелевантной информации и дополнительных величин.
В нашем предсказании мы обнаруживаем, что некоторые промежуточные значения на самом деле являются отрицательными.
Например, в этих вопросах мы спрашиваем, сколько яблок у Джейка?
Но у нас есть такая дополнительная информация, как «на семнадцать снимков меньше» и «у Стивена восемь снимков» — и она не имеет к вопросу никакого отношения.
Наша модель позволяет делать предсказания, подобные этому, что приводит к отрицательным значениям.
И мы видим, что эти два выражения на самом деле имеют похожие результаты.
Следовательно, можно фактически ограничить эту область поиска, удалив отрицательные результаты, чтобы прийти к правильному ответу.
Становится ясно, что такое ограничение на самом деле значительно улучшает результаты для некоторых моделей.
Например, в случае BERT мы получили на семь баллов больше, а в случае базовой модели Roberta — на два балла больше.
Поскольку лучшая языковая модель имеет лучшую способность к пониманию языка, показатель Roberta выше, чем у BERT.
Мы также пытаемся проанализировать сложность, стоящую за всеми этими наборами данных.
Мы предполагаем, что количество неиспользованных величин можно рассматривать как нерелевантную информацию.
Мы видим, что у нас есть процент образцов с неиспользованными величинами, и наибольшая их доля приходится на набор данных SVAMP.
Здесь мы также показываем общую производительность.
Для образцов без неиспользованных величин общая производительность оказывается выше.
Образцы с неиспользованными величинами дают гораздо худшую общую производительность.
Для MAWPS у нас не так много тестовых сценариев, поэтому я игнорирую эту часть.
Наконец, мы бы хотели продемонстрировать интерпретируемость на примере пертурбации вопроса.
Наша модель приводит к неправильному предсказанию на первом шаге.
Мы можем соотнести это выражение здесь с предложением. Хорошо.
Мы считаем, что это предложение может привести модель к неправильным предсказаниям.
Добавление дополнительной величины (тридцать пять) заставляет модель думать, что это операция сложения.
Поэтому мы пытаемся изменить предложение, чтобы получить что-то вроде «Число грушевых деревьев на тридцать пять меньше, чем количество яблонь».
Мы делаем его более семантически точным, чтобы модель смогла сделать правильное предсказание.
Таким образом, это исследование показывает, как интерпретируемые предсказания помогают нам понять поведение модели.
В заключение скажем, что, во-первых, наша модель довольно эффективна.
И она позволяет нам обеспечить интерпретируемую процедуру решения.
К тому же мы можем легко добавить некоторые предыдущие знания в качестве ограничения, что способно повысить производительность модели.
И последнее: основной механизм применим не только к решению сетевых проблем, но и к другим задачам, которые включают в себя многоступенчатые рассуждения.
Мы также сталкиваемся с определенными ограничениями.
Так, большое число операций или констант требует использования памяти большого объема.
К тому же, как уже упоминалось, несбалансированное распределение вероятностей между различными временными шагами усложняет возможности применения стратегии лучевого поиска.
На этом мое выступление окончено, жду ваших вопросов. Спасибо.
Здравствуйте! Меня зовут Антуан. Я представляю Маастрихтский университет.
Я представлю работу, которую мы проделали вместе с Джерри. Она посвящена новому набору данных для поиска статей законов.
Юридические вопросы являются неотъемлемой частью жизни многих людей.
Но большинство граждан мало что знают о своих правах и фундаментальных правовых процессах.
В результате многие уязвимые категории людей не могут позволить себе дорогостоящую юридическую поддержку, остаются без защиты или, что еще хуже, подвергаются эксплуатации.
Наша работа направлена на преодоление барьера между людьми и правом путем разработки эффективной поисковой системы для статей законов.
Такая система могла бы обеспечить бесплатную юридическую помощь тем, кто в ней нуждается.
Перед тем как подробно рассказать о нашей работе, сначала определим проблему, связанную с поиском статей законов.
Возьмем простой юридический вопрос: рискую ли я, нарушая профессиональную конфиденциальность?
Для извлечения всех нужных статей из обширного свода законодательных актов требуется специальная модель.
Сама задача по поиску информации связана с собственными трудностями.
Во-первых, она имеет дело с двумя стилями языка.
Распространенный естественный язык в случае вопросов и сложный юридический язык в случае законодательных актов.
Это различие в распределении языка затрудняет поиск соответствующих кандидатов, поскольку косвенным образом требует дополнительной системы интерпретации, которая могла бы преобразовать заданный в естественной манере вопрос в вопрос, использующий терминологию законодательных актов.
Кроме того, статутное право — это не отдельные статьи, которые можно трактовать как самостоятельные и полные источники информации, в отличие, например, от новостей или рецептов.
Речь идет о структурированном наборе правовых положений, которые имеют целостное значение только при рассмотрении в общем контексте (то есть в совокупности с дополнительной информацией из соседних статей, полей и подполей, к которым они относятся), и собственное место в структуре права.
Наконец, статьи законов — это не небольшие абзацы, которые являются типичной единицей поиска в большинстве исследований на эту тему.
Они представляют собой длинные документы, которые могут содержать до шести тысяч слов.
Недавние достижения в области NLP вызвали огромный интерес ко многим юридическим задачам, таким как предсказание судебного решения или автоматическая экспертиза договора.
Однако проблема поиска статей законов в основном осталась незатронута из-за отсутствия обширных, обозначенных и высококачественных наборов данных.
В данной работе мы представляем новый набор данных, ориентированный на французских граждан и направленный на изучение того, могут ли поисковые модели приблизиться к эффективности и надежности профессионального юриста при решении задачи поиска статьи закона.
Наш набор данных BSARD, предназначенный для поиска бельгийских статей законов, состоит более чем из тысячи ста юридических вопросов, заданных гражданами Бельгии.
Эти вопросы охватывают широкий круг тем, начиная с семьи, жилья, денег, работы и заканчивая социальным обеспечением.
Каждую из них опытные юристы обозначили ссылками на соответствующие статьи из корпуса, состоящего более чем из двадцати двух тысяч шестисот статей бельгийских кодексов.
Теперь поговорим о том, как мы собрали этот набор данных.
Мы начали с составления большого корпуса правовых статей.
Мы взяли тридцать два общедоступных бельгийских кодекса и извлекли из них все статьи, а также соответствующие заголовки разделов.
Затем мы собрали юридические вопросы и дополнили их ссылками на соответствующие положения.
Все это стало возможным благодаря нашему сотрудничеству с бельгийской юридической фирмой, которая ежегодно получает около четырех тысяч электронных писем от бельгийских граждан, запрашивающих консультации по личным правовым вопросам.
Нам посчастливилось получить доступ к сайтам фирмы, на которых ее команда опытных юристов отвечает на самые распространенные правовые вопросы бельгийцев.
Мы собрали тысячи вопросов, аннотированных категориями, подкатегориями и ссылками на соответствующие правовые положения.
Наконец, мы пропустили юридические ссылки и отсортировали вопросы, не содержащие ссылки на статьи рассматриваемых нами кодексов.
Остальные ссылки были сопоставлены и преобразованы в соответствующие идентификаторы статей из нашего корпуса.
В конце концов мы получили тысячу сто восемь вопросов, каждый из которых был обозначен идентификаторами соответствующих статей нашего обширного корпуса из двадцати двух тысяч шестисот тридцати трех статей законов.
Кроме того, каждый вопрос сопровождается основной категорией и конкатенацией подкатегорий.
А каждая статья — конкатенацией заголовка подпоследовательности в структуре закона.
Эта дополнительная информация не используется в настоящей работе, однако может представлять интерес для будущих исследований в области поиска правовой информации или классификации юридических текстов.
Теперь обсудим некоторые характеристики нашего набора данных.
Длина вопросов составляет от пяти до сорока четырех слов со средним значением четырнадцать слов.
Статьи намного длиннее: их средняя длина составляет семьдесят семь слов, а сто сорок две из них содержат более тысячи слов.
Самая длинная статья содержит пять тысяч семьсот девяносто слов.
Как упоминалось ранее, вопросы охватывают широкий круг тем, причем около восьмидесяти пяти процентов из них касаются семьи, жилья, денег или системы правосудия.
Оставшиеся пятнадцать процентов относятся к социальному обеспечению, иммиграционному праву или трудоустройству.
Статьи также отличаются большим разнообразием, поскольку они взяты из тридцати двух различных бельгийских кодексов, охватывающих большое число юридических тем.
Здесь представлено общее количество статей, взятых из соответствующих бельгийских кодексов.
Из двадцати двух тысяч шестисот тридцати трех статей только одна тысяча шестьсот двенадцать упоминается как относящаяся по крайней мере к одному вопросу в наборе данных.
Около восьмидесяти процентов этих цитируемых статей относится к гражданскому, судебным, уголовно-процессуальным или уголовным кодексам.
Между тем, восемнадцать из тридцати двух кодексов содержат менее пяти статей, упомянутых как относящиеся по крайней мере к одному вопросу.
Это может быть связано с тем, что такие кодексы в меньшей степени ориентированы на отдельных лиц и их проблемы.
В целом, среднее число цитирований для этих статей равно двум, и менее двадцати пяти процентов из них цитируются более пяти раз.
Используя все наборы данных, мы сравнили несколько поисковых подходов, включая словарную и плотную архитектуру.
Учитывая запрос и статью, словарная модель присваивает оценку паре статей запроса, вычисляя сумму значений веса каждого из терминов в этой статье.
Мы экспериментируем со стандартными функциями ранжирования TF-IDF и BM25.
Основная проблема этих подходов заключается в том, что они могут получать только статьи, содержащие ключевые слова, которые присутствуют в запросе.
Чтобы преодолеть это ограничение, мы экспериментируем с нейронной архитектурой, которая может улавливать семантические отношения между запросами и статьей.
Мы используем модель бикодировщика, которая отображает запросы и статьи в виде плотных векторных представлений и вычисляет оценку релевантности между парой статей запроса по сходству их визуализации.
Эти визуализации обычно являются результатом операции подвыборки на выходе модели векторного представления слов.
Сначала мы изучаем эффективность сиамских бикодировщиков в настройке оценки с нулевым выстрелом. Это означает что предварительно обученные модели векторного представления слов применяются в готовом виде без какой-либо дополнительной тонкой настройки.
Мы экспериментируем с контекстно-независимым текстовым кодировщиком, а именно word2vec и fastText, и контекстно-зависимыми моделями визуализации, а именно Roberta, а точнее, CamemBERT — французской моделью Roberta.
Также мы обучаем собственную модель CamemBERT на основе модели бикодировщика на нашем наборе данных.
Обратите внимание, что для обучения мы экспериментируем с двумя видами архитектуры бикодировщика.
Речь идет о сиамском методе, который использует уникальную модель векторного представления слов для отображения запроса и статьи в общем плотном пространстве векторов, и методе two-tower, который использует две независимые модели векторного представления слов, по отдельности кодирующие запрос и статью в разные пространства визуализации.
Мы экспериментируем с подвыборкой с определением среднего, максимального значения и значения CLS, а также с продуктом и косинусом для вычисления сходства.
Вот результат нашей базовой линии на тестовых наборах.
С помощью словарных методов, упомянутых выше, сиамские бикодеры оцениваются в настройке нулевого выстрела посередине, а тонко настроенные бикодеры — ниже.
В целом, тонко настроенный бикодировщик значительно превосходит все другие базовые линии.
Модель two-tower дает лучшие по сравнению с сиамскими вариантами результаты при значении отклика сто, однако дает похожую производительность на других метриках.
Несмотря на то, что модель BM25 показала намного худшие результаты по сравнению с обученным бикодировщиком, ее производительность указывала на то, что модель по-прежнему является эффективной базовой линией для поиска на конкретном домене.
В том, что касается оценки с нулевым выстрелом для сиамского бикодировщика, мы обнаружили, что непосредственное использование визуализаций предварительно обученной модели CamemBERT без оптимизации для задачи поиска информации дает плохие результаты, что согласуется с предыдущими выводами.
Кроме того, мы видим, что бикодировщик на основе word2vec значительно превзошел fastText и модели на базе BERT. Благодаря этому мы можем предположить, что, возможно, предварительно обученные модели визуализации на уровне слов больше подходят для решения задачи, чем те, что используют визуализацию на уровне символов или подсловий, когда применяются в готовом виде.
Несмотря на многообещающие показатели, существуют широкие возможности для улучшения модели, поскольку она еще далека от опытного юриста, который в конечном итоге может найти все нужные статьи для ответа на любой вопрос и, таким образом, получить идеальный результат.
В заключение обсудим два ограничения, касающихся нашего набора данных.
Во-первых, корпус ограничен статьями, собранными из тридцати двух бельгийских кодексов, которые не охватывают всё бельгийское законодательство: в корпусе отсутствуют статьи из декретов, директив и постановлений.
Во время построения набора данных все ссылки на эти несобранные статьи игнорируются. Это приводит к тому, что ответы на некоторые вопросы ограничиваются только частью исходного числа релевантных статей.
Эта информация подразумевает, что ответ, содержащийся в остальных релевантных статьях, может быть неполным, хотя и по-прежнему верным.
Во-вторых, нужно отметить, что не на все юридические вопросы можно ответить с помощью обращения только к статьям закона.
Возьмем, к примеру, такой вопрос: можно ли выселить арендаторов, если они слишком сильно шумят?
На этот вопрос трудно получить подробный ответ, оставаясь в рамках статутного права, которое определяет конкретные количественные ограничения, при которых разрешено выселение.
Вместо этого арендодатель, скорее всего, должен больше полагаться на прецедентное право: ему важно найти прецеденты, похожие на его текущую ситуацию.
Например, арендаторы устраивают две вечеринки в неделю, при этом они длятся до двух часов ночи.
Следовательно, некоторые вопросы лучше других подходят для задачи поиска статьи закона, а область менее подходящих еще предстоит определить.
Надеемся, что наша работа вызовет интерес к разработке практичных и надежных моделей поиска статей законов.
Такие модели могли бы обеспечить лучший доступ к правосудию для всех.
Нашу статью, набор данных и код можно найти по следующим ссылкам. Спасибо.
Здравствуйте! Мы рады представить нашу работу на VALSE под названием «Независимый от задачи эталон для тестирования визуально-лингвистических моделей со специфическими лингвистическими явлениями».
Почему нам было так важно создать этот эталон?
В течение последних лет мы наблюдали взрыв интереса к визуально-языковым моделям на основе преобразователя, предварительно обученным на больших количествах пар изображения и текста.
Каждая из этих моделей помогает решать такие современные визуально-языковые задачи, как визуальный ответ на вопрос, визуальное рассуждение на основе здравого смысла, поиск изображений и обоснование фразы.
Мы обнаружили, что точность в решении таких задач и создании конкретных эталонов постоянно растет.
Но знаем ли мы, чему эти модели обучились на самом деле?
Что понимает визуально-языковой преобразователь, когда ему присваивается высокая оценка за подбор этого изображения и этого предложения?
А низкая оценка в этом случае?
Фокусируются ли визуально-языковые модели на том, что правильно?
Или они сосредоточены на предубеждениях, как показано в предыдущей работе?
Чтобы более подробно исследовать этот аспект, мы предлагаем более независимый от задачи подход и подключаем систему VALSE, которая тестирует чувствительность визуально-языковых моделей к специфическим языковым явлениям, влияющим как на лингвистические, так и на визуальные условия.
Сфера наших интересов охватывает такие параметры, как наличие, множественность, подсчет, пространственные отношения, действия и корреляция между сущностями.
Но как можно проверить, учли ли визуально-языковые модели это явление?
Это можно сделать, отразив метод Рави Шекхара и соавторов, ранее применявшийся в визуально-языковых моделях только для именных конструкций, и учтя расчеты, представленные в нашей предыдущей работе.
Отражение в основном означает, что мы берем подпись к изображению и изменяем ее таким образом, чтобы она больше не описывала изображение.
Мы вносим эти изменения во фразу, фокусируясь на шести конкретных аспектах, таких как наличие, множественность, подсчет, пространственные отношения, действия и корреляция между сущностями. При этом каждый аспект может быть связан с одним или несколькими инструментами (если мы найдем несколько интересных способов создания экземпляров отражения).
Например, в отношении аспекта действий мы используем два инструмента: в одном глагол действия заменяется на другое действие, а в другом актанты меняются местами.
Подсчет и корреляция также связаны с несколькими инструментами.
Мы создаем эти отражения так, чтобы они не описывали изображение, но в то же время оставались грамматически корректными и могли бы рассматриваться как правильные предложения.
Это нелегко, поскольку отраженная подпись может быть менее вероятной, чем исходная.
Например, хотя это и не невозможно, статистически менее вероятно, что растения срежут человека, чем человек срежет растения, и крупные визуально-языковые модели могут уловить это.
Следовательно, чтобы получить хорошие отражения, нам нужно приложить дополнительные усилия.
Во-первых, для предложения отражений мы используем мощные языковые модели.
Во-вторых, мы применяем формирование рассуждений на естественном языке (сокращенно NLI) для исключения отражений, которые все еще могут описывать изображение, поскольку при построении отражений нам важно, чтобы они этого не делали.
Для автоматической проверки мы применяем формирование рассуждений на естественном языке со следующим обоснованием.
Мы рассматриваем изображение как предпосылку, а подпись — как гипотезу к ней.
И наоборот, мы рассматриваем подпись в качестве предпосылки, а отражение — в качестве гипотезы к ней.
Если NLI-модель предсказывает, что отражение будет противоречить подписи или будет нейтральным по отношению к ней, мы считаем такое отражение подходящим.
Если NLI предсказывает, что отражение будет связано с подписью, оно не может считаться подходящим, поскольку с точки зрения транзитивности такое отражение даст правдивое описание изображения. Поэтому мы его исключаем.
Однако это неидеальная процедура, она просто указывает нам на подходящие отражения.
Следовательно, в качестве третьей меры для получения подходящего отражения мы применяем человеческие аннотаторы для проверки данных, используемых в VALSE.
Таким образом, после фильтрации и оценки человеком у нас появляется столько тестовых экземпляров, сколько указано в этой таблице.
Обратите внимание, что VALSE не предоставляет никаких обучающих данных, а только тестирует их.
Поскольку это только тестовый эталон с нулевым выстрелом, он предназначен для использования существующих возможностей визуально-языковых моделей после предварительного обучения.
Тонкая настройка позволит моделям использовать только артефакты или статистические предубеждения в данных.
А мы все знаем, что эти модели любят обманывать и экономить время.
Кроме того, как мы уже упомянули, нас интересует оценка возможностей визуально-языковых моделей после предварительного обучения.
Мы экспериментируем с пятью визуально-языковыми моделями на VALSE, а именно с CLIP, LXMert, ViLBERT, ViLBERT (двенадцать в одном) и VisualBERT.
Двумя нашими самыми важными метриками оценки являются точность моделей при классификации сочетаний изображения и предложения в подписях и отражения.
Наверное, в этом видео лучше продемонстрировать менее строгую метрику, оценивающую попарную точность. Она измеряет, является ли оценка сопоставления предложения и изображения для правильного сочетания изображения и текста более высокой, чем для отраженной пары.
В нашей работе содержатся также другие метрики и результаты по ним.
Показанные здесь результаты попарной точности согласуются с результатами, полученными для других метрик. Они говорят о том, что лучшая производительность с нулевым выстрелом достигается моделью ViLBERT (двенадцать в одном), за которой следуют ViLBERT, LXMert, CLIP и, наконец, VisualBERT.
Примечательно, что инструменты, ориентированные на такие отдельные аспекты, как наличие и именные конструкции, почти полностью обеспечиваются ViLBERT (двенадцать в одном), при этом важно подчеркнуть, что модели способны идентифицировать именованные объекты и их присутствие в изображениях.
Однако в наших состязательных настройках отражения нельзя с высокой надежностью применить ни один другой параметр.
Инструменты множества и подсчета указывают на то, что визуально-языковые модели с трудом различают одиночные и множественные объекты или испытывают сложности при их подсчете в изображении.
Аспект отношений показывает, что существуют также проблемы с правильной классификацией именованных пространственных отношений между объектами изображения.
Как видно из аспекта действий, моделям также трудно различать действия и идентифицировать их участников даже при достоверности предубеждений.
Параметр корреляции указывает на то, что прослеживание нескольких ссылок на один и тот же объект в изображении с помощью местоимений также вызывает проблемы у визуально-языковых моделей.
Для проведения анализа с точки зрения здравого смысла (а также потому, что это интересный эксперимент) мы сравниваем две исключительно текстовых модели, GPT-1 и GPT-2, чтобы оценить, можно ли использовать VALSE с этими унимодальными моделями, путем вычисления вероятностной неопределенности правильной и отраженной подписи без самого изображения и предсказания варианта с наименьшей вероятностной неопределенностью.
Если вероятностная неопределенность выше для отражения, мы воспринимаем это как указание на то, что отраженная подпись может находится под влиянием предубеждения достоверности или других лингвистических предубеждений.
Интересно, что в некоторых случаях исключительно текстовые GPT-модели улавливают достоверность мира лучше, чем визуально-языковые модели.
В заключение скажем, что VALSE является эталоном, использующим отраженные лингвистические конструкции, чтобы помочь исследователям улучшить визуально-языковые модели путем аппаратного тестирования их возможностей визуального обоснования.
Наши эксперименты показывают, что в том, что касается аспекта наличия, визуально-языковые модели хорошо идентифицируют именованные объекты и их присутствие в изображениях, однако испытывают трудности с обоснованием их взаимозависимости и отношений в визуальных сценах, когда их принуждают учитывать лингвистические индикаторы.
Мы призываем исследователей применять VALSE для измерения прогресса в языковом обосновании визуально-языковых моделей.
VALSE можно также использовать в качестве косвенной оценки наборов данных, поскольку оценка моделей до и после обучения или тонкой настройки позволяет понять, помогает ли набор данных улучшить любой из аспектов, протестированных VALSE.
Если вас заинтересовала наша работа, ознакомьтесь с данными VALSE на GitHub. Вы также можете связаться с нами, если у вас возникнут вопросы.
Здравствуйте! Меня зовут Камэдзава. Я представляю Токийский университет.
Я представлю вам работу под названием «RNSum: большой набор данных для автоматической генерации примечаний к выпуску с помощью реферирования журналов фиксаций».
Представлю вам план моего выступления.
Сначала я расскажу об автоматической генерации примечаний к выпуску, ставшей объектом данного исследования.
Примечания к выпуску — это технический документ, который обобщает изменения, сделанные в каждой версии программного продукта.
На изображении показано примечание к выпуску для версии два точка шесть точка четыре библиотеки Vuejs.
Примечания к выпуску играют важную роль в разработке программного обеспечения с открытым исходным кодом, однако требуют больших затрат времени, если составляются вручную.
Следовательно, было бы очень удобно автоматически генерировать высококачественные примечания к выпуску.
Расскажу о двух предыдущих исследованиях в области автоматической генерации примечаний к выпуску.
Первое — это система под названием ARENA, реализованная в две тысячи четырнадцатом году.
Она использует основанный на правилах подход, например применяя экстрактор изменений для извлечения всех различий, изменений в библиотеке и изменений в документе из разных выпусков, а затем объединяя их.
Наиболее заметной особенностью этой системы является экстрактор задач в правом верхнем углу.
Эта функция может работать только в системе отслеживания задач JIRA и поэтому применима исключительно к проектам, использующим эту систему.
Другими словами, она не подходит для многих проектов на GitHub.
Второе недавнее исследование называется Glyph, оно было анонсировано в две тысячи двадцатом году.
Система доступна в Интернете, и ее можно установить с помощью PIP.
Эта система, содержащая простую, основанную на обучении модель классификации текстов, выводит одну из пяти меток, таких как функции или исправления ошибок, для каждого введенного сообщения фиксации.
На этом изображении представлен пример использования, при котором система выводит метку коррекции или исправления ошибок.
Набор данных для обучения Glyph довольно ограничен (около пяти тысяч). Он будет представлен в экспериментах, описанных ниже.
Эффективность модели классификации текстов нельзя назвать высокой.
Проблемами этих двух связанных между собой исследований являются ограниченная применимость и скудность источников данных.
Наша система решает эти две проблемы и автоматически генерирует высококачественные примечания к выпуску.
Для решения проблемы ограниченной применимости мы предлагаем метод высококачественного реферирования на основе классов, использующий в качестве ввода только сообщения о фиксации.
Этот метод может быть использован для всех репозиториев на английском языке.
Для решения второй проблемы ограниченных источников данных мы создали набор данных RNSum, содержащий около восьмидесяти двух тысяч фрагментов данных, путем сбора данных из общедоступных репозиториев GitHub с помощью API GitHub.
Теперь я опишу наш набор данных.
Вот пример данных.
С левой стороны — сообщение о фиксации, а с правой — примечания к выпуску.
Примечания к выпуску обозначены как улучшения, исправления и т. д.
Мы создали задачу, которая принимает сообщения о фиксации на входе и выводит обозначенные примечания к выпуску.
Ее можно рассматривать как задачу реферирования.
Мы заранее определили четыре метки: функции, улучшения, исправления ошибок, устранение недостатков и критические изменения.
Эти метки определены на основе предыдущих исследований и других факторов.
Примечание к выпуску в правом нижнем углу извлечено из примечания к выпуску в левом нижнем углу.
На этом этапе необходимо обнаружить четыре заранее заданные метки.
Однако метки не всегда согласуются с каждым репозиторием.
Например, метка улучшения охватывает улучшения, усовершенствования, оптимизацию и так далее.
Мы подготовили словарь из примерно тридцати меток для каждой из этих вариаций обозначений.
Он необходим для определения класса примечаний к выпуску и поиска соответствующего текста выпуска, выступающего в качестве предложения примечания к выпуску для конкретного класса.
Далее — сообщение о фиксации.
Сообщения о фиксации не привязаны к каждому выпуску.
Как показано на изображении ниже, если текущий выпуск — это версия два точка пять точка девятнадцать, нам необходимо найти предыдущую версию два точка пять точка восемнадцать и обнаружить разницу.
Это достаточно трудоемкая работа, поскольку для ее выполнения недостаточно просто взять список выпусков и посмотреть версии до и после.
Чтобы получить предыдущую и следующую версии, мы создали эвристическое правило сопоставления.
Анализ набора данных.
В итоге было собрано семь тысяч двести репозиториев и восемьдесят две тысячи фрагментов данных.
Среднее число жетонов примечаний к выпуску составило шестьдесят три — довольно высокий показатель для задачи реферирования.
Также велико число уникальных жетонов — восемь тысяч восемьсот тридцать.
Это связано с большим числом уникальных имен классов или методов, обнаруженных в репозитории.
Далее я объясню предложенный нами метод.
Модель экстракции на основе классов и абстрактного реферирования состоит из двух нейронных модулей.
Речь идет о классификаторе, использующем BERT или CodeBERT, и генераторе, использующем BART.
Сначала CEAS применяет классификатор для распределения каждого сообщения о фиксации по пяти классам примечаний к выпуску. Они включают в себя улучшения, исправления ошибок, устранение недостатков и прочее.
Сообщения о фиксации, классифицированные как прочие, не учитываются.
Затем CEAS по отдельности применяет генератор к четырем обозначенным документам и генерирует примечания к выпуску для каждого класса.
В этой задаче прямые соответствия между сообщениями о фиксации и примечаниями к выпуску неизвестны.
Поэтому, чтобы обучить классификатор, мы переназначили анализ для каждого входного сообщения о фиксации, используя первые десять символов каждого сообщения о фиксации.
Мы смоделировали подход абстрактного реферирования на основе классов с помощью двух различных методов.
Первая модель, которую мы называем CAS-Single, состоит из одной сети «шесть на шесть» и генерирует один текст примечаний к выпуску с учетом конкатенации введенных сообщений о фиксации.
Тексты на выходе могут быть разделены на сегменты-классы с учетом специальных символов конечных точек, характерных для конкретного класса.
Второй метод, так называемый CAS-Multi, использует четыре различных сети seq2seq, каждая из которых соответствует одному из ранее определенных классов примечаний к выпуску.
Теперь я подробнее расскажу об экспериментах.
Мы сравнили пять методов: CEAS, CAS-Single, CAS-Multi, Clustering и предыдущее исследование Glyph.
В том, что касается оценки, в некоторых случаях примечания к выпуску выводятся в виде нескольких предложений.
Поскольку вычислить количество предложений сложно, они объединяются с помощью пробелов и рассматриваются как одно длинное предложение.
Мы штрафуем BLEU, когда система выводит короткое предложение.
Это наказание является причиной более низкого значения BLEU в результатах эксперимента, описанных ниже.
Мы также рассчитываем специфичность, поскольку, если примечания к выпуску пусты, рассчитать ROUGE и BLEU невозможно.
Более высокая специфичность означает, что модель корректно выводит пустой текст в тех случаях, когда примечания к выпуску должны быть пустыми.
Вот результаты.
Поскольку набор данных содержит адреса электронной почты, хэшированные значения и т. д., мы также оценили очищенный набор данных, не содержащий эту информацию.
CEAS и CAS получили на 10 баллов больше по шкале ROUGE-L, чем базовые линии.
В частности, на чистом тестовом наборе разница в результатах между предлагаемым методом и базовыми линиями увеличилась до более чем двадцати баллов.
Эти результаты указывают на то, что CEAS и CAS достаточно эффективны.
Модель CEAS получила лучшую оценку по шкале ROUGE-L, чем CAS. Это указывает на то, что сочетание классификатора и генератора эффективно в случае обучения классификатора с использованием псевдометок.
Высокий охват CEAS, вероятно, объясняется тем, что классификатор может сосредоточиться на выборе соответствующих сообщений фиксации для каждого класса.
CAS-Multi, как правило, дает более высокий результат по шкале ROUGE-L, чем CAS-Single.
Это также может означать эффективность разработки различных независимых моделей абстрактного реферирования для каждого класса примечаний к выпуску.
Здесь представлен анализ ошибок.
Длина предложений, полученных с помощью CAS-метода, как правило, меньше, чем у эталонных человеческих предложений.
На рисунке справа эталонное предложение содержит три или четыре предложения, в то время как CAS — только одно.
Причина сопротивления этой модели заключается в том, что в обучающих данных только тридцать три процента предложений присутствуют в метке функций и сорок процентов — в метке улучшений.
Кроме того, CAS-методы не могут генерировать точные примечания к выпуску без дополнительной информации.
Верхний пример справа иллюстрирует очень запутанное сообщение о фиксации. Поэтому сгенерировать полное предложение без ссылки на соответствующий прогресс или задачу невозможно.
В приведенном ниже примере показано, что два сообщения о фиксации на входе связаны между собой и должны быть объединены в одно предложение, однако этого не происходит.
Наконец, перейдем к выводам.
Мы создали новый набор данных для автоматической генерации примечаний к выпуску.
Мы также сформулировали задачу по вводу сообщений о фиксации и их реферированию таким образом, чтобы их можно было применить ко всем проектам написанным на английском языке.
Наши эксперименты показывают, что предлагаемый метод генерирует более точные примечания к выпускам и обеспечивает более высокий по сравнению с базовыми линиями охват.
С нашим набором данных можно ознакомиться на GitHub.
Спасибо.
Здравствуйте! Меня зовут Асаф Харари.
Я представлю нашу работу под названием «Пополнение табличных данных с использованием тонко настроенных архитектур преобразователей».
Специалисты по работе с данными занимаются анализом данных и в основном используют существующие функции данных.
Но иногда эти функции ограничены.
Функция генерация с использованием другого источника данных могла бы добавить существенную информацию.
Цель нашего исследования — автоматическое пополнение табличных данных с использованием внешних источников текста на естественном языке.
Предположим, у нас есть табличный набор данных и база знаний.
Нам нужен автоматический процесс, который включает в себя связывание сущностей и анализ текста для извлечения новых функций из базы знаний, содержащей текст на естественном языке.
Наша система FeSTE помогает реализовать такой автоматический процесс.
Рассмотрим пример с набором данных, введенным в FeSTE.
В этом примере речь идет о наборе данных, связанном с университетами.
Цель состоит в том, чтобы классифицировать университеты с низким и высоким рейтингом.
В качестве базы знаний используется Википедия.
Первый этап для FeSTE — это связывание сущностей.
Каждая сущность (в этом примере представляет собой название университета) связывается с сущностью из базы знаний.
Затем текст сущностей базы знаний извлекается и добавляется в набор данных.
В этом примере текст представляет собой аннотацию страницы Википедии.
Теперь нам нужно сгенерировать или извлечь функции из найденного текста.
Для этого нам необходима фаза извлечения, которая включает в себя анализ текста.
В этом и состоит главная новизна нашей работы, подробно представленная на следующих слайдах.
После извлечения функции идет фаза генерации, когда мы используем извлеченные функции для создания небольшого числа новых функций.
Сначала мы генерируем число функций, равное количеству классов исходного набора данных.
В этом примере исходный набор данных содержит два класса.
Поэтому FeSTE генерирует две новые функции.
При этом, если набор данных будет содержать пять классов, FeSTE сгенерирует пять новых функций.
Каждая функция характеризует вероятность для каждого класса.
Для анализа тестов мы используем современные языковые модели, основанные на преобразователе, например, BERT, GPT, XLNet и т. д.
При этом нам вряд ли удастся обучить языковые модели, используя входные наборы данных.
Поэтому примитивный подход предполагает целевую тонкую настройку задачи.
На этапе извлечения функций мы можем загрузить предварительно обученные языковые модели и точно настроить языковую модель под целевой набор данных.
В этом примере тонкая настройка языковой модели предусматривает распределение текста и аннотаций по классам: низкий и высокий рейтинг.
На выходе языковой модели мы получаем вероятность для каждого класса, которая будет использоваться в качестве новых функций.
Проблема с этим подходом заключается в том, что наборы данных могут содержать несколько различных сущностей/текстов.
В нашем эксперименте почти половина наборов данных содержит менее четырехсот образцов, а самый маленький набор данных — тридцать пять образцов в своем обучающем наборе.
Таким образом, тонкая настройка языковой модели под этот набор данных будет неэффективной.
Однако мы можем использовать предыдущие знания о предварительно проанализированных наборах данных.
Поскольку мы применяем FeSTE к нескольким наборам данных, мы можем использовать наборы данных «n минус один» для сбора информации о наборах данных «n минус один», а затем применить эту информацию при анализе n-го набора данных.
Для этого мы предлагаем добавить еще один этап тонкой настройки.
Фаза предварительной многозадачной тонкой настройки.
Мы выполняем тонкую настройку языковой модели под наборы данных «n минус один».
За этим следует еще одна фаза тонкой настройки, представляющая собой тонкую настройку целевой задачи, при которой языковая модель настраивается под n-й целевой набор данных.
Речь идет о современной многозадачной тонкой настройке под названием MTDNN.
В MTDNN количество заголовков соответствует количеству задач в обучающем наборе.
В этом примере обучающий набор содержит четыре задачи, поэтому MTDNN сохраняет четыре заголовка, как показано на изображении.
Система отбирает случайный пакет данных из обучающего набора.
Если случайный пакет данных принадлежит, например, к отдельной задаче классификации предложения, он реализует прямые и обратные пути через первый заголовок.
А если случайный пакет данных принадлежит к задаче попарного ранжирования, он реализует прямой и обратный путь через последний заголовок.
В нашем сценарии табличные наборы данных различаются по числу классов.
Это объясняет большое количество задач.
MTDNN сохраняет число классов, заголовков и выходных слоев.
Также MTDNN необходимо инициализировать новые заголовки для нового набора данных с новой задачей.
В нашем подходе, называемом задача переформулировки с тонкой настройкой, вместо сохранения нескольких заголовков мы переформулируем каждый набор данных в предложение для каждой задачи классификации, представляющей собой задачу с двумя классами.
Рассмотрим пример.
Перед вами наш входной набор данных, состоящий из сущностей, функций, текста и классов.
Мы переформулируем задачу из классификации текста в низкую или высокую, чтобы классифицировать текст, аннотацию и класс как истинные или ложные.
Другими словами, мы обучили языковую модель классифицировать аннотацию и класс как аннотацию и класс, в зависимости от того, принадлежит ли аннотация к классу.
Таким образом, метка-вектор в этом случае всегда состоит из двух классов.
Таков алгоритм, используемый в нашем подходе переформулировки с тонкой настройкой.
Теперь посмотрим на всю структуру.
Набор данных загружается в FeSTE.
Затем FeSTE выполняет связывание сущностей.
Система извлекает текст из базы знаний, которая в данном примере представляет собой аннотацию страницы Википедии.
Затем она переформулирует задачу в попарную классификацию предложений.
Мы применяем языковую модель к новой задаче и получаем на выходе вероятность для каждого класса.
И теперь, когда языковая модель уже тонко настроена под набор данных «n минус один» мы выполняем предварительную многозадачную тонкую настройку.
Затем мы используем выходной вектор языковой модели в качестве новых сгенерированных функций, чье число равно количеству классов.
Для оценки нашей структуры мы применяем семнадцать табличных классифицируемых наборов данных, отличающихся по размеру, функциям, балансу, домену и первоначальной производительности.
В качестве базы знаний используется Википедия.
Мы проводим наш эксперимент так, чтобы исключить оценку при обучении FeSTe на шестнадцати наборах данных и применить ее к семнадцатому набору данных.
Мы также разделяем каждый набор данных на четыре прохода и применяем четырехпроходную перекрестную проверку.
Затем мы генерируем новые функции и оцениваем их, используя пять оценочных классификаторов.
В наших экспериментах применяется базовая архитектура BERT.
Вот результаты наших экспериментов.
Вы можете видеть, что мы сравниваем нашу систему с тонкой настройкой целевого набора данных, тонкой настройкой целевой задачи и предварительной тонкой настройкой MTDNN.
Наша переформулированная тонкая настройка дает лучший результат и лучшую производительность.
MTDNN, с другой стороны, дает улучшение в два процента по сравнению с тонкой настройкой целевого набора данных.
Наш подход позволил улучшить результат на шесть процентов.
Если посмотреть на малый набор данных, мы увидим, что производительность MTDNN снижается, а улучшение предварительной фазы многозадачной тонкой настройки уменьшается до одной целой пяти десятых процента.
Однако по сравнению с использованием исключительно целевой задачи тонкой настройки наша производительность увеличилась до одиннадцати процентов.
В заключение отметим, что в наших экспериментах FeSTE обеспечивает пополнение с несколькими выстрелами из тридцати пяти образцов.
Система использует одну архитектуру для всех задач и наборов данных.
К тому же она сохраняет заголовки модели.
Но это предусматривает добавление фазы переформулировки.
Система дополняет обучающий набор, и нам необходимо целевое значение с семантическим смыслом, чтобы ввести такой набор в языковую модель и использовать при решении задачи классификации пары предложений.
Спасибо.
