Привет, это Елена, и я собираюсь представить нашу работу «Обнаружение неассимилированных заимствований на испанском языке: аннотированный корпус и подходы к моделированию».
Итак, мы рассмотрим, что такое лексическое заимствование, задачу, которую мы предложили, набор данных, который мы выпустили, и некоторые модели, которые мы исследовали.
Но для начала, что такое лексическое заимствование и почему оно имеет значение как задача НЛП?
Ну, лексическое заимствование - это в основном включение слов из одного языка в другой язык.
Например, в испанском языке мы используем слова, которые происходят из английского языка.
И здесь у вас есть несколько примеров, такие слова, как подкаст, приложение и онлайн-краудфандинг, все это английские слова, которые мы иногда используем в испанском языке.
Лексическое заимствование - это тип лингвистического заимствования, который в основном воспроизводит в одном языке шаблоны других языков.
И заимствование и переключение кода иногда сравниваются и описываются как континуум, переключение кода - это то, что делают двуязычные, когда они смешивают два языка одновременно.
Однако есть некоторые различия между лексическим заимствованием и переключением кода.
Мы сосредоточимся на лексических заимствованиях.
Переключение кода - это то, что делают билингвы, и по определению кодовые переключатели не интегрированы ни в один из используемых языков, тогда как лексическое заимствование - это то, что также делают монолингвы.
Заимствования будут соответствовать грамматике языка получателя.
И заимствования в конечном итоге могут быть интегрированы в язык получателя.
Так почему же заимствован интересный феномен?
Ну, с точки зрения лингвистики, заимствование - это проявление того, как меняются языки и как они взаимодействуют.
А также лексические заимствования являются источником новых слов.
Вот некоторые примеры лексических заимствований, которые были включены в испанский язык в качестве новых слов.
С точки зрения НЛП, заимствования являются распространенным источником несловарных слов.
И на самом деле, автоматическое обнаружение лексических заимствований оказалось полезным для задач НЛП, таких как синтаксический анализ, синтез текста в речь или машинный перевод.
Был растущий интерес к влиянию английского языка на другие языки, особенно связанные с английскими лексическими заимствованиями, заимствованиями, которые иногда называют англицизмами.
И здесь у вас есть некоторые примеры работы по автоматическому обнаружению заимствований на некоторых из этих языков.
Таким образом, задача, которую мы предлагаем, заключается в обнаружении неассимилированных лексических заимствований в испанской новостной ленте.
Это означает, что мы заинтересованы в извлечении слов, заимствованных из других языков, которые используются в испанских газетах, но которые не были интегрированы или ассимилированы в язык получателя.
Пока не интегрирован в испанский язык.
Вот вам пример.
Это предложение на испанском языке: Las prendas bestsellers se estampan con motivos florales, animal print o retales tipo patchwork.
И, как вы можете видеть, есть три пролета текстов, которые на самом деле являются английскими словами, такими как бестселлер, животный принт и лоскутное одеяло.
Это тип пролетов, которые мы заинтересованы в извлечении и обнаружении.
Ранее было сказано об обнаружении англицизма, которое состояло из модели CRF для обнаружения англицизма на испанском Newswire.
Эта модель набрала в Формуле-1 86 баллов.
Но были некоторые ограничения как в наборе данных, так и в подходе к моделированию.
Так что датасет, ориентированный исключительно на один источник новостей, состоял только из заголовков.
А также было перекрытие в заимствованиях, которые появляются в обучающем наборе и наборе тестов.
Это предотвратило оценку того, может ли подход к моделированию на самом деле обобщить ранее невиданные заимствования.
Таким образом, мы стремимся устранить некоторые из этих ограничений в задаче.
Итак, для начала мы создали новый набор данных.
Цель состояла в том, чтобы создать новый набор данных, который был бы аннотирован лексическими заимствованиями, и цель состояла в том, чтобы создать набор тестов, который был бы максимально сложным.
Таким образом, будет минимальное совпадение слов и тем между обучающим набором и набором тестов.
И в результате, ну, тестовый набор исходит из источников и дат, которые мы не видим в тренировочном наборе.
Здесь вы можете видеть, что нет никакого перекрытия в то время.
Кроме того, тестовый набор также очень заимствован.
Чтобы дать вам некоторые цифры, если обучающий набор содержит шесть заимствований на каждую тысячу токенов, тестовый набор содержит двадцать заимствований на каждую тысячу токенов.
Тестовый набор содержал как можно больше слов из словарного запаса.
Фактически, девяносто два процента заимствований в тестовом наборе являются OOV.
Их не видели во время тренировок.
И корпус состоял в основном из коллекции текстов, которые поступали из разных источников испанских газет.
И это было аннотировано вручную с помощью двух тегов.
Один для английских лексических заимствований, который является большинством лексических заимствований в испанском языке, а затем ярлык другой для заимствований из других языков.
Мы используем форматы CONLL, и мы использовали биокодирование, чтобы мы могли кодировать единичные заимствования токенов, такие как заимствования приложений или мульти-токенов, такие как машинное обучение.
Это номера корпуса.
Как вы можете видеть, это примерно триста семьдесят тысяч токенов.
И здесь у вас есть количество пролетов, которые были помечены как английский, и пролеты, которые были помечены как другие заимствования, и сколько из них были уникальными.
И здесь у вас есть пара примеров набора данных.
Как вы можете видеть, например, здесь, у нас есть ah в первом примере, у нас есть заимствование пакетной кулинарии, которая является многословным заимствованием.
И мы аннотировали его с помощью кодировки BIO um.
Таким образом, БИОГРАФИЯ использовалась для слов на испанском языке, а не для слов, которые не были заимствованы.
И здесь, во втором примере, у вас есть скамейки и аварии, которые также помечены как заимствования из английского языка.
Итак, как только мы получили набор данных, мы исследовали несколько моделей для задачи извлечения и обнаружения этих лексических заимствований.
Первой, которую мы попробовали, была модель условного случайного поля.
Это была модель, которая использовалась в предыдущих работах.
И мы использовали те же черты ручной работы, что и в той работе.
Как видите, таковы особенности.
Это бинарные функции, такие как слово или маркер в верхнем регистре?
Это титульный лист?
Это кавычка?
Такие вещи, которые являются типом функций, которые можно было бы ожидать в задаче распознавания именованных сущностей.
Таковы результаты, которые мы получили.
Мы получаем пятьдесят пять баллов F1, используя модель CRF с функциями ручной работы.
Это огромная разница по сравнению с зарегистрированной оценкой F1 в восемьдесят шесть, которая была результатом, полученным с той же моделью CRF, теми же функциями, но на другом наборе данных также для обнаружения испанских лексических заимствований.
Таким образом, это доказывает, что набор данных, который мы создали, сложнее и что нам нужно было изучить более сложные модели для этих задач.
Итак, мы протестировали две модели на основе трансформаторов.
Мы использовали BETO, которая является одноязычной моделью BERT, обученной испанскому языку, а также многоязычной BERT.
Обе модели мы используем через библиотеку трансформаторов от HuggingFace.
Таковы результаты, которые мы получили.
Как вы можете видеть, многоязычный BERT работает лучше, чем BETO, как на наборе разработки, так и на тестовом наборе и по всем метрикам.
Чтобы у нас была идея для сравнения, модель CRF получила восемьдесят два.
Модель CRF получила пятьдесят пять баллов F1, тогда как многоязычная BERT получила восемьдесят два, что является большой разницей.
Итак, как только мы получили эти результаты, мы задали себе другой вопрос, который заключается в том, можем ли мы найти модель BiLSTM-CRF, кормить ее различными типами вложений, вложений, которые кодируют различные типы лингвистической информации и превосходят результаты, полученные с помощью моделей на основе трансформаторов?
Для этого мы провели предварительные эксперименты и запустили их по модели BiLSTM-CRF с использованием библиотеки Flare.
И мы пробовали экспериментировать с различными типами вложений, такими как трансформаторы, но также с быстрым текстом, вложениями символов и так далее.
Мы обнаружили, что вложения на основе трансформаторов работают лучше, чем не контекстуализированные вложения, что комбинация английских вложений BERT и испанских вложений BETO превосходит многоязычные вложения BERT.
И то, что вложения BPE произвели лучшие F1, а вложения символов лучше запоминаются.
Имея это в виду, это были лучшие результаты, которые мы получили.
Обе модели были моделями BiLSTM-CRF с использованием факела.
Одного кормили вложениями BETO и BERT и BPE, а другого - вложениями BETO и BERT и BPE, а также вложениями персонажей.
Этот последний был тем, который дал самый высокий балл F1 на тестовом наборе, хотя самый высокий балл на наборе разработки был получен тем, у кого нет вложений символов.
Просто имейте в виду, что лучший результат, который мы получили с многоязычным БЕРТОМ, получил Формулу-1 из семидесяти шести на наборе разработки и восемьдесят два на тестовом наборе.
Это улучшение по сравнению с этими результатами.
Наконец, мы задали себе еще один вопрос, который заключался в том, может ли обнаружение лексического заимствования быть сформулировано как обучение передаче от идентификации языка при переключении кода?
Таким образом, мы запускаем ту же модель BiLSTM-CRF, которую мы запускали с использованием Flare, но вместо использования этих неадаптированных вложений на основе трансформаторов BETO и BERT, мы использовали вложения с переключателем кода.
Что такое встраиваемые кодовые переключатели?
Ну, это вложения um, которые были точно настроены на основе трансформатора, которые были предварительно обучены для идентификации языка на испанском английском разделе набора данных коммутации кода LinCE.
LinCE - это набор данных о переключении кода, в котором есть раздел о переключении кода на испанский английский, испанский английский.
Таким образом, мы снабдили наши BiLSTM-CRF вложениями переключателей кода и, возможно, вложениями символов, вложениями BPE и так далее.
Лучший результат, который мы получили, был восемьдесят четыре целых двадцать два, что является самым высоким среди всех моделей, которые мы пробовали на тестовом наборе.
Хотя лучший результат F1, который мы получили на наборе разработки, который составлял семьдесят девять, был ниже, чем лучший результат, полученный BiLSTM-CRF с неадаптированными вложениями.
Итак, некоторые выводы из нашей работы.
Мы создали новый набор данных испанской новостной ленты, который аннотирован неассимилированными лексическими заимствованиями.
Этот набор данных более плотный и богатый OOV, чем предыдущие ресурсы.
Мы рассмотрели четыре типа моделей для обнаружения лексических заимствований.
С точки зрения анализа ошибок, напоминание было слабым местом для всех моделей.
Ах, как вы можете видеть здесь, некоторые частые ложные негативы включают заимствования в верхнем регистре, слова, которые существуют как на английском, так и на испанском языках, например.
Также интересно, что вложения BPE, похоже, улучшают оценку F1.
И встраивание персонажа, кажется, улучшает память.
Это интересная находка, которую, возможно, мы сможем исследовать в будущей работе.
Ну, это все, что у меня есть.
Большое спасибо, что выслушали.
Меня зовут Антуан.
Я аспирант Массачусетского университета в Амхерсте.
Я представляю нашу статью KinyaBERT: A Morphology-aware Kinyarwanda Language Model.
Сегодня я расскажу о мотивах этого исследования.
Затем я подробно представлю архитектуру модели KinyaBERT.
Затем я расскажу о наших экспериментальных результатах, а затем закончу некоторыми выводами.
Все мы знаем, что недавние достижения в обработке естественного языка стали возможными благодаря использованию предварительно обученных языковых моделей, таких как BERT.
Однако все еще существует ряд ограничений.
Из-за сложной морфологии, которая выражается большинством морфологически богатых языков, вездесущая пара байтов, кодирующая алгоритм токенизации, который я использовал, не может извлечь точные лексические единицы подслова, то есть морфемы, которые необходимы для эффективного представления.
Например, здесь у нас есть три слова киньяруанда, в которых есть несколько морфем, но алгоритмы BPE не могут их извлечь.
Это связано с тем, что некоторые морфологические правила производят различные поверхностные формы, которые скрывают точную лексическую информацию, и BPE, который основан исключительно на поверхностных формах, не имеет доступа к этой лексической модели.
Вторая проблема заключается в том, что даже если у вас есть доступ к оракульному морфологическому анализатору, замены токенов BPE морфемами недостаточно для выражения морфологической композиции.
Третий пробел в исследовании заключается в том, что новые предварительно обученные языковые модели чаще всего оцениваются на языках с большими ресурсами.
И нам нужно оценить их применимость на небольших ресурсах и на разных языках.
Поэтому мы представляем KinyaBERT, которая является простой, но эффективной адаптацией архитектуры BERT, предназначенной для более эффективной обработки морфологически богатых языков.
Мы оцениваем KinyaBERT на Киньяруанда, малоресурсном морфологически богатом языке, на котором говорят более двенадцати миллионов человек в Восточной и Центральной Африке.
Входными данными для модели являются либо предложение, либо документ.
Например, здесь у нас есть Джон twarahamubonye biradutangaza, что означает, что мы были удивлены, обнаружив там Джона.
Как вы можете видеть, слова Киньяруанда содержат несколько морфем, которые содержат в себе различную информацию.
Поэтому в нашей модели мы передаем это предложение или документ в морфологический анализатор.
Который затем генерирует морфемы, содержащиеся в каждом из слов.
Морфемы обычно состоят из стебля и нуля или более аффиксов.
Аффиксы могут указывать на время, аспект, предмет или объект в глаголах и чаще относятся к классу существительных банту для предметов и объектов.
Морфологический анализатор также производит часть речевого тега для каждого из слов.
После этого шага мы делаем вложения для spee- для части речевых тегов.
Вставки для аффиксов.
И вложения для стебля.
Это уровень морфологии, это вложения уровня морфологии.
Затем мы передаем эти вложения через кодер морфологии, который представляет собой небольшой кодер трансформатора, который применяется к каждому слову независимо.
Вывод - это векторы, контекстуализированные с морфологической информацией в каждом слове.
Теперь мы выполняем композицию, в которой морфологические вложения, соответствующие части речи и ствола, сцеплены вместе.
Мы далее объединяем их с другим вложением стебля на уровне предложения.
Затем формируем ввод в основное предложение или кодер документа.
Конечным результатом являются контекстуализированные вложения, которые могут использоваться для последующих задач НЛП.
Для морфологического анализатора мы используем двухуровневые морфологические принципы с конечным состоянием с пользовательской реализацией, адаптированной к языку киньяруанда.
Мы эффективно моделируем морфологию всех слов киньяруанда, включая глаголы, существительные, демонстративные и притяжательные местоимения, цифры и другие.
Мы используем неконтролируемую часть алгоритма разметки речи.
Факторизованная модель первого порядка используется для учета вероятности морфологии, в основном вероятности, которая назначается морфологическим анализатором.
Мы также принимаем во внимание часть приоритета тегов речи, а также синтаксические соглашения, которые присутствуют во входных словах.
Часть тегера речи использует двунаправленный вывод биди, который улучшает более часто используемый алгоритм Витерби для декодирования.
Несколько замечаний здесь для позиционного кодирования.
Во-первых, морфологический кодер не использует позиционное кодирование.
Это связано с тем, что каждая из морфем занимает известный слот в морфологической модели.
Следовательно, позиционная информация присуща, когда даны морфемы.
Во-вторых, кодировщик предложений использует так называемые несвязанные относительные позиционные вложения, которые были недавно опубликованы на конференции ICLR.
Эти позиционные вложения по существу распутывают позиционные корреляции от вычисления внимания маркера к маркеру.
Подобно БЕРТУ, мы используем маскированную языковую модель перед обучением.
По сути, мы должны предсказать как стебель, так и аффиксы, которые связаны со словами.
Во время предтренировочных занятий для прогнозирования рассматриваются пятнадцать процентов всех слов, из которых восемьдесят процентов маскируются, десять процентов меняются местами со случайными словами, а десять процентов остаются без изменений.
Для предсказания аффикса мы сталкиваемся с некоторой проблемой классификации нескольких меток.
Для этого мы либо группируем вместе аффиксы в фиксированное количество наборов и предсказываем набор как метку класса.
Другой вариант - предсказать вектор вероятности аффикса.
Мы оцениваем оба этих подхода в наших экспериментах.
Мы предварительно обучаем KinyaBERT примерно на двух с половиной гигабайтах текста Kinyarwanda и сравниваем его с тремя базовыми моделями.
Одним из них является многоязычная модель под названием XLM-R, которая обучается на больших текстовых корпусах, состоящих из нескольких языков.
Две другие базовые линии предварительно обучаются на одном и том же тексте Kinyarwanda с использованием либо алгоритма кодирования пары байтов, либо с использованием морфологического анализа без использования двухуровневой архитектуры кодера трансформатора.
Все модели сконфигурированы в базовой архитектуре, которая составляет от ста до ста десяти миллионов параметров, при этом Kinyarwanda с KinyaBERT использует наименьшее количество параметров.
Все модели, кроме многоязычной, предварительно подготовлены к тридцати двум тысячам градиентных обновлений с размером серии две тысячи пятьсот шестьдесят последовательностей в каждой партии.
Мы оцениваем предварительно подготовленные модели по трем наборам задач.
Одним из них является эталон КЛЕЯ, который часто используется для оценки эффективности предварительно обученных языковых моделей.
Мы получаем наши эталонные данные КЛЕЯ, переводя исходные эталонные данные на язык киньяруанда с помощью Google Translate.
Вторая задача - это Kinyarwanda названный эталон распознавания сущностей, который представляет собой высококачественный набор данных, который был аннотирован обученными носителями языка.
Третий - это задача категоризации новостей, когда мы извлекаем новостные статьи с нескольких веб-сайтов и собираем их теги категоризации, которые были назначены авторами, а затем, по сути, пытаемся предсказать то же самое, те же категории.
А теперь перейдем к результатам.
Для теста на КЛЕЙ мы обнаружили, что KinyaBERT последовательно превосходит базовые модели.
Здесь мы показываем среднюю производительность для десяти циклов тонкой настройки.
Мы также проводим пользовательскую оценку переводов, которые производит Google Translate.
По сути, пользователи оценили около шести тысяч примеров, присваивая баллы по шкале от одного до четырех, оценивая качество переводов.
В результате многие переводы были шумными.
Но все модели должны были справляться с одним и тем же шумом перевода, и относительную производительность между моделями все еще важно заметить.
Для задачи распознавания именованных сущностей мы также находим, что KinyaBERT дает наилучшую производительность с наилучшим вариантом регрессии распределения аффикса.
Эти результаты также являются средними значениями десяти циклов тонкой настройки.
Для задачи категоризации новостей мы находим смешанные результаты.
Предыдущая работа по классификации текста для Kinyarwanda обнаружила, что простого обнаружения ключевых слов в основном достаточно для решения этой конкретной задачи.
Следовательно, меньше пользы от использования предварительно обученных языковых моделей.
Об этой конкретной задаче категоризации новостей.
Мы также провели исследование абляции, чтобы увидеть, есть ли альтернативные структуры, которые улучшают производительность.
Для эталона КЛЕЯ мы находим, что использование наборов аффиксов последовательно работает лучше, в то время как цель регрессии вероятности аффиксов дает лучшую производительность при распознавании именованных сущностей.
Кроме того, глядя на низкие баллы для тонкой настройки, мы находим, что KinyaBERT имеет лучшую сходимость в большинстве случаев.
Таким образом, эта работа продемонстрировала эффективность явного использования морфологической информации в предварительно обученных языковых моделях.
Предлагаемая двухуровневая архитектура трансформаторного кодера позволяет улавливать морфологическую сложность морфологической композиции, что является важным аспектом морфологически богатых языков.
Эти результаты должны мотивировать дальнейшие исследования в области морфологии заранее обученных языковых моделей.
Здравствуйте, меня зовут Михал Пьетрушка, и я с удовольствием представляю вам статью под названием «Размывающие модели трансформаторов с обучаемым представительством».
Работа, проделанная в Applica AI в сотрудничестве с Лукашем Борхманном и Лукашем Гарнчареком.
Позвольте мне начать с проблем, которые стоят перед нами в работе.
Наш метод хорошо работает в тех случаях, когда рассматриваются длинные входы.
Грубо говоря, он предназначен для заказов задач и ввода более двух тысяч токенов, а цели короче, чем предоставленные входы.
Это имеет некоторые специфические приложения в НЛП.
Например, можно представить, что при наличии длинного документа возникает необходимость его обобщить, классифицировать, ответить на вопрос о нем, извлечь информацию или некоторые ключевые фразы.
Позвольте мне вспомнить ванильный трансформатор и его проблему сложности внимания, которая зависит от квадрата входной линии.
В ванильном трансформаторе, с полной связностью внимания, должны быть рассчитаны отношения каждого токена к каждому другому токену.
Вычислительная сложность внимания, это зависит от количества слоев l, длины последовательности n, другой длины последовательности и размерности представлений.
Аналогичным образом, в перекрестном внимании декодера к этой картинке с правой стороны единственное различие здесь заключается в том, что целевые токены в этом случае обращают внимание на входные токены.
Это можно увидеть и в этой формуле.
Оценка BLEU представляет отношения, которые должны быть рассчитаны.
В случае полного внимания нам нужно рассчитать все отношения в пределах входной последовательности.
Теперь мы видим, что происходит, когда у нас есть блочный кодер, который работает, ограничивая подключение токенов, чтобы они могли видеть только другие близлежащие токены.
Текст читается кусками, что может резко уменьшить количество вычислений на стороне кодера, но не улучшает перекрестное внимание декодера, поскольку каждый входной маркер все равно передается декодеру.
Этот метод часто называют слиянием в декодере.
Улучшение здесь можно интерпретировать как изменение одной из зависимостей n на другую константу m, представляющую размер блока.
Наше ключевое наблюдение заключается в том, что большинство токенов не имеют отношения к широкому спектру задач и могут быть почти полностью проигнорированы. Это показано на слайде.
Единственные части входов имеют отношение к желаемому выходу.
Например.
Можно прочитать статью, однажды отметив наиболее важные части хайлайтером, а затем составить резюме, основанное на этой части, только со средней стадии.
Таким образом, стоимость выделения и принятия решения о том, является ли текущий токен необходимым для создания сводки, является дешевой и зависит только от представления токена.
Возможно объединение выделенных токенов.
Благодаря нашему лучшему оператору k его стоимость ничтожно мала.
Затраты на составление резюме на основе сокращенных исходных данных также намного ниже, чем в ванильной модели, когда учитываются все исходные данные.
Но вот вопрос.
Как выбрать важные токены и градиенты обратного распространения для этого выбора?
Существенная основная проблема, которую мы решаем, заключается в том, чтобы предложить обучаемый механизм отбора.
Тот, который может позволить градиенту распространяться обратно во время обучения, чтобы сеть могла научиться выбирать наиболее важные токены.
Точнее
Учитывая некоторые вложения подчеркивания, полученные из простого линейного слоя, задача состоит в том, чтобы вернуть самые высокие баллы вложений. Сначала перестраивают последовательность и подготавливают пары так, чтобы вектор с более высоким показателем был взят с вектором с более низким показателем.
Затем веса рассчитываются с использованием увеличенного softmax над баллами.
После каждого раунда турнира новые векторы и баллы составляются в виде линейной комбинации этих пар с полученными весами.
Короче говоря, мы объединяем их линейно, выполняя softmax над их баллами.
И при объединении двух токенов может производиться некоторый шум.
Но это также позволяет распространять градиенты на все входные вложения.
Короче говоря, тренируемый топ k, который мы предлагаем, основан на выполнении турнира, такого как мягкий отбор на каждом шагу.
И с другой точки зрения, объединение представлений следует за слоем кодера.
Сначала оценивается каждое представление, а затем только те, у кого самые высокие баллы, передаются на следующий уровень.
Кодирование может быть выполнено как в стандартной архитектуре трансформатора на входе полной длины.
Однако можно обрабатывать текст в блоках фиксированной длины фиксированной длины и глобально выбирать лучшее представление.
Ниже приведен пример пула представлений, введенного после кодера.
Это напрямую повлияло на причину перекрестного внимания, которая зависит не от входной длины N, а от постоянной K, представляющей собой объединенную длину.
Эта константа сообщает, сколько представлений выбрано и передано декодеру.
Создание резюме из более короткого текста значительно дешевле, чем предыдущее решение.
Как длина последовательности может быть сокращена на большой коэффициент.
Например, мы успешно использовали k из шестнадцати или даже шестидесяти раз четыре или даже шестьдесят четыре раза меньше, чем значение n в наших экспериментах.
Обратите внимание, что благотворное влияние блочного кодирования и внимания к себе сохраняется.
Помните, что вычислительная стоимость внимания зависит от квадрата входной длины.
Уменьшение его ввода раньше в процессе кодирования может значительно снизить затраты.
Для модели пирамидиона мы сузили размер представления на выходе каждого из выбранных слоев, что привело к экспоненциальному снижению вычислительных затрат по мере продолжения кодирования.
Как вы можете видеть, общая вычислительная стоимость полного кодера здесь менее чем в два раза превышает стоимость полноразмерного первого слоя.
Когда объединение вводится раньше, сумма всех фиолетовых квадратов, таким образом, ограничивается константой, не зависящей от количества слоев l.
Но на константу c, на которую может влиять размещение объединенных слоев внутри сети.
Наши улучшения были оценены по восьми тысячам токенов.
И рисунок показывает, что при объединении достигается лучшая масштабируемость для глубины сети.
Здесь можно отметить, что обучение пирамидиона из двадцати четырех слоев может быть дешевле, чем обучение двухслойного ванильного трансформатора на таких длинных входах.
Не говоря уже о том, как легко ванильный трансформатор может выйти из памяти за такой длительный вход.
Качественное качественное качественное сравнение нашего трендового пирамидиона с другой базовой линией выполняется по задаче обобщения длинного документа, или, учитывая тело статьи из arXiv или PubMed, задача состоит в том, чтобы сгенерировать ее реферат.
Таким образом, можно видеть, что по блокам, которые являются нашей базовой линией, работают на уровне последних современных моделей, в то время как пирамидион сохраняет или улучшает производительность этой конкурентной базовой линии.
В то же время наша модель на восемьдесят процентов быстрее тренируется и более чем на четыреста пятьдесят процентов быстрее делает выводы по сравнению с базовой линией по блоку.
Обе модели имеют гораздо меньшее количество параметров и были обучены с нуля на выбранных задачах.
Предыдущие подходы к достижению аналогичной производительности должны были использовать больше параметров и использовать предварительно подготовленные базовые базовые модели и дополнительную цель предварительной подготовки языка для достижения аналогичной производительности.
Мы приглашаем вас прочитать наш полный документ и использовать наш код GitHub.
Спасибо, что посмотрели.
Здравствуйте, это Цзявэй Чжоу из Гарвардского университета.
Я очень рад представить нашу работу по онлайн-семантическому анализу для сокращения латентности в диалоге, ориентированном на задачи.
Это совместная работа с Джейсоном, Майклом, Энтони и Сэмом из Microsoft Semantic Machines.
В диалоге, ориентированном на задачу, пользователь взаимодействует с системой, которая обрабатывает запросы от пользовательских высказываний, как правило, в разговоре.
От окончания высказывания пользователя до ответа системы часто наблюдается заметная задержка.
Под капотом пользовательское высказывание переводится в исполняемую программу.
Который затем выполняется так, чтобы система могла реагировать должным образом.
Поскольку программа представлена в виде семантического графа, который описывает вычисления, где узел представляет вызов функции, а его потомки являются аргументами.
Большие узлы обозначают мгновенные операции, но другие выполняются медленно.
Простой пример, который мы показываем здесь, эти программы часто могут быть более сложными графами за пределами древовидных структур.
В этом докладе мы задаемся вопросом, можем ли мы начать генерировать программу и выполнять ее до того, как пользователь даже закончит высказывание, чтобы система могла быстрее реагировать?
Это проблема онлайн-прогнозирования и принятия решений.
Есть много других в этой сфере.
Примеры включают в себя синхронный перевод, когда живой переводчик переводит один язык на другой в режиме реального времени, автоматическое заполнение смарт-текста, чтобы угадать намерение пользователя, и Uber-пул, где водители отправляются туда, где они могут понадобиться, на основе прогнозируемого спроса.
Все эти сценарии имеют одну общую черту.
То есть, выгодно принимать решения, прежде чем увидеть все входные данные.
В нашем случае мы будем иметь дело с онлайн-семантическим разбором, который, как ожидается, будет сложным, поскольку мы должны угадать, что может сказать пользователь.
И он также недостаточно изучен без формальной оценочной метрики.
Рассмотрим, как работает обычная система.
Он работает в автономном режиме, анализируя программу только в конце высказывания пользователя.
Здесь символьный график предсказывается после просмотра всей информации.
Напротив, мы предлагаем онлайн-систему, которая сравнивается с каждым префиксом высказывания.
Например, каждый раз, когда мы видим новый токен, мы прогнозируем новый график.
Обратите внимание, что могут быть ошибки.
На позиции на вечеринке в бассейне с Бараком Обамой мы получили график с правильными узлами на человека и тему события, но угадайте неправильную информацию о времени.
Этот процесс продолжается до тех пор, пока мы не получим полное высказывание пользователя.
Как это повлияет на график выполнения в автономной системе?
Мы получим график программы в конце, чтобы система могла начать выполнение в этот момент.
Помните, что большие узлы - это быстрые операции, поэтому мы рассматриваем только временную шкалу выполнения цветных медленных функций.
Во-первых, эти две функции поиска могут выполняться параллельно, выделенные белым цветом из розового поля, поскольку они не зависят от других функций.
Затем событие создания узла может быть выполнено после получения результатов от узлов более низкого уровня, а затем верхняя функция дает результат, так что вся программа завершена.
Процесс выполнения является строгим, ограниченным структурой зависимостей программы, где некоторые операции не могут быть распараллелены, что вызывает заметную задержку.
В нашей онлайн-системе, где мы прогнозируем, как мы идем, выполнение программы может начаться раньше.
Здесь, в префиксе после Обамы, мы уверенно предсказываем, что функция поиска человека должна быть в программе, но остальные могут содержать ошибки, поскольку они серого цвета.
Выполнение узла может быть немедленно начато как шаг.
Затем, с большим количеством токенов, мы прогнозируем совершенно новый график, но часть его уже выполняется.
Таким образом, нам нужно рассмотреть только остальные узлы, в которых мы также уверены.
Здесь другой человек может быть казнен параллельно.
Опять же, у нас могут быть неправильные прогнозы.
С большим количеством текста у нас больше возможностей сделать это правильно.
Например, время события здесь, где AM также прогнозируется правильно.
Затем мы можем начать выполнять остальное, следуя структуре зависимостей программы.
Перекрывая временную шкалу выполнения с временной шкалой высказывания, мы экономим большое количество времени.
Поэтому мы предложили задачу онлайн-семантического разбора.
Одно из основных предположений заключается в том, что время выполнения преобладает над временем прогнозирования модели.
Таким образом, мы могли только выиграть время, предсказывая раньше.
Другое предположение заключается в том, что, поскольку прогнозирование и выполнение происходят в фоновом режиме, пользователи не видят его.
Нет необходимости вести последовательную историю синтаксического анализа.
Итак, мы пересматриваем с нуля после каждого токена.
В частности, мы предлагаем двухэтапный подход.
Предложенный шаг, который предсказывает граф с полной структурой и выбранным шагом, который выбирает узлы, которые стоит выполнить в это время.
У нас было два варианта предлагаемого метода.
Первый подход сочетает в себе завершение языковой модели с полным высказыванием для парсинга графа.
В частности, префикс после Обамы сначала завершается через доработанную языковую модель БАРТА, а затем переводится в программу с полным автономным парсером.
Второй подход напрямую предсказывает программу по префиксам пользовательского высказывания.
Это достигается путем обучения одного онлайн-парсера для перевода в целевой график из каждого префикса.
Это облегчает моделирование правильного предвосхищения.
Немного подробнее, как мы создаем эти графики?
Мы формулируем задачу, создавая последовательную версию графика.
Каждый узел или край представлен действием.
Начнем с первого узла.
Число ниже записывает абсолютный индекс в истории действий.
Затем мы получили второй узел.
Далее, это граница между ними.
Содержит указатель на индекс предыдущего узла и метку ребра.
Нуль здесь означает соединение самого последнего узла с узлом, генерируемым нулевым действием, и следующим узлом следующего ребра.
Этот процесс продолжается до тех пор, пока мы не создадим полный график.
Базовая модель основана на трансформаторе с механизмом самонаведения, аналогичным предыдущему парсеру на основе перехода.
После создания полного графа мы получили вероятности уровня действия, которые соответствуют различным частям графа.
Мы выбираем доверительные подграфы на основе пороговой эвристики, которая должна быть выполнена.
Позже мы изменим порог, чтобы достичь различных компромиссов между сокращением задержки и стоимостью выполнения.
Для формальной оценки онлайн-методов мы предлагаем окончательное сокращение задержки или метрику FLR.
Вот краткое описание того, как автономная система завершает график выполнения.
В онлайн-системах исполнение перекрывается с временной шкалой высказывания, поэтому оно заканчивается раньше.
FLR определяется как время сокращения по сравнению с автономной системой, отмеченное окончанием выполнения.
Мы проводим эксперименты на двух больших наборах данных разговорного семантического анализа, SMCalFlow и TreeDST.
Наш парсер на основе графов при работе в автономном режиме обеспечивает современную производительность при разборе обоих наборов данных.
Полная модель LM также обеспечивает нетривиальное усиление BLEU по сравнению с простой базовой линией завершения узла.
Теперь давайте посмотрим на точность предсказания нашего префикса для парсера графов.
Мы проверяем соответствие оценки F1 кортежей графа между поколением и графиком go в данных проверки по оси y для каждой длины префикса по оси x, представленной процентами.
Каждая из этих кривых представляет собой другую модель с единственной разницей в данных обучения.
Нижняя кривая - это автономный синтаксический анализатор, и мы смешиваем данные префиксов в разных длинах, чтобы перевести модель в онлайн-синтаксический анализатор.
Например, префикс «восемьдесят процентов плюс» означает, что модель обучена данным префикса с длиной префикса более восьмидесяти процентов от полной длины высказывания.
Верхний левый угол является желаемой областью.
Как мы видим, автономный парсер в черной кривой не очень хорошо справляется с данными префиксов.
Поскольку мы смешиваем больше префиксов в обучении, кривая поднимается вверх и влево, лучше работая на всех длинах префиксов.
Тем не менее, полная производительность синтаксического анализа высказываний не влияет на верхнюю правую точку.
Основываясь на этих сильных результатах, насколько мы уменьшаем латентность?
Мы измеряем время по количеству исходных токенов и моделируем различные времена выполнения функции.
Кривые показывают компромисс между метрикой FLR и стоимостью выполнения, измеряемой количеством чрезмерных затрат на функцию, которые не являются правильными.
Это достигается путем изменения порога выбора подграфа.
Более высокий порог выбирает меньше функций ошибки, но получает меньший FLR, тогда как более низкий порог более агрессивно выбирает и выполняет программы.
Мы сравниваем два подхода, которые мы предлагаем, и базовую линию, которая не делает ничего, кроме прямого применения автономного парсера для онлайн-использования.
Верхняя левая область имеет лучший FLR и компромисс по стоимости.
Мы видим, что оба наших метода превзошли базовую линию с большим отрывом, и они работают более аналогично на TreeDST.
В то время как выполнение отдельных функций происходит быстрее, как правило, выполняется больше запусков и уменьшается время ожидания.
Когда выполнение отдельных функций происходит медленнее, появляется больше возможностей для улучшения FLR.
Наши два подхода обеспечивают лучшую производительность в разных регионах затрат.
В целом, мы достигаем относительного сокращения задержки на тридцать-шестьдесят три процента в зависимости от времени выполнения и допустимой стоимости.
Наконец, у нас есть разбивка среднего сокращения задержки в токенах для каждого типа функционального узла, когда допустимая стоимость составляет три выполнения.
Как мы видим, выигрыш есть по всем направлениям.
Есть также некоторые функции, на которых мы получаем впечатляющее сокращение задержки, где красная полоса намного длиннее, например, менеджер поиска и получатель.
Это низкоуровневые функции, которые не имеют большой зависимости от других.
В заключение мы предложили онлайн-семантический разбор в качестве новой задачи для изучения с помощью строгой метрики сокращения задержки.
С сильным семантическим парсером на основе графов мы достигаем относительно хорошего сокращения задержки либо с помощью нашего конвейерного подхода с завершением LM и полным парсером, либо непосредственно через выученный парсер на префиксах.
Более того, наш подход может быть общим фреймворком и может быть применен к другим исполняемым семантическим представлениям в разных областях.
Будущие работы могут исследовать более умный метод прогнозирования и интеграции исполнения.
Спасибо, что выслушали.
Здравствуйте.
Я собираюсь обсудить нашу работу по созданию контрфактических дополнений к поиску для ответов на вопросы.
Это работа, проделанная во время моей стажировки в Google Research, где меня наставниками были Мэтью Ламм и Ян Тенни.
Чтобы мотивировать задачу, позвольте мне начать с определения контрфактического.
В этой работе мы определяем контрфактическое как возмущение входного текста, которое отличается каким-то значимым контролируемым образом от исходного текста.
И позволяет нам рассуждать об изменениях в результате или метке задачи.
Например, изменение слов, увлекательных для увлекательных или ожидаемых для ошеломляющих, меняет настроение для этого обзора фильма.
Аналогичным образом, добавление в вопрос квалификатора женщин меняет ответ на вопрос в приведенном ниже примере.
Люди, как правило, устойчивы к таким возмущениям по сравнению с моделями НЛП, обученными этой задаче.
Почему?
Набор данных может быть отобран с систематическими смещениями, которые приводят к простой границе принятия решений, которая нарушается контрфактически.
Как показано в этой 2D-задаче классификации.
Моя работа обнаружила, что добавление контрфактических примеров к обучающим данным может сделать модель устойчивой к таким возмущениям.
Итак, если контрфактические данные ценны, как мы можем их генерировать?
Эта задача особенно трудна для НЛП, потому что вот три примера из трех разных задач НЛП.
Как вы можете видеть, примеры, которые нарушают границу принятия решений между результатами, должны быть очень тщательно проработаны, нарушая некоторые атрибуты текста, которые подчеркнуты здесь.
Это может быть сделано аннотацией человека, но это дорого и предвзято.
Некоторые предыдущие работы были сосредоточены на использовании синтаксических деревьев или семантической разметки ролей.
Но набор возмущений, генерируемых этими методами, ограничен семантической структурой.
В более поздних работах использовались маскированные языковые модели для заполнения маскированных частей текста для изменения ярлыков.
Но найти, какие части текста беспокоить, может быть непросто.
Существует больше проблем с созданием контрфактических ответов на конкретные вопросы.
Эта задача требует базовых знаний.
Например, чтобы возмутить первоначальный вопрос, является ли «Храм судьбы Индианы Джонса» приквелом?
Мы должны быть в курсе других фильмов франшизы, чтобы ответить на вопрос, является ли «В поисках утраченного ковчега» Индианы Джонса приквелом?
Кроме того, случайные возмущения могут привести к вопросам, которые не отвечают имеющимися доказательствами или имеют ложные предпосылки.
Более того, некоторые возмущения вопроса могут привести к значительному семантическому отклонению от исходного ввода.
Например, Индиана Джонс практикует детское рабство в Храме Судьбы?
Мы предлагаем очень простой, но эффективный метод, называемый фильтром генерации извлечения или RGF, для решения контрфактических возмущений вопросов, а также для решения всех других вышеупомянутых проблем.
Основная интуиция RGF заключается в том, что необходимая справочная информация, необходимая для создания возмущений, может присутствовать в потенциально возможных промахах, сделанных моделью ответа на вопрос.
Например, современная модель дает следующие ответы на вопрос, кто является капитаном футбольного клуба «Ричмонд».
В то время как он действительно восстанавливает оригинальный эталонный отрывок и отвечает Тренту Котчину как самый лучший выбор.
Он также извлекает дополнительные отрывки и ответы, которые могут быть использованы для управления возмущением вопроса.
Например, он восстанавливает еще два ответа, соответствующие капитанам резервной команды и женской команде того же клуба, и это может привести к интересным правкам.
Подводя итог, RGF сначала извлекает верхние k наиболее релевантных ответов и контекстов, которые не соответствуют эталонному ответу в контексте.
Следуя этому шагу, модель генерации вопросов создает условия для этих альтернативных ответов, чтобы генерировать вопрос, который им соответствует.
И, наконец, мы можем отфильтровать сгенерированные вопросы на основе минимальности или на основе типа семантического возмущения, которое мы заинтересованы ввести.
Переходя к каждому шагу более подробно для поиска, мы используем извлечение, а затем читаем модель, такую как ОБЛАСТЬ, которая принимает в качестве входных данных исходный вопрос, и большой корпус, такой как Википедия.
Состоит из двух модулей.
Модуль ретривера выполняет поиск сходства по плотному индексу пассажей для извлечения верхних k наиболее релевантных пассажей к вопросу.
Затем модуль чтения извлекает промежуток из каждого отрывка в качестве потенциального ответа.
REALM извлекает золотой проход и отвечает в большинстве случаев.
Однако в этой работе нас больше интересуют ответы и контекст, которые она извлекает дальше по линии.
На следующем этапе, генерации вопросов, мы используем эти альтернативные ответы и контексты для регенерации новых вопросов, которые соответствуют этим альтернативам.
Модель генерации вопросов - это предварительно обученный преобразователь текста в текст, который тонко настраивается на данные NQ, чтобы генерировать вопрос для ответа, помеченного в контексте.
Во время вывода мы предоставляем модель генерации вопросов, альтернативный ответ и контекст, которые мы получили на предыдущем шаге.
Например, на вопрос, кто является капитаном футбольного клуба «Ричмонд»? REALM извлекает отрывки о женской команде клуба, капитаном которой является Джесс Кеннеди, а модель генерации вопросов генерирует вопрос, кто был капитаном первой в истории женской команды футбольного клуба Richmond?
Который имеет специфическое семантическое возмущение.
Аналогичным образом, мы также получаем запросы, например, кто был капитаном команды VFL Reserve в Ричмонде?
Кто победил Грэма в финале прошлого года?
Наконец, мы отфильтровываем подмножество сгенерированных запросов на основе некоторых желаемых характеристик.
Как мотивировано ранее, мы хотели бы убедиться, что новый вопрос по-прежнему семантически близок к оригиналу.
Для методов фильтрации, которые не требуют дополнительного контроля, мы просто сохраняем новые вопросы, которые имеют небольшое расстояние редактирования маркера от исходного вопроса.
Например, мы убираем вопрос, кто отрицал Грэма в гранд-финале в прошлом году?
Потому что он имеет большее расстояние редактирования от исходного вопроса.
В наших экспериментах мы демонстрируем, что эта простая эвристика может быть использована для дополнения и постановки в очередь обучающих данных.
Мы также экспериментируем со стратегией фильтрации, которая основана на типе семантического возмущения.
Для этого мы используем фреймворк декомпозиции запросов общего назначения под названием QED.
QED определяет две части вопроса, предикат и ссылку.
Ссылки - это существительные в вопросе, которые соответствуют сущностям в контексте.
Предикат - это, по сути, оставшаяся часть вопроса.
Например, мы можем разложить запрос о том, кто был капитаном первой женской команды Ричмонда, на две ссылки: женская команда футбольного клуба Ричмонда и предикат, который был капитаном X.
Модель, обученная на аннотациях ссылочных предикатов для NQ, дает нам декомпозицию этого вопроса.
Декомпозиция как исходного, так и сгенерированного вопроса на основе QED позволяет нам классифицировать наши сгенерированные контрфактические данные для оценки.
В частности, мы получаем две группы вопросов.
Те, которые претерпевают изменение ссылки при сохранении предикатов, и те, которые претерпевают изменение предиката и необязательно добавляют ссылки.
Например, кто был капитаном резервной команды Ричмонда VFL, является эталонным изменением?
Хотя, кто носит номер девять для клуба - это предикатное изменение.
Теперь мы оцениваем эффективность возмущений RGF при дополнении к обучающим данным.
Таким образом, чтобы эффективно оценить эффективность контрфактической аугментации, в частности, мы экспериментируем с двумя сильными базовыми линиями аугментации данных.
Первая базовая линия, называемая случайным ответом и генерацией вопросов, добавляет данные, которые не имеют никакого отношения к исходному вопросу.
То есть отрывки и ответы просто случайным образом взяты из Википедии.
Эта базовая линия в основном добавляет больше данных, которые выглядят как NQ.
Со вторым базовым золотым ответом и генерацией вопросов мы специально обновляем поисковую часть нашего метода.
Здесь альтернативные ответы просто выбираются из того же отрывка, который содержал золотой ответ.
Каким образом базовые линии и расширение RGF работают на понимании чтения, когда модель имеет доступ к вопросу и контексту?
Мы экспериментируем с шестью наборами данных из домена и представляем результаты здесь, где данные - это данные обучения, удваиваемые в увеличении.
Мы обнаружили, что обе базовые линии увеличения данных не способны улучшить обобщение нашей области.
Фактически, ансамбль из шести моделей, обученных на исходных данных, кажется наиболее конкурентоспособной базой.
Сравнивая с этой базовой линией, мы обнаруживаем, что контрфактические RGF способны улучшать производительность вне домена, сохраняя при этом производительность домена.
Это говорит о том, что заполнение пробелов в рассуждениях модели путем контрфактического увеличения является более эффективным, чем добавление большего количества данных из распределения обучения.
Кроме того, мы считаем, что использование поиска для выборки альтернативных результатов или ответов важно для эффективной CDA.
Мы также экспериментируем с настройкой QA в открытой области, где модель видит только вопрос, и еще раз мы оцениваем четыре набора данных из домена.
Мы обнаружили, что базовые модели не так эффективны для внедоменного обобщения.
Однако расширение данных с помощью RGF показывает более значительные улучшения.
Мы даже улучшаем набор данных NQ в домене.
Мы предположили, что контрфактическое увеличение данных помогает модели в изучении лучших кодировок запросов для очень похожих запросов.
Наконец, мы также оцениваем способность модели улучшать согласованность в локальной окрестности исходного вопроса.
Последовательность измеряет долю вопросов, на которые правильно отвечает модель, где правильные ответы даны как на оригинальный, так и на контрфактический запрос.
Это явно помогает нам измерить устойчивость модели к небольшим возмущениям в окрестности исходного входного сигнала.
Мы экспериментируем с пятью наборами данных, которые содержат пары вопросов, семантически близких друг к другу.
Помимо трех наборов данных AQA, AmbigQA и QUOREF-Contrast, которые уже доступны, мы также оцениваем контрфактические данные RGF, которые сочетаются с исходными вопросами NQ, на основе того, претерпели ли они изменение предиката или изменение ссылки.
Эти подмножества были аннотированы собственными силами для устранения шума и предоставляются в качестве ресурса.
Все базовые линии не могут значительно улучшить согласованность с моделью ансамбля, улучшая согласованность с небольшим отрывом.
Тем не менее, контрфактическое увеличение RGF имеет впечатляющие успехи в согласованности как на предыдущих наборах данных, так и на двух подмножествах, которые мы курировали для эталонных и предикатных возмущений.
Обратите внимание, что расширенные данные RGF не смещены по типу возмущения, только оценочные наборы.
Фактически, качественный осмотр видов созданных контрфактических данных показывает, что созданные вопросы содержат несколько разнообразных возмущений.
Например, этот оригинальный вопрос о населении Уолнат-Гроув, штат Миннесота, беспокоит в разных измерениях, таких как город, штат, страна, и в разных предикатах, таких как местоположение, бедность, количество школ.
Звук возмущений зависит от контекста.
Например, для этого другого вопроса о турнире Уимблдона в одиночном разряде возмущение происходит по типу игры, типу турнира или результату игры.
Заключительные выводы; мы решаем задачу увеличения контрфактических данных и возмущений для запросов на поиск информации и решаем ее уникальные проблемы путем изменения подхода к генерации, над генерацией с использованием почти ошибок модели и фильтра на основе типа возмущения или минимальности.
Мы обнаружили, что этот метод не требует дополнительного контроля, и примеры помечены для дополнения.
Увеличение улучшает обобщение доменов и согласованность окрестностей.
И мы обнаружили, что контрфактические RGF семантически разнообразны без введения предвзятости во время аугментации.
Спасибо.
