Здравствуйте! Меня зовут Елена. Я представлю вам нашу работу «[Обнаружение] неассимилированных заимствований в испанском языке: [аннотированный корпус] и подходы к [моделированию]».
Сегодня мы поговорим о том, что представляет собой [лексическое] заимствование, в чём заключается предложенная нами [задача], какой [набор данных] мы опубликовали и какие [модели] исследовали.
Но в первую очередь нам необходимо выяснить, что такое [лексическое] заимствование и какое значение оно имеет с точки зрения [NLP-задачи]?
[Лексическое] заимствование — это, по сути, усвоение [слова] одного [языка] другим.
Например, в испанском языке используются [слова], заимствованные из [английского].
Примерами служат такие [слова], как подкаст, ноутбук и [онлайн]-краудфандинг. Все эти [слова] имеют [английское происхождение], но иногда используются и в испанской речи.
[Лексическое] заимствование — это тип [лингвистического] заимствования, при котором [языковые] шаблоны одного языка воспроизводятся в другом [языке].
Заимствование и переключение кодов иногда [сравниваются] и описываются как единый процесс (переключение кода — это то, что делают билингвы, когда одновременно используют два [языка]).
Однако между [лексическим] заимствованием и переключением кодов существуют некоторые различия.
Мы сосредоточимся на [лексическом] заимствовании.
Если переключение кодов — это то, что делают билингвы (причем переключатели кодов по определению не интегрированы ни в один из используемых [языков]), то [лексическое] заимствование — это то, что также свойственно монолингвам.
Заимствованные слова подчиняются [грамматическим] нормам [языка]-реципиента.
Со временем они могут быть полностью усвоены [языком]-реципиентом.
Но чем же интересно заимствование?
С точки зрения [лингвистики] заимствование — это проявление эволюции [языков] и их взаимодействия.
Кроме того, [лексическое] заимствование является неисчерпаемым [источником] для появления новых [слов] в языке.
Здесь можно увидеть некоторые примеры [лексического] заимствований, усвоенных испанским [языком] в качестве новых [слов].
С точки зрения [NLP] заимствование является важным [источником] не[словарной] [лексики].
На самом деле [автоматическое] [обнаружение] [лексических] заимствований оказалось полезным [для] таких [второстепенных] [задач] [NLP], как [синтаксический анализ], преобразование [текста] в [речь] и [машинный перевод].
В настоящее время растет интерес к влиянию [английского] языка на другие, особенно с точки зрения [лексического] заимствования [англоязычных] слов и выражений, которые иногда называют англицизмами.
Здесь вы найдете некоторые примеры работы, посвященной [автоматическому] [обнаружению] заимствований в некоторых из таких [языков].
Мы поставили перед собой [задачу] по обнаружению неассимилированных [лексических] заимствований в испаноязычной [новостной ленте].
Другими словами, в испанских газетах мы [искали] [слова], которые были заимствованы из других [языков], но еще не были усвоены [языком]-реципиентом.
Это значит, они еще не интегрировались в испанский язык.
И вот вам пример.
Давайте рассмотрим следующее предложение на испанском языке: «Las prendas bestsellers se estampan con motivos florales, animal print o retales tipo patchwork».
Как вы видите, здесь присутствуют три [элемента] [текста], которые на самом деле являются [английскими] [словами]: бестселлер, анималистичный принт и пэчворк.
Это и есть тот тип [элементов], [извлечение] и [обнаружение] которых представляет для нас интерес.
[Ранее] уже проводилось [исследование] по [обнаружению] англицизмов, включавшее [CRF]-[модель] [для] [обнаружения] англицизмов в испаноязычной [новостной ленте].
Эта [модель] получила восемьдесят шесть баллов по шкале F1.
Однако в рамках исследования присутствовали ограничения, связанные как с [наборами данных], так и с [подходом] к [моделированию].
Другими словами, [набор данных] концентрировался лишь на одном [источнике] [новостей], состоящем из одних заголовков.
Кроме того, некоторые заимствования из [обучающего] и тестового набора пересекались.
Это не позволило адекватно оценить, способен ли этот [подход] к [моделированию] действительно [обобщить] [не замеченные] ранее заимствования.
В связи с этим в рамках нашей [задачи] мы хотели бы устранить некоторые указанные ограничения.
Для этого мы в первую очередь создали новый [набор данных].
Наша цель заключалась в том, чтобы создать новый [аннотированный] [набор данных] с [лексическими] заимствованиями, а также как можно более сложный тестовый набор.
Таким образом мы бы добились минимального пересечения [слов] и тем в [обучающем] и тестовом наборах.
В результате тестовый набор включал бы в себя источники и даты, отсутствующие в [обучающем] наборе.
Здесь можно убедиться в отсутствии пересечений по времени.
Кроме того, тестовый набор очень богат заимствованиями.
И чтобы дать вам некоторое представление в цифрах, позвольте отметить, что [обучающий] набор содержит шесть заимствований на тысячу [токенов], тогда как тестовый включает двадцать заимствований на тысячу [токенов].
Мы также постарались включить в тестовый набор как можно больше [словарных] [слов].
На самом деле девяносто два процента заимствований в тестовом наборе являлись [несловарными].
И следовательно, они не были замечены при [обучении].
А [корпус], по сути, представлял собой коллекцию [текстов], извлеченных из разных испаноязычных газетных источников.
[Аннотирование] производилось вручную с использованием двух тегов.
Один из этих тегов предназначался [для] [английских] [лексических] заимствований, которые представляют собой большинство [лексических] заимствований в испанском языке, а второй — [для] заимствований из других [языков].
Мы использовали форматы [CONLL] и [кодировку] [BIO], чтобы [обозначить] заимствования таких одинарных [токенов], как ноутбук, и таких многословных [токенов], как [машинное обучение].
И вот некоторые цифры по [корпусу].
Как вы видите, он включает в себя около трехсот семидесяти тысяч [токенов].
А здесь можно увидеть, [сколько] [элементов] [обозначено] как [английские] или прочие заимствования и сколько из них являются уникальными.
Кроме того, здесь приведена пара примеров из [набора данных].
В первом примере представлено выражение «батч-кукинг», которое является многословным заимствованием.
И мы его [аннотировали], используя [кодировку] [BIO].
То есть [BIO] использовалось [для] обозначения испанских, а не заимствованных [слов].
А здесь, во втором примере, мы видим слова «бенчинг» и «крэш», которые также [классифицированы] как заимствования из [английского] языка.
Так вот, как только у нас появился этот [набор данных], мы исследовали несколько [моделей] [для] выполнения [задачи] по [извлечению] и [обнаружению] этих [лексических] заимствований.
Первой испытанной нами [моделью] стало условное случайное поле.
Эта [модель] также использовалась в [предыдущей] работе.
Кроме того, мы применили те же специально разработанные [функции].
Эти [функции] можно увидеть здесь.
Такие [двоичные] [функции], как [слово] или [токен], обозначают верхний регистр?
Это заглавная буква?
Это кавычки?
Вещи такого рода являются разновидностью [функций], которые вы ожидаете увидеть в [задачах] по [выделению именованных сущностей].
И вот результаты, которые мы получили.
Мы набрали пятьдесят пять баллов по шкале F1, используя [модель] [CRF] со специальными [функциями].
Это огромная разница, если [сравнить] с озвученным ранее результатом по шкале F1 в восемьдесят шесть баллов, который был получен с помощью той же [модели] [CRF] и тех же [функций], но с применением другого [набора данных] [для] [обнаружения] [лексических] заимствований в испанском языке.
Таким образом, мы доказали, что созданный нами [набор данных] является более сложным и что для решения подобных [задач] следует применять более сложные [модели].
Итак, мы протестировали две [трансформерные] [модели]:
[BETO], то есть [одноязычную] [модель BERT], обученную [испанскому] языку, а также [многоязычную BERT].
Обе [модели] были применены к [транформерной] библиотеке HuggingFace.
И вот результаты, которые мы получили.
Как вы видите, [многоязычный BERT] оказался эффективнее [BETO] по всем [показателям] как на наборе разработки, так и на тестовом наборе.
Для простоты сравнения стоит отметить, что [модель] [CRF] набрала восемьдесят два балла.
[Модель] [CRF] по шкале F1 набрала пятьдесят пять баллов, тогда как [многоязычный БЕРТ] — восемьдесят два, и это ощутимая разница.
Получив эти результаты, мы задались новым [вопросом]: нельзя ли найти [модель] [BiLSTM-CRF] и [ввести] в нее [встраивания] различных типов для [кодировки] всевозможной [лингвистической] [информации], чтобы превзойти результаты, полученные [трансформерными] [моделями]?
Чтобы ответить на этот вопрос, мы провели предварительные эксперименты, применяя [модель] [BiLSTM-CRF] к библиотеке Flare.
В ходе исследования мы применили различные методы [встраивания], включая [трансформерное], а также FastText, [встраивание] символов и так далее.
Как оказалось, [трансформерное] [встраивание] эффективнее не[контекстуализированного], а комбинированное [встраивание] [английского] [BERT] и испанского [BETO] превосходит [многоязычные BERT].
Кроме того, [встраивание] [BPE] позволяет получить более высокий результат по шкале F1, а [встраивание] символов производит лучшую выборку.
С учетом всего этого данные результаты оказались лучшими.
Обе [модели] [BiLSTM-CRF] были применены к библиотеке Flair.
В одну из них были введены [внедрения] [BETO], [BERT] и [BPE], а в другую — [BETO], [BERT], [BPE] и [внедренные] символы.
Последняя набрала более высокий балл по шкале F1 на тестовом наборе, однако самый высокий балл на наборе разработки был получен моделью, где не использовалось [внедрение] символов.
Просто примите к сведению, что лучшим результатом, полученным с [многоязычной BERT], стали семьдесят шесть баллов по шкале F1 на наборе разработки и восемьдесят два балла — на тестовом наборе.
Это заметное улучшение [по сравнению] с другими результатами.
И наконец, мы задали себе еще один [вопрос]: может ли [обнаружение] [лексических] заимствований быть сконструировано как [обучение переносу] из [какого-либо языка] при переключении кодов?
В связи с этим мы запустили ту же [модель] [BiLSTM-CRF], которую применяли к Flare, но вместо неадаптированных [трансформерных] [BETO] и [BERT] мы применили [встраивание] переключения кодов.
Что такое [встраивание] переключения кодов?
Это тонкая настройка [трансформенных] [моделей], которые были [предварительно обучены] [идентификации языка] в испанско-[английском] разделе [набора данных] переключателя кодов [LinCE].
[LinCE] — это [набор данных] по переключению кодов, содержащий раздел по переключению кодов с испанского на [английский] язык.
Таким образом, мы пропустили через [BiLSTM-CRF] [внедренные] переключатели кодов, некоторые символы, [BPE] и так далее.
Лучшим полученным результатом стали 84,22 балла, и это самый высокий показатель среди всех [моделей], опробованных с тестовым набором.
Однако лучший результат по шкале F1, полученный с набором разработки и составивший семьдесят девять баллов, оказался ниже, чем лучший результат, полученный с [BiLSTM-CRF] на неадаптированных [внедрениях].
Какие выводы можно сделать из проведенной работы?
Нам удалось создать новый [набор данных] из испаноязычной [новостной ленты], [аннотированный] неассимилированными [лексическими] заимствованиями.
Этот [набор данных] является более насыщенным и богатым [несловарными] заимствованиями [ресурсом], чем все [предыдущие] версии.
Мы изучили четыре типа [моделей] [для] [обнаружения] [лексического] заимствования.
Так вот, [анализ] ошибок показал, что отклик является слабым звеном [у] всех [моделей].
Отсюда нетрудно заметить, что некоторые ложноотрицательные результаты часто включают, к примеру, заимствования в верхнем регистре тех [слов], которые существуют как в [английском], так и в испанском языке.
Также интерес представляет тот факт, что [BPE]-[внедрение], по всей видимости, улучшает результат по шкале F1.
Кроме того, [внедрение] символов также может улучшить отклик.
Это весьма интересная находка, которая может оказаться полезной в дальнейших исследованиях.
Что ж, это все, что я хотела сказать.
Огромное спасибо за внимание.
Меня зовут Антуан.
Я аспирант Массачусетского университета в Амхерсте.
Я хочу представить вам [работу] «[KinyaBERT] — эффективная [морфологическая] [модель] для языка киньяруанда».
Сначала я расскажу о мотивах этого [исследования].
Затем представлю в деталях архитектуру [модели] [KinyaBERT].
После этого я расскажу о результатах наших экспериментов и завершу доклад, озвучив некоторые из полученных выводов.
Всем нам известно, что недавние достижения в области [обработки естественного языка] стали возможными благодаря использованию таких [предварительно обученных языковых] [моделей], как [BERT].
Тем не менее, мы все еще сталкиваемся с целым [рядом] ограничений.
Из-за сложной [структуры], свойственной большинству [морфологически] богатых [языков], повсеместно используемый [алгоритм] [токенизированной] [кодировки пар байтов], который я часто использовал, неспособен извлечь точные [подсловные] [лексические] единицы, [то есть] [морфемы], необходимые [для] эффективного [представления].
Например, в языке киньяруанда существуют три [слова], содержащие несколько [морфем], которые [BPE]-[алгоритмы] неспособны извлечь.
Это связано с тем, что некоторые правила [морфологии] приводят к созданию различных поверхностных форм, скрывающих точную [лексическую] [информацию], и [BPE], основанная исключительно на поверхностных формах, не имеет доступа к этой [лексической] [модели].
Вторая проблема заключается в том, что даже при наличии доступа к [морфологическому анализатору] [Oracle] замены [токенов] [BPE] на [морфемы] недостаточно для выражения [морфологической] [композиционности].
Третьим пробелом в [исследованиях] является то, что новые [предварительно обученные языковые] [модели] чаще всего оцениваются с точки зрения широко используемых [языков].
Однако их необходимо примеривать и к широкому спектру [малоресурсных языков].
[По этой причине] мы хотим представить [KinyaBERT] — простую, но эффективную адаптацию архитектуры [BERT], предназначенную для более эффективной обработки [морфологически] богатых [языков].
Мы оцениваем [KinyaBERT] с точки зрения [малоресурсного], но [морфологически] богатого [языка] киньяруанда, на котором [говорят] более двенадцати миллионов жителей восточной и центральной Африки.
В эту [модель] вводится [предложение] или [документ].
К примеру, рассмотрим предложение: «John twarahamubonye biradutangaza». Его перевод звучит так: «Мы удивились, увидев там Джона».
Как можно заметить, [слова] на языке киньяруанда могут содержать несколько [морфем], несущих в себе различную [информацию].
[Таким образом], с помощью нашей [модели] мы передаем это [предложение] или [документ] [морфологическому анализатору],
который затем генерирует [морфемы], содержащиеся в каждом [слове].
Как правило, [морфемы] состоят из основы и одного или нескольких аффиксов.
Эти аффиксы могут указывать на время, какой-то [аспект], субъект или объект [глагола] и чаще всего привязаны к субъектам или объектам, выраженным [существительными] на языке банту.
[Морфологический анализатор] также выводит тег части [речи] [для] каждого из этих [слов].
Выполнив этот шаг, мы производим [внедрение] тегов [для] частей [речи],
а также [внедрение] аффиксов
и [внедрение] основы.
Это [морфологический] уровень, то есть [морфологический] уровень [внедрения].
Далее мы передаем эти [внедрения] в [морфологический] [кодировщик] — небольшой [кодировщик-трансформер], применяемый по отдельности к каждому [слову].
В результате мы получаем [вектора], [контекстуализированные] [морфологической] [информацией] каждого [слова].
После этого мы производим композицию с объединением [морфологических] [внедрений] с [соответствующими] частями [речи] и основами.
Далее мы производим их дальнейшее объединение с другими [внедренными] основами на уровне [предложений].
Затем мы [вводим] [предложение] или [документ] в основной [кодировщик].
В конечном итоге мы получаем [контекстуализированное] [внедрение], которое можно использовать [для] [подчиненных] [NLP]-[задач].
[В] [морфологическом анализаторе] мы применяем двухуровневые [морфологические] принципы с индивидуально настроенной реализацией, адаптированной к [языку] киньяруанда.
Мы эффективно [моделируем] [морфологию] всех [слов] языка киньяруанда, включая глаголы, [существительные], указательные и притяжательные [местоимения], числительные и т. п.
Мы используем [безнадзорный] [алгоритм] [маркировки] частей [речи].
Факторная [модель] первого уровня используется для оценки морфологической [вероятности], то есть вероятности, назначаемой [морфологическим анализатором].
Кроме того, мы учитываем приоритетность маркеров частей [речи], а также [синтаксическую] согласованность [вводимых] [слов].
[Маркировщик] частей [речи] использует [двунаправленный] [вывод], улучшающий результаты наиболее часто используемого [для] [декодирования] [алгоритма] Витерби.
И я бы хотел здесь сделать несколько замечаний, касающихся [позиционного кодирования].
Во-первых, [морфологический] [кодировщик] не использует [позиционное кодирование].
Это связано с тем, что каждая [морфема] занимает уже известную позицию в [морфологической] [модели].
[Следовательно], позиционная [информация] уже внедрена в тех случаях, когда предоставлены [морфемы].
Во-вторых, [кодировщик] [предложений] использует так называемое несвязанное относительно-позиционное [внедрение]. Эта тема была освещена в недавно опубликованных материалах конференции [ICLR].
Это позиционное [внедрение], по сути, распутывает клубок позиционных [корреляций] от [токена] к [токену], уделяя их [вычислению] особое [внимание].
[Как и в] модели [BERT], мы преследуем цель по [предварительному обучению] [замаскированной языковой модели].
По сути, мы хотим научиться предсказывать основы и аффиксы, связанные со [словами].
При [предварительном обучении] [предсказанию] используется пятнадцать процентов всех [слов], восемьдесят процентов которых замаскировано, десять процентов заменено на случайные [слова], а остальные десять процентов остались без изменений.
[При] [предсказании] аффиксов мы сталкиваемся с [проблемой] многозначной [классификации].
Чтобы решить эту проблему, мы либо группируем аффиксы в фиксированное [число] множеств и предсказываем метки для каждого множества как для класса,
либо предсказываем [вектор] вероятности аффикса.
В наших экспериментах мы оцениваем оба подхода.
И мы предварительно обучаем [KinyaBERT] примерно на двух с половиной гигабайтах [текста] на языке киньяруанда и сравниваем его с тремя базовыми [моделями].
Одной из этих [моделей] является [многоязычная] [XLM]-R, обученная с помощью [обширного] [корпуса] [текстов], включающего в себя несколько [языков].
Две другие [базовые модели] [предварительно обучены] на одном и том же киньяруандском [тексте] с использованием либо [алгоритма] [кодировки пар байтов], либо [морфологического анализа] без двухуровневой архитектуры [трансформерного кодировщика].
Все [модели] настроены на базовую архитектуру, включающую от ста до ста десяти миллионов параметров, причем [KinyaBERT] для языка киньяруанда использует наименьшее [число] параметров.
Все [модели], кроме [многоязычных], [предварительно обучены] [для] распознавания тридцати двух тысяч [градиентных] обновлений с двумя тысячами пятьюстами шестьюдесятью [последовательностями] в каждой серии.
Мы оцениваем [предварительно обученные] [модели] по трем наборам [задач].
Одним из них является эталон [GLUE], который часто используется [для] оценки эффективности [предварительно обученных языковых] [моделей].
Мы получаем [данные] по эталону [GLUE], переводя исходные эталонные [данные] на язык киньяруанда с помощью Google Переводчика.
Второй [задачей] является получение эталона по [выделению именованных сущностей] на языке киньяруанда, представляющего собой [набор данных] высокого [качества] и [аннотированного] обученными носителями языка.
Третья [задача] — это категоризация [новостей], в ходе которой мы извлекаем [новостные] статьи с нескольких веб-сайтов, собираем назначенные авторами категоризационные теги, после чего, опять же, пытаемся предсказать те же самые категории.
А теперь перейдем к результатам.
[В том, что касается] эталона [GLUE], мы обнаружили, что [KinyaBERT] стабильно и неизменно превосходит базовые [модели].
Здесь можно увидеть среднюю производительность [по] десяти прогонам [тонкой настройки].
Мы также проводим [пользовательскую] [оценку] [переводов], выполненных с помощью Google Переводчика.
В ходе эксперимента [пользователь] [оценивал] [качество] [переводов] около шести тысяч примеров, присваивая им баллы по шкале от одного до четырех.
В результате многие [переводы] оказались «шумными».
Тем не менее, всем нашим [моделям] пришлось иметь дело с одними и тем же [переводческими] «шумами», поэтому мы считаем, что также важно сравнивать [модели] по эффективности.
Решая [задачу] по [выделению именованных сущностей], мы обнаружили, что [KinyaBERT] наиболее эффективен при [регрессивном] вариантном распределении аффиксов.
Эти результаты являются средним значением, полученным после десяти прогонов [тонкой настройки].
При выполнении [задачи] по категоризации [новостей] мы получили смешанные результаты.
[Предыдущая] работа по [классификации текста] [на] языке киньяруанда показала, что простого [обнаружения] ключевых слов чаще всего достаточно [для] решения этой конкретной [задачи].
[Следовательно], использование [предварительно обученных языковых][моделей] приносит меньше пользы
при решении данной конкретной [задачи] по категоризации [новостей].
Мы также провели [абляционное] исследование с целью обнаружения альтернативных структур, которые бы позволили нам повысить эффективность.
[Для] эталона [GLUE] обнаружено, что применение наборов аффиксов всегда более эффективно, тогда как [регрессивное] предсказание вероятности аффиксов дает лучшие результаты при [выделении именованных сущностей].
Кроме того, низкие результаты [при] [тонкой настройке] позволяют понять, что [KinyaBERT] в большинстве случаев показывает большую конвергентность.
В заключение стоит отметить, что эта работа продемонстрировала эффективность непосредственного использования [морфологической] [информации] в [предварительно обученных языковых] [моделях].
Предлагаемая двухуровневая архитектура [трансформера-кодировщика] позволяет уловить [морфологическую] сложность и [морфологическую] [композиционность], которые являются важным [аспектом] [морфологически] богатых [языков].
Полученные результаты должны подтолкнуть нас к дальнейшей [разработке] [морфологически] грамотных [предварительно обученных языковых] [моделей].
Здравствуйте! Меня зовут Михал Петрушка. Я бы хотел представить [работу] «Разрежающие [трансформерные] [модели] и обучаемость объединению [представлений]».
Исследование выполнено с помощью [AI] Applica при сотрудничестве с Лукашем Борхманном и Лукашем Гарнчареком.
Для начала озвучу проблемы, над которыми мы работали.
Наш [метод] хорошо работает [в] случаях, когда речь идет о «длинных» вводах.
То есть, грубо говоря, он предназначен [для] целевых [задач] с [вводом] более двух тысяч [токенов], где выход короче представленных входов.
Это имеет некоторое специфическое применение в [NLP].
К примеру, представим себе, что при работе с длинным [документом] необходимо его обобщить, классифицировать, [ответить] на [вопрос] о нем и извлечь из него [информацию] или ключевые фразы.
Позвольте напомнить вам о [трансформере] Vanilla, а также о его (и соответственно, нашей) проблеме сложности внимания, зависящей от квадратичности линии [входа].
В [трансформере] Vanilla с полной связностью [внимания] необходимо рассчитать [отношения] каждого [токена] с каждым другим [токеном].
[Вычислительная] сложность [внимания] зависит от [количества] слоев l, длины [последовательности] n, длины другой [последовательности] и размерности [представлений].
То же самое наблюдается и в случае перекрестного [внимания] [декодера] (обратите внимание на этот рисунок справа). Единственное различие заключается в том, что [целевые] [токены] в данном случае обращаются к [входным] [токенам].
Это можно увидеть и в этой формуле.
[Рейтинг BLEU] представляет [отношения], которые следует рассчитать.
В случае полного [внимания] мы должны вычислить все [отношения] во [вводимой] [последовательности].
Теперь мы видим, что происходит при работе [кодировщика] Blockwise, ограничивающего взаимодействие [токенов], чтобы они имели доступ лишь к близлежащим [токенам].
Чтение [текста] кусками способно резко уменьшить [число] вычислений со стороны [кодировщика], но не улучшает его перекрестное [внимание], поскольку каждый [вводимый] [токен] в любом случае передается [кодировщику].
Этот [метод] часто упоминается как слияние в [декодере].
В качестве улучшения здесь можно рассматривать замену одной из [зависимостей] n на другую константу m, представляющую размер блока.
Наш основной вывод заключается в том, что большинство [токенов] не играют особой роли в широком спектре [задач] и потому могут быть почти полностью проигнорированы. Это можно увидеть на слайде.
На входе значение имеет лишь то, что влияет на желаемый результат.
И вот вам пример.
Можно читать статью, выделяя по ходу маркером наиболее важные части, а затем составить краткий отчет на основе лишь этой части на среднем этапе.
Таким образом, затраты при выделении и принятии решений о том, является ли текущий [токен] необходимым для составления этой сводки, очень невелики и зависят только от [представления] [токена].
Объединение выделенных [токенов] также возможно.
Благодаря нашему оператору Top-K эти затраты ничтожно малы.
Затраты на подготовку сводки на основе короткого [входа] также намного ниже, чем при использовании [модели] Vanilla при рассмотрении всех [входных данных].
Но вот в чем вопрос.
Как выбрать важные [токены] и распространить градиенты в обратном направлении по отношению к этой выборке?
Серьезная фундаментальная [проблема], которую мы решаем, заключается в [создании] обучаемого механизма отбора.
Этот механизм позволил бы обратно распространять [градиенты] при [обучении], чтобы сеть училась выбирать самые важные [токены].
Причем более точно.
И если учесть, что некоторые выделенные [внедрения] получены из простого [линейного] слоя, то [задача] теперь состоит в том, чтобы получить по [внедрениям] самый высокий результат. В первую очередь [последовательность] перекраивается, а пары составляются так, чтобы [вектор] с высоким результатом группировался с тем, что имеет более низкий рейтинг.
После этого [вес] рассчитывается путем применения продвинутого [софтмакса] к рейтингам.
По завершении каждого раунда новые [векторы] и рейтинги составляются в виде [линейной] комбинации этих пар с полученными значениями [веса].
Короче говоря, мы объединяем их линейно, применяя [софтмакс] к их рейтингам.
При объединении двух [токенов] может производиться некоторый «шум».
Но это также позволяет распространить градиенты на все [входные] [внедрения].
Короче говоря, обучаемый Top-K, который мы [предлагаем], основан на проведении таких туров, как мягкий отбор на каждом шагу.
А если посмотреть с другой точки зрения, то объединение [представлений] осуществляется после формирования слоев [кодировщика].
То есть сначала оценивается каждое [представление], а затем — только те, которые получили самые высокие рейтинги и перешли в следующий слой.
[Кодирование] может осуществляться, как в стандартной архитектуре [трансформера] при полноразмерном [входе].
Однако [текст] можно обрабатывать блоками фиксированной длины, а на глобальном уровне выбирать лучшие [представления].
Вот пример объединения [представлений], выданных после [кодирования].
Оно напрямую повлияло на причину перекрестного [внимания], зависящего не от [входной] длины N, а от константы K, представляющей объединенную длину.
Эта константа сообщает, сколько [представлений] выбрано и передано [декодировщику].
Составление сводки из более короткого [текста] обходится гораздо дешевле, чем [предыдущее] решение.
Это связано с тем, что длина [последовательности] может быть значительно сокращена.
Например, мы успешно применяли в наших экспериментах значение K, которое было в шестнадцать или в даже шестьдесят четыре раза ниже, чем значение N.
Обратите внимание, что благотворное влияние [кодирования] посредством Blockwise и само[внимания] довольно стабильно.
Также не следует забывать, что [вычислительные] затраты [внимания] зависят от квадрата длины [входа].
Раннее сокращение [входа] в процессе [кодирования] может значительно снизить затраты.
[Для] [модели] Pyramidion мы сузили размер [представления] на выходе каждого выбранного слоя, что привело к геометрическому уменьшению [вычислительных] затрат в процессе [кодирования].
Как вы видите, общие [вычислительные] затраты при полном [кодировании] менее чем в два раза превышают затраты при использовании полноразмерного первого слоя.
При более раннем объединении сумма всех фиолетовых квадратов, таким образом, ограничивается константой, не зависящей от [числа] слоев l.
Но на константу C может влиять размещение объединенных слоев в сети.
Наши усовершенствования оценивались по длинным входам из восьми тысяч [токенов].
На рисунке заметно, что при объединении достигается лучшая масштабируемость глубины сети.
Здесь стоит отметить, что [обучение] двадцатичетырехслойной модели Pyramidion может обходиться дешевле, чем [обучение] двухслойного [трансформера] Vanilla с длинными входами.
Не говоря уже о том, как быстро [трансформер] Vanilla расходует память при таком длинном [входе].
[Качественное] сравнение тренда Pyramidion с другой базовой линией осуществлялось при выполнении [задачи] по [обобщению] длинного [документа] с целью составления краткого обзора статьи из arXiv или [PubMed].
Таким образом, Blockwise, который является нашей базовой линией, работает не хуже ультрасовременных [моделей], тогда как Pyramidion сохраняет или улучшает эффективность этой конкурентной базовой модели.
В то же время наша [модель] обучается на восемьдесят процентов быстрее и более чем на четыреста пятьдесят процентов скорее выдает результат, [чем] базовый Blockwise.
Обе [модели] имеют гораздо более низкое число [параметров] и были обучены с нуля на выбранных [задачах].
[Прежние] подходы к достижению [аналогичной] производительности предусматривали использование большего числа параметров, а также [предварительно обученных] фундаментальных [моделей] и дополнительных целей по [предварительному обучению] языкам.
Приглашаем вас ознакомиться с полным текстом нашей [работы] и воспользоваться кодом в GitHub.
Спасибо за внимание.
Здравствуйте! Я Цзявэй Чжоу из Гарвардского университета.
Я очень рад возможности представить нашу работу «[Семантико-синтаксический онлайн-анализ] [для] уменьшения задержек в [целенаправленном] [диалоге]».
Эта работа стала результатом сотрудничества с Джейсоном, Майклом, Энтони и Сэмом из Microsoft [Semantic] Machines.
В ходе [целенаправленного] [диалога] [пользователь] взаимодействует с [системой], обрабатывающей запросы с [высказываниями] [пользователя], как правило, в устной форме.
Между моментом завершения [высказывания] [пользователем] и ответом [системы] обычно происходит заметная задержка.
В это самое время, так сказать, «за кулисами» [высказывание] [пользователя] преобразуется в исполняемую программу.
И она затем выполняется так, чтобы вызвать должный ответ [системы].
Программа представлена в виде [семантического] [графа], схематически отражающего [вычисления], узлы в котором представляют собой вызов функции, а дочерние модули — аргументы.
При этом большие [узлы] обозначают мгновенные операции, тогда как другие выполняются медленно.
В простом примере, представленном здесь, можно заметить, что эти программы часто представляют собой более сложные [графы] за пределами древовидных структур.
И сегодня мы бы хотели задать [вопрос]: «Нельзя ли начать [создавать] программу и выполнять ее еще до того, как [пользователь] закончит [высказывание], чтобы добиться более быстрого ответа [системы]?»
Это [проблема] [онлайн]-[прогнозирования] и принятия решений.
В мире уже существует немало подобных решений.
Взять хотя бы процесс [синхронного] [перевода], в ходе которого профессиональный синхронист переводит речь с одного [языка] на другой в режиме реального времени, автозавершение [текста] смартфоном в попытке угадать намерения [пользователя] или функцию в приложении Uber, отправляющую водителей в те районы, где ожидается повышенный спрос на услуги.
Что же объединяет все эти сценарии?
То, что нам выгоднее принимать решения еще до того, как будут получены все [исходные данные].
В нашем же случае речь идет о [семантико-синтаксическом онлайн-анализе], который, как ожидается, является более сложной проблемой, поскольку мы должны угадать, что скажет [пользователь].
Эта проблема еще очень слабо изучена и не имеет официальных [оценочных] метрик.
Давайте в первую очередь поговорим о том, как работает обычная [система].
Так вот, она работает в автономном режиме, передавая программе данные для [анализа] только после того, как [пользователь] сделал [высказывание].
В данном случае символы [графа] прогнозируются лишь после ознакомления со всей [информацией].
Мы же, напротив, предлагаем [онлайн]-[систему], которая будет производить сравнение после каждого [высказанного] префикса.
[К примеру], всякий раз при виде нового [токена] мы предсказываем новый [граф].
Однако стоит отметить, что система может и ошибаться.
Оказавшись в точке «на вечеринке у бассейна с Бараком Обамой», мы получаем [граф] с правильными [узлами], указывающими на имя человека и [событие], но ошибаемся со временем.
Этот процесс продолжится до тех пор, пока мы не получим полное [высказывание] от [пользователя].
Как это влияет на график выполнения в автономной [системе]?
Мы получаем [графическую] программу в самом конце, после чего [система] начинает ее выполнять.
Не следует забывать, что большие [узлы] — это быстрые операции, поэтому мы рассматриваем только срок выполнения медленных цветных функций.
Во-первых, эти две функции по поиску человека могут выполняться [параллельно], и они выделены белым цветом в розовом поле, поскольку не [зависят] от других функций.
После получения результатов от [узлов] более низкого уровня может быть выполнен узел по созданию [события]. Затем верхняя функция выдаст свой результат, что приведет к исполнению всей программы.
Процесс выполнения очень строг и ограничен [структурной] программной [зависимостью], при которой некоторые операции не могут быть распараллелены, что вызывает значительную задержку.
В нашей [онлайн]-[системе], предсказывающей на ходу, выполнение программы может начаться и раньше.
Здесь, в префиксе после Обамы, мы уверенно предсказываем, что функция поиска человека должна быть в программе, но остальные могут содержать ошибки, поскольку окрашены в серый цвет.
Выполнение узла может начаться немедленно в качестве отдельного шага.
Затем, по мере получения большего количества [токенов], мы предсказываем совершенно новый [граф], но часть его уже выполняется.
Таким образом, нам нужно лишь рассмотреть остальные [узлы], в которых мы также уверены.
А здесь [параллельно] может выполняться другая программа по поиску человека.
Опять же, мы можем ошибиться в прогнозах.
Но получив больше [текста], мы можем увеличить вероятность угадать всё правильно.
Например, здесь где мы правильно предсказали, что [событие] произойдет до полудня.
Затем мы можем приступить к выполнению остальных шагов в [зависимости] от [структуры] программы.
Накладывая срок исполнения на временной график [высказывания], мы экономим немало времени.
По этой причине мы и поставили перед собой [задачу] [семантико-синтаксического онлайн-анализа].
Одно из базовых предположений заключается в том, что время выполнения доминирует над временем [предсказания] [модели].
То есть мы выиграем время, только если сможем предсказать раньше.
Другое предположение заключается в том, что, поскольку [предсказание] и выполнение происходят в фоновом режиме, этот процесс незаметен для пользователя.
Это значит, что нам незачем держаться за последовательную историю [синтаксического анализа].
Именно поэтому мы повторно проводим анализ с нуля после каждого [токена].
В частности, мы [предлагаем] двухэтапный [подход].
Он состоит из предложенного шага по предсказанию [графа] с полной [структурой] и шага по выбору [узлов], которые стоит выполнить в данный момент.
У нас есть два варианта предлагаемого [метода].
Первый [подход] сочетает в себя заполнение [языковой модели] от получения полного [высказывания] до составления [графа] [синтаксического анализа].
В частности, префикс после Обамы сначала заполняется через [языковую модель тонкой настройки] [BART], после чего переводится в программу с полностью автономным [синтаксическим анализатором].
Второй [подход] напрямую предсказывает программу после [произнесения] [пользователем] префикса.
Это достигается посредством [обучения] одного [синтаксического онлайн-анализатора] для перевода в цель [графа] по каждому префиксу.
Это облегчает задачу [модели] по выдаче верных прогнозов.
Теперь подробнее расскажем о том, как создавать эти [графы].
Мы формулируем [проблему], [генерируя] последовательную версию [графа].
Каждый узел или ребро представлены каким-либо действием.
Мы начинаем с первого узла.
Указанное ниже [число] выражает абсолютный показатель в истории действий.
Затем мы получаем второй узел.
Далее между ними проходит ребро.
На нем имеется стрелка, указывающая на показатель [предыдущего] узла, и метка ребра.
Нуль здесь означает связь самого последнего узла с узлом, [сгенерированным] нулевым действием, и следующим узлом на следующем ребре.
Этот процесс продолжится до тех пор, пока мы не создадим полный [граф].
Базовая [модель] основана на [трансформере] с механизмом самонаведения, во многом [напоминающем] [предыдущий] [синтаксический анализатор], основанный на переходах.
[Сгенерировав] полный [граф], мы получаем вероятности уровней действий, соответствующие различным частям [графа].
Мы выбираем надежные подграфы на основе [эвристического] порога, который должен быть выполнен.
Позже мы изменим порог, чтобы добиться различных компромиссов между сокращением задержки и затратами на выполнение.
[В качестве] формального критерия [оценки] [онлайн]-[методов] мы [предлагаем] окончательное сокращение задержки или [FLR]-метрику.
Вот краткое описание того, как автономная [система] завершает срок выполнения.
В [онлайн]-[системах] срок выполнения перекрывается сроком [высказывания] и потому завершается раньше.
[FLR] определяется как время сокращения [по сравнению] с автономной [системой], обозначенное к концу выполнения.
В данный момент мы экспериментируем с двумя [крупными] [разговорными] [наборами данных] для [семантического анализа] — [SMCalFlow] и [TreeDST].
Наш [графический] [синтаксический анализатор] при работе в автономном режиме [показал] высочайшую производительность при [синтаксическом анализе] обоих [наборов данных].
Полная [модель] LM также [добивается] заметного повышения рейтинга [BLEU] [по сравнению] с простой базовой линией по завершению узлов.
Теперь оценим точность [предсказания] префиксов нашим [графическим] [синтаксическим анализатором].
Мы оцениваем соответствие рейтингов F1 n-мерных [графов] при [генерировании] и составлении [графов] по контрольным [данным] на оси y и [по] каждой длине префикса на оси x, представленных в виде процентов.
Каждая из этих кривых представляет разную [модель] с единственной разницей в [обучающих данных].
Нижняя кривая представляет автономный [синтаксический анализатор]. К ней мы добавляем [данные] о префиксах разной длины, чтобы преобразовать [модель] в [синтаксический онлайн-анализатор].
К примеру, префикс-легенда 80+ означает, что [модель] обучена с помощью [данных] префикса, длина которого составляет более восьмидесяти процентов от полной длины [высказывания].
Верхний левый угол — это желаемая область.
Как мы видим, автономный [синтаксический анализатор], обозначенный черной кривой, не очень хорошо работает с [данными] префикса.
По мере добавления новых префиксов при [обучении] кривая поднимается левее и выше, где анализатор лучше справляется с префиксами любой длины.
Однако эффективность [синтаксического анализа] полных [высказываний] остается без изменений в верхней правой точке.
Исходя из этих впечатляющих результатов, насколько мы уменьшаем задержку?
Мы измеряем время по [числу] [исходных] [токенов] и моделируем разное время выполнения функции.
Кривые показывают компромиссы между метрикой [FLR] и затратами на выполнение, определяемые [количеством] чрезмерных затрат по функциям, являющихся некорректными.
Это достигается путем изменения порога при выборе подграфа.
Более высокий порог выбирает меньше ошибочных функций, но достигает меньшего [FLR], тогда как более низкий порог агрессивнее выбирает и выполняет программы.
Мы сравниваем два [предлагаемых нами подхода] и базовую линию, которая не делает ничего, кроме прямого [онлайн]-применения автономного [синтаксического анализатора].
Верхняя левая область имеет лучшие показатели [FLR] и компромиссы по затратам.
И здесь мы видим, что оба наших [метода] превосходят базовую линию с [большим] отрывом и работают наподобие [TreeDST].
Когда выполнение отдельных функций происходит быстрее, наблюдается тенденция к большему числу пробегов и уменьшению времени ожидания.
А когда выполнение отдельных функций происходит медленнее, появляется больше возможностей для улучшения [FLR].
Наши два подхода обеспечивают лучшую производительность в различных регионах затрат.
И в целом мы добиваемся относительного сокращения задержки в размере от тридцати до шестидесяти трех процентов в зависимости от времени выполнения и уровня допустимых затрат.
И наконец, у нас есть разбивка среднего сокращения задержки в [токенах] [по] каждому типу функциональных узлов, когда допустимые затраты составляют три выполнения.
Как можно заметить, мы выигрываем по всем направлениям.
Кроме того, существует некоторые функции, с которыми мы получали впечатляющее сокращение задержки, где красная полоса намного длиннее (например, менеджер поиска и получателей).
Эти функции низкого уровня не имеют особой зависимости от других.
И в заключение мы предлагаем [семантико-синтаксический онлайн-анализ] в качестве новой [задачи] для изучения с использованием точных метрик сокращения задержки.
С помощью мощного [графического семантико-синтаксического анализатора] мы добьемся достаточно ощутимого сокращения задержки либо с помощью конвейерного [подхода] с выполняемым LM и полным [синтаксическим анализом], либо с помощью [синтаксического анализатора], обученного непосредственно на префиксах.
[Более того], наш [подход] может стать общей основой, применяемой к другим исполняемым [семантическим] [представлениям] в самых различных [сферах].
В дальнейшей работе нам следует рассмотреть вопрос о более грамотном [прогнозировании] и применении интеграционного [метода].
Спасибо за внимание.
Здравствуйте!
Я хочу обсудить с вами нашу работу по [возвратной] [генерации] [приращенных] контрфактивов [для] решения [задач] по нахождению [ответов на вопросы].
Работа была проведена в ходе моей стажировки в Google [Research] под руководством Мэтью Лэмма и Яна Тенни.
Чтобы разъяснить свои мотивы по решению этой [задачи], я начну с определения [контрафактива].
В рамках данной работы мы определяем [контрафактив] как значительную и контролируемую пертурбацию [вводимого] [текста] от исходного [текста].
Это позволяет нам оценить изменения в получаемых результатах или маркировке [задач].
[К примеру], замена [слова] «очаровательный» на «захватывающий» или «ожидаемый» на «нудный» ведет к изменению общего [настроения] [в] рецензии на фильм.
Точно так же добавление уточнения «женский» к [вопросу] меняет [ответ] на [вопрос] в приведенном ниже примере.
Люди обычно более устойчивы к таким пертурбациям, [чем] [NLP]- [модели], обученные данной [задаче].
С чем это связано?
[Набор данных] может быть выбран с систематическими [предубеждениями], что приводит к искажению [контрафактивом] границы простого решения,
как показано в данной [проблеме] двухмерной [классификации].
В ходе работы мы обнаружили, что добавление [контрфактивных] примеров к [обучающим данным] может сделать [модель] устойчивой к таким пертурбациям.
Но если контрфактивы столь ценны, как мы можем их сгенерировать?
Эта [задача] особенно трудно дается [NLP], как видно из трех примеров к трем разным [NLP]-[задачам].
Как вы видите, примеры, нарушающие границу принятия решения и соответствующие результаты, должны быть очень тщательно проработаны путем пертурбации некоторых атрибутов [текста], которые мы здесь подчеркнули.
Это может быть сделано путем [ручной] [аннотации], но это слишком затратно и не лишено предвзятости.
В некоторых предыдущих работах особый акцент уделялся использованию [синтаксического] дерева или [присвоению семантических ролей].
Но набор пертурбаций, [генерируемых] с помощью этих методов, ограничен [семантическим] каркасом.
В более поздних работах использовались замаскированные [языковые модели] для заполнения замаскированных порций [текста] и изменения меток.
Но поиск фрагментов [текста] для пертурбации может быть весьма затруднительным.
Еще больше проблем возникает при [генерации] контрфактивов, особенно для поиска [ответов на вопросы].
Эта [задача] требует предварительных [знаний].
В качестве примера можно привести пертурбацию исходного [вопроса] о том, является ли фильм «Индиана Джонс и храм судьбы» приквелом.
Чтобы ответить на [вопрос] о том, является ли фильм «Индиана Джонс и храм судьбы» приквелом, нам необходимо знать, какие фильмы входят в эту франшизу.
[Кроме того], случайные пертурбации могут привести к невозможности ответить на [вопрос] при имеющихся свидетельствах или ложных посылках.
[Более того], некоторые пертурбации [вопросов] могут привести к значительному [семантическому] отклонению от изначально [введенных данных].
Взять хотя бы вопрос: «Практиковал ли Индиана Джонс детское рабство в храме судьбы»?
Мы [предлагаем] очень простой, но эффективный метод — фильтр обратной генерации ([RGF]) для решения проблемы [контрфактивной] пертурбации [вопросов] и всех остальных упомянутых выше проблем.
Основной интуитивный подход, стоящий за [RGF], заключается в том, что базовая [информация], необходимая для генерирования пертурбаций, может присутствовать в потенциальных ошибках [модели] при нахождении [ответа на вопрос].
Например, ультрасовременная [модель] [REALM] дает следующие ответы Top-K на вопрос: «Кто является капитаном футбольного клуба "Ричмонд"»?
И она на самом деле восстанавливает исходный справочный текст и [выдает] Трента Котчина как лучший возможный ответ.
При этом она извлекает дополнительные отрывки и ответы, которые могут использоваться как руководство к пертурбации [вопроса].
К примеру, она выдает еще два ответа с именами капитанов резервной команды, а также женской команды того же клуба, что может вести к интересным поправкам.
Подводя итог, стоит отметить, что [RGF] сначала извлекает наиболее релевантные ответы Top-K и [контексты], которые не соответствуют эталонному [ответу] в [контексте].
После этого шага [модель] [генерирования вопросов] к этим альтернативным ответам задает условия для генерирования соответствующего им [вопроса].
И наконец, мы можем фильтровать [сгенерированные] [вопросы] на основе минимализма или вида [семантической] пертурбации, которая представляет для нас интерес.
Тщательно выполняя шаги [по] [возвращению], мы используем эти данные и читаем такую [модель], как [REALM], которая принимает на [входе] исходный [вопрос] и такой [большой] [корпус], как [«Википедия»].
Она состоит из двух модулей.
Модуль возвращения выполняет [поиск] [сходств] по плотному индексу отрывков, чтобы вывести наиболее релевантные отрывки Top-K к заданному [вопросу].
Затем модуль чтения извлекает фрагмент из каждого отрывка как потенциальный [ответ].
В большинстве случаев [REALM] выдает «золотой отрывок» как [ответ].
Однако в этой работе нас больше интересуют ответы и [контекст], который он выдает дальше по линии.
На следующем этапе мы используем эти альтернативные ответы и контексты для генерирования новых вопросов, соответствующих этим альтернативам.
[Модель] [генерирования вопросов] — это предварительно обученный [трансформер] «[текст] в [текст]», тонко настраивающийся на [данные] NQ, чтобы сгенерировать [вопрос] [для] [ответа], который отмечен в [контексте].
На [выводе] мы представляем [модель] [генерирования вопросов], альтернативный [ответ] и [контекст], которые был [получен] на [предыдущем] шаге.
Давайте, к примеру, рассмотрим вопрос о том, кто является капитаном футбольного клуба «Ричмонд». [REALM] извлекает отрывки о женской команде клуба, капитаном которой является Джесс Кеннеди, и [модель] генерирует [запрос]: «Кто был капитаном первой в истории женской команды футбольного клуба "Ричмонд"?»
Здесь наблюдается определенная [семантическая] пертурбация.
Аналогичным образом мы получаем [запросы] такого рода: «Кто является капитаном резервной команды [VFL] "Ричмонд"?»
«Кого вывел из строя Грэм в финале прошлого года?»
И наконец, мы отфильтровываем подмножество [сгенерированных] [запросов] на основе некоторых желаемых характеристик.
Как мы [объясняли] ранее, нам хотелось бы убедиться, что новый [вопрос] все еще [семантически] близок к оригиналу.
[Поскольку] методы фильтрации не требуют дополнительного контроля, мы просто сохраняем новые [вопросы], которые недалеко отошли при [редактировании] метки [токена] от оригинального [вопроса].
[Например], мы удаляем [вопрос] о том, кого вывел из строя Грэм в гранд-финале прошлого года,
поскольку он слишком далеко отошел от оригинала [вопроса].
В ходе экспериментов нам удалось продемонстрировать, что эта простая [эвристика] может использоваться для приращения и постановки в очередь [обучающих данных].
Мы также экспериментируем со стратегией фильтрации в зависимости от типа [семантической] пертурбации.
Для этого мы используем фреймворк декомпозиции [запроса] общего назначения под названием [QED].
[QED] идентифицирует две части [вопроса], [предикат] и ссылку.
Ссылка — это [именная] группа в [вопросе], соответствующая [объектам] в [контексте].
[Предикат] — это, по сути, вся остальная часть [вопроса].
Например, мы можем разделить [запрос] «Кто был капитаном первой женской команды "Ричмонда"?» на две ссылки: «женская команда» «футбольного клуба "Ричмонд"», и [предикат] «Кто был капитаном X?»
[Модель], обученная дополнительной [аннотации] [предиката] [в] NQ, производит такую декомпозицию [вопроса].
Декомпозиция как исходного, так и [сгенерированного] [вопроса] на основе [QED] позволяет классифицировать [сгенерированные] контрфактивы [для] [оценки].
В частности, мы получаем две группы [вопросов]:
те, которые претерпевают замену ссылки при сохранении [предикатов], и те, которые претерпевают замену [предиката] и опционально добавляют ссылки.
К примеру, вопрос «Кто был капитаном резервной команды [VFL] "Ричмонд"?»  представляет собой пример по замене ссылки.
А вопрос «Кто в клубе выступает под девятым номером?» — это пример замены [предиката].
Теперь мы оцениваем эффективность пертурбаций [RGF] при [приращении] к [обучающим данным].
Таким образом, для эффективной оценки, в частности, эффективности [контрфактивного] [приращения], мы экспериментируем с двумя сильными [базовыми методами] [приращения данных].
Первая базовая линия по [генерации случайных ответов и вопросов] добавляет [данные], которые не имеют [отношения] к исходному [вопросу].
То есть отрывки и ответы просто случайным образом берутся из [«Википедии»].
По сути, эта базовая линия вводит дополнительные [данные], которые выглядят как NQ.
На второй базовой линии по [генерации «золотых» вопросов и ответов] мы специально обновляем [возвратную] часть нашего [метода].
Здесь альтернативные ответы просто выбираются из того же отрывка, который содержит «золотой» [ответ].
Как же [приращение] [базовых линий] и [RGF] влияет на [понимание прочитанного], когда [модель] имеет доступ к [вопросу] и [контексту]?
Мы провели эксперименты с шестью [доменными] [наборами данных] и представляем здесь результаты, показывающие, что [обучающие данные] удваиваются при [приращении].
Было обнаружено, что обе [базовые линии] по [приращению данных] неспособны к лучшему [обобщению] выбранного [домена].
Фактически ансамбль из шести [моделей], обученных на исходных [данных], кажется наиболее конкурентоспособной базовой линией.
При сравнении с той базовой линией мы видим, что контрафактивы [RGF] способны улучшить эффективность вне [домена], сохраняя при этом производительность внутри [домена].
Это говорит о том, что заполнение пробелов в способности [модели] к [рассуждению] посредством [контрфактивного] [приращения] является более эффективным подходом, чем добавление дополнительных [данных] из [обучающего] материала.
[Кроме того], мы считаем, что использование [возвращения] для выборки альтернативных результатов или ответов важно [для] эффективности [CDA].
Мы также экспериментируем с открытой [доменной] настройкой [QA], при которой [модель] видит только [вопрос], и снова проводим оценку по четырем [доменным] [наборам данных].
Было обнаружено, что базовые [модели] не столь эффективны [при] [обобщении] вне [домена].
Однако [приращение данных] с помощью [RGF] показывает более значительные улучшения.
Улучшения наблюдаются даже при использовании [доменных] [наборов данных] NQ.
Мы предполагаем, что [контрфактивное] [приращение данных] помогает [модели] лучше [усвоить] процесс кодировки очень [похожих] [запросов].
И наконец, мы также оцениваем способность [модели] к увеличению постоянства в области, близкой к исходному [вопросу].
Постоянство измеряется долей [вопросов], на которые [модель] давала правильные ответы как в случае исходного, так и в случае [контрфактивного] [запроса].
Вне всяких сомнений, это помогает оценить [надежность] [модели] при небольших пертурбациях в районе исходного [входа].
Мы экспериментируем с пятью [наборами данных], содержащими пары [вопросов], [семантически] близких друг к другу.
Помимо трех [наборов данных] ([AQA], [AmbigQA] и [QUOREF]-контрастного), которые уже доступны для нас, мы также проводим оценку по контрафактивам [RGF], сопряженным с исходными [вопросами] NQ, на основе того, претерпели ли они смену [предиката] или ссылки.
Эти подмножества [аннотированы] на базе нашей организации для устранения шума и предложены в качестве ресурса.
Ни одна [базовая линия] не способна значительно улучшить постоянство с объединенной [моделью], но делает это с небольшим отрывом.
Тем не менее, [контрфактивное] [приращение] [RGF] произвело впечатляющий прирост постоянства как на прежних [наборах данных], так и на двух подмножествах, которые мы подобрали [для] ссылочной и [предикативной] пертурбации.
Обратите внимание, что [приращенные] [данные] [RGF] не свободны от предубеждений по типу пертурбации в отличие от [оценочных] наборов.
На самом деле [качественная] инспекция типов [сгенерированных] контрфактивов показывает, что [генерируемые] [вопросы] содержат несколько различных пертурбаций.
К примеру, исходный [вопрос] о населении Уолнат-Гров в штате Миннесота пертурбирован в таких измерениях, как город, штат, страна, а также такими разнообразными [предикатами], как местоположение, уровень бедности и [количество] школ.
Аудио пертурбаций специфично в зависимости от [контекста].
Например, [для] другого [вопроса] об одиночном разряде Уимблдонского турнира пертурбация происходит по типу игры, виду турнира или результату игры.
В заключение стоит отметить, что мы решаем [задачу] [контрфактивного] [приращения данных] и пертурбации в [запросах] по поиску [информации], а также рассматриваем уникальные проблемы в этой сфере путем изменения [генерирующего] [подхода] вместо генерации с использованием потенциальных промахов [модели] и фильтров, основанных на типах пертурбации или минимализма.
Мы считаем, что этот метод не требует дополнительного контроля, и примеры [помечаются] [по] [приращению].
[Приращение] улучшается в условиях [доменного] [обобщения] и постоянства в ближайших сферах.
И мы также считаем, что [RGF]-контрфактивы [семантически] разнообразны и без введения предвзятости при [приращении].
Спасибо.