Здравствуйте! Меня зовут Елена. Я представлю вам нашу работу «Обнаружение неассимилированных заимствований в испанском языке: аннотированный корпус и подходы к моделированию».
Сегодня мы поговорим о том, что представляет собой лексическое заимствование, в чём заключается предложенная нами задача, какой набор данных мы опубликовали и какие модели исследовали.
Но в первую очередь нам необходимо выяснить, что такое лексическое заимствование и какое значение оно имеет с точки зрения NLP-задачи?
Лексическое заимствование — это, по сути, усвоение слова одного языка другим.
Например, в испанском языке используются слова, заимствованные из английского.
Примерами служат такие слова, как подкаст, ноутбук и онлайн-краудфандинг. Все эти слова имеют английское происхождение, но иногда используются и в испанской речи.
Лексическое заимствование — это тип лингвистического заимствования, при котором языковые шаблоны одного языка воспроизводятся в другом языке.
Заимствование и переключение кодов иногда сравниваются и описываются как единый процесс (переключение кода — это то, что делают билингвы, когда одновременно используют два языка).
Однако между лексическим заимствованием и переключением кодов существуют некоторые различия.
Мы сосредоточимся на лексическом заимствовании.
Если переключение кодов — это то, что делают билингвы (причем переключатели кодов по определению не интегрированы ни в один из используемых языков), то лексическое заимствование — это то, что также свойственно монолингвам.
Заимствованные слова подчиняются грамматическим нормам языка-реципиента.
Со временем они могут быть полностью усвоены языком-реципиентом.
Но чем же интересно заимствование?
С точки зрения лингвистики заимствование — это проявление эволюции языков и их взаимодействия.
Кроме того, лексическое заимствование является неисчерпаемым источником для появления новых слов в языке.
Здесь можно увидеть некоторые примеры лексического заимствований, усвоенных испанским языком в качестве новых слов.
С точки зрения NLP заимствование является важным источником несловарной лексики.
На самом деле автоматическое обнаружение лексических заимствований оказалось полезным для таких второстепенных задач NLP, как синтаксический анализ, преобразование текста в речь и машинный перевод.
В настоящее время растет интерес к влиянию английского языка на другие, особенно с точки зрения лексического заимствования англоязычных слов и выражений, которые иногда называют англицизмами.
Здесь вы найдете некоторые примеры работы, посвященной автоматическому обнаружению заимствований в некоторых из таких языков.
Мы поставили перед собой задачу по обнаружению неассимилированных лексических заимствований в испаноязычной новостной ленте.
Другими словами, в испанских газетах мы искали слова, которые были заимствованы из других языков, но еще не были усвоены языком-реципиентом.
Это значит, они еще не интегрировались в испанский язык.
И вот вам пример.
Давайте рассмотрим следующее предложение на испанском языке: «Las prendas bestsellers se estampan con motivos florales, animal print o retales tipo patchwork».
Как вы видите, здесь присутствуют три элемента текста, которые на самом деле являются английскими словами: бестселлер, анималистичный принт и пэчворк.
Это и есть тот тип элементов, извлечение и обнаружение которых представляет для нас интерес.
Ранее уже проводилось исследование по обнаружению англицизмов, включавшее CRF-модель для обнаружения англицизмов в испаноязычной новостной ленте.
Эта модель получила восемьдесят шесть баллов по шкале F1.
Однако в рамках исследования присутствовали ограничения, связанные как с наборами данных, так и с подходом к моделированию.
Другими словами, набор данных концентрировался лишь на одном источнике новостей, состоящем из одних заголовков.
Кроме того, некоторые заимствования из обучающего и тестового набора пересекались.
Это не позволило адекватно оценить, способен ли этот подход к моделированию действительно обобщить не замеченные ранее заимствования.
В связи с этим в рамках нашей задачи мы хотели бы устранить некоторые указанные ограничения.
Для этого мы в первую очередь создали новый набор данных.
Наша цель заключалась в том, чтобы создать новый аннотированный набор данных с лексическими заимствованиями, а также как можно более сложный тестовый набор.
Таким образом мы бы добились минимального пересечения слов и тем в обучающем и тестовом наборах.
В результате тестовый набор включал бы в себя источники и даты, отсутствующие в обучающем наборе.
Здесь можно убедиться в отсутствии пересечений по времени.
Кроме того, тестовый набор очень богат заимствованиями.
И чтобы дать вам некоторое представление в цифрах, позвольте отметить, что обучающий набор содержит шесть заимствований на тысячу токенов, тогда как тестовый включает двадцать заимствований на тысячу токенов.
Мы также постарались включить в тестовый набор как можно больше словарных слов.
На самом деле девяносто два процента заимствований в тестовом наборе являлись несловарными.
И следовательно, они не были замечены при обучении.
А корпус, по сути, представлял собой коллекцию текстов, извлеченных из разных испаноязычных газетных источников.
Аннотирование производилось вручную с использованием двух тегов.
Один из этих тегов предназначался для английских лексических заимствований, которые представляют собой большинство лексических заимствований в испанском языке, а второй — для заимствований из других языков.
Мы использовали форматы CONLL и кодировку BIO, чтобы обозначить заимствования таких одинарных токенов, как ноутбук, и таких многословных токенов, как машинное обучение.
И вот некоторые цифры по корпусу.
Как вы видите, он включает в себя около трехсот семидесяти тысяч токенов.
А здесь можно увидеть, сколько элементов обозначено как английские или прочие заимствования и сколько из них являются уникальными.
Кроме того, здесь приведена пара примеров из набора данных.
В первом примере представлено выражение «батч-кукинг», которое является многословным заимствованием.
И мы его аннотировали, используя кодировку BIO.
То есть BIO использовалось для обозначения испанских, а не заимствованных слов.
А здесь, во втором примере, мы видим слова «бенчинг» и «крэш», которые также классифицированы как заимствования из английского языка.
Так вот, как только у нас появился этот набор данных, мы исследовали несколько моделей для выполнения задачи по извлечению и обнаружению этих лексических заимствований.
Первой испытанной нами моделью стало условное случайное поле.
Эта модель также использовалась в предыдущей работе.
Кроме того, мы применили те же специально разработанные функции.
Эти функции можно увидеть здесь.
Такие двоичные функции, как слово или токен, обозначают верхний регистр?
Это заглавная буква?
Это кавычки?
Вещи такого рода являются разновидностью функций, которые вы ожидаете увидеть в задачах по выделению именованных сущностей.
И вот результаты, которые мы получили.
Мы набрали пятьдесят пять баллов по шкале F1, используя модель CRF со специальными функциями.
Это огромная разница, если сравнить с озвученным ранее результатом по шкале F1 в восемьдесят шесть баллов, который был получен с помощью той же модели CRF и тех же функций, но с применением другого набора данных для обнаружения лексических заимствований в испанском языке.
Таким образом, мы доказали, что созданный нами набор данных является более сложным и что для решения подобных задач следует применять более сложные модели.
Итак, мы протестировали две трансформерные модели:
BETO, то есть одноязычную модель BERT, обученную испанскому языку, а также многоязычную BERT.
Обе модели были применены к транформерной библиотеке HuggingFace.
И вот результаты, которые мы получили.
Как вы видите, многоязычный BERT оказался эффективнее BETO по всем показателям как на наборе разработки, так и на тестовом наборе.
Для простоты сравнения стоит отметить, что модель CRF набрала восемьдесят два балла.
Модель CRF по шкале F1 набрала пятьдесят пять баллов, тогда как многоязычный БЕРТ — восемьдесят два, и это ощутимая разница.
Получив эти результаты, мы задались новым вопросом: нельзя ли найти модель BiLSTM-CRF и ввести в нее встраивания различных типов для кодировки всевозможной лингвистической информации, чтобы превзойти результаты, полученные трансформерными моделями?
Чтобы ответить на этот вопрос, мы провели предварительные эксперименты, применяя модель BiLSTM-CRF к библиотеке Flare.
В ходе исследования мы применили различные методы встраивания, включая трансформерное, а также FastText, встраивание символов и так далее.
Как оказалось, трансформерное встраивание эффективнее неконтекстуализированного, а комбинированное встраивание английского BERT и испанского BETO превосходит многоязычные BERT.
Кроме того, встраивание BPE позволяет получить более высокий результат по шкале F1, а встраивание символов производит лучшую выборку.
С учетом всего этого данные результаты оказались лучшими.
Обе модели BiLSTM-CRF были применены к библиотеке Flair.
В одну из них были введены внедрения BETO, BERT и BPE, а в другую — BETO, BERT, BPE и внедренные символы.
Последняя набрала более высокий балл по шкале F1 на тестовом наборе, однако самый высокий балл на наборе разработки был получен моделью, где не использовалось внедрение символов.
Просто примите к сведению, что лучшим результатом, полученным с многоязычной BERT, стали семьдесят шесть баллов по шкале F1 на наборе разработки и восемьдесят два балла — на тестовом наборе.
Это заметное улучшение по сравнению с другими результатами.
И наконец, мы задали себе еще один вопрос: может ли обнаружение лексических заимствований быть сконструировано как обучение переносу из какого-либо языка при переключении кодов?
В связи с этим мы запустили ту же модель BiLSTM-CRF, которую применяли к Flare, но вместо неадаптированных трансформерных BETO и BERT мы применили встраивание переключения кодов.
Что такое встраивание переключения кодов?
Это тонкая настройка трансформенных моделей, которые были предварительно обучены идентификации языка в испанско-английском разделе набора данных переключателя кодов LinCE.
LinCE — это набор данных по переключению кодов, содержащий раздел по переключению кодов с испанского на английский язык.
Таким образом, мы пропустили через BiLSTM-CRF внедренные переключатели кодов, некоторые символы, BPE и так далее.
Лучшим полученным результатом стали 84,22 балла, и это самый высокий показатель среди всех моделей, опробованных с тестовым набором.
Однако лучший результат по шкале F1, полученный с набором разработки и составивший семьдесят девять баллов, оказался ниже, чем лучший результат, полученный с BiLSTM-CRF на неадаптированных внедрениях.
Какие выводы можно сделать из проведенной работы?
Нам удалось создать новый набор данных из испаноязычной новостной ленты, аннотированный неассимилированными лексическими заимствованиями.
Этот набор данных является более насыщенным и богатым несловарными заимствованиями ресурсом, чем все предыдущие версии.
Мы изучили четыре типа моделей для обнаружения лексического заимствования.
Так вот, анализ ошибок показал, что отклик является слабым звеном у всех моделей.
Отсюда нетрудно заметить, что некоторые ложноотрицательные результаты часто включают, к примеру, заимствования в верхнем регистре тех слов, которые существуют как в английском, так и в испанском языке.
Также интерес представляет тот факт, что BPE-внедрение, по всей видимости, улучшает результат по шкале F1.
Кроме того, внедрение символов также может улучшить отклик.
Это весьма интересная находка, которая может оказаться полезной в дальнейших исследованиях.
Что ж, это все, что я хотела сказать.
Огромное спасибо за внимание.
Меня зовут Антуан.
Я аспирант Массачусетского университета в Амхерсте.
Я хочу представить вам работу «KinyaBERT — эффективная морфологическая модель для языка киньяруанда».
Сначала я расскажу о мотивах этого исследования.
Затем представлю в деталях архитектуру модели KinyaBERT.
После этого я расскажу о результатах наших экспериментов и завершу доклад, озвучив некоторые из полученных выводов.
Всем нам известно, что недавние достижения в области обработки естественного языка стали возможными благодаря использованию таких предварительно обученных языковых моделей, как BERT.
Тем не менее, мы все еще сталкиваемся с целым рядом ограничений.
Из-за сложной структуры, свойственной большинству морфологически богатых языков, повсеместно используемый алгоритм токенизированной кодировки пар байтов, который я часто использовал, неспособен извлечь точные подсловные лексические единицы, то есть морфемы, необходимые для эффективного представления.
Например, в языке киньяруанда существуют три слова, содержащие несколько морфем, которые BPE-алгоритмы неспособны извлечь.
Это связано с тем, что некоторые правила морфологии приводят к созданию различных поверхностных форм, скрывающих точную лексическую информацию, и BPE, основанная исключительно на поверхностных формах, не имеет доступа к этой лексической модели.
Вторая проблема заключается в том, что даже при наличии доступа к морфологическому анализатору Oracle замены токенов BPE на морфемы недостаточно для выражения морфологической композиционности.
Третьим пробелом в исследованиях является то, что новые предварительно обученные языковые модели чаще всего оцениваются с точки зрения широко используемых языков.
Однако их необходимо примеривать и к широкому спектру малоресурсных языков.
По этой причине мы хотим представить KinyaBERT — простую, но эффективную адаптацию архитектуры BERT, предназначенную для более эффективной обработки морфологически богатых языков.
Мы оцениваем KinyaBERT с точки зрения малоресурсного, но морфологически богатого языка киньяруанда, на котором говорят более двенадцати миллионов жителей восточной и центральной Африки.
В эту модель вводится предложение или документ.
К примеру, рассмотрим предложение: «John twarahamubonye biradutangaza». Его перевод звучит так: «Мы удивились, увидев там Джона».
Как можно заметить, слова на языке киньяруанда могут содержать несколько морфем, несущих в себе различную информацию.
Таким образом, с помощью нашей модели мы передаем это предложение или документ морфологическому анализатору,
который затем генерирует морфемы, содержащиеся в каждом слове.
Как правило, морфемы состоят из основы и одного или нескольких аффиксов.
Эти аффиксы могут указывать на время, какой-то аспект, субъект или объект глагола и чаще всего привязаны к субъектам или объектам, выраженным существительными на языке банту.
Морфологический анализатор также выводит тег части речи для каждого из этих слов.
Выполнив этот шаг, мы производим внедрение тегов для частей речи,
а также внедрение аффиксов
и внедрение основы.
Это морфологический уровень, то есть морфологический уровень внедрения.
Далее мы передаем эти внедрения в морфологический кодировщик — небольшой кодировщик-трансформер, применяемый по отдельности к каждому слову.
В результате мы получаем вектора, контекстуализированные морфологической информацией каждого слова.
После этого мы производим композицию с объединением морфологических внедрений с соответствующими частями речи и основами.
Далее мы производим их дальнейшее объединение с другими внедренными основами на уровне предложений.
Затем мы вводим предложение или документ в основной кодировщик.
В конечном итоге мы получаем контекстуализированное внедрение, которое можно использовать для подчиненных NLP-задач.
В морфологическом анализаторе мы применяем двухуровневые морфологические принципы с индивидуально настроенной реализацией, адаптированной к языку киньяруанда.
Мы эффективно моделируем морфологию всех слов языка киньяруанда, включая глаголы, существительные, указательные и притяжательные местоимения, числительные и т. п.
Мы используем безнадзорный алгоритм маркировки частей речи.
Факторная модель первого уровня используется для оценки морфологической вероятности, то есть вероятности, назначаемой морфологическим анализатором.
Кроме того, мы учитываем приоритетность маркеров частей речи, а также синтаксическую согласованность вводимых слов.
Маркировщик частей речи использует двунаправленный вывод, улучшающий результаты наиболее часто используемого для декодирования алгоритма Витерби.
И я бы хотел здесь сделать несколько замечаний, касающихся позиционного кодирования.
Во-первых, морфологический кодировщик не использует позиционное кодирование.
Это связано с тем, что каждая морфема занимает уже известную позицию в морфологической модели.
Следовательно, позиционная информация уже внедрена в тех случаях, когда предоставлены морфемы.
Во-вторых, кодировщик предложений использует так называемое несвязанное относительно-позиционное внедрение. Эта тема была освещена в недавно опубликованных материалах конференции ICLR.
Это позиционное внедрение, по сути, распутывает клубок позиционных корреляций от токена к токену, уделяя их вычислению особое внимание.
Как и в модели BERT, мы преследуем цель по предварительному обучению замаскированной языковой модели.
По сути, мы хотим научиться предсказывать основы и аффиксы, связанные со словами.
При предварительном обучении предсказанию используется пятнадцать процентов всех слов, восемьдесят процентов которых замаскировано, десять процентов заменено на случайные слова, а остальные десять процентов остались без изменений.
При предсказании аффиксов мы сталкиваемся с проблемой многозначной классификации.
Чтобы решить эту проблему, мы либо группируем аффиксы в фиксированное число множеств и предсказываем метки для каждого множества как для класса,
либо предсказываем вектор вероятности аффикса.
В наших экспериментах мы оцениваем оба подхода.
И мы предварительно обучаем KinyaBERT примерно на двух с половиной гигабайтах текста на языке киньяруанда и сравниваем его с тремя базовыми моделями.
Одной из этих моделей является многоязычная XLM-R, обученная с помощью обширного корпуса текстов, включающего в себя несколько языков.
Две другие базовые модели предварительно обучены на одном и том же киньяруандском тексте с использованием либо алгоритма кодировки пар байтов, либо морфологического анализа без двухуровневой архитектуры трансформерного кодировщика.
Все модели настроены на базовую архитектуру, включающую от ста до ста десяти миллионов параметров, причем KinyaBERT для языка киньяруанда использует наименьшее число параметров.
Все модели, кроме многоязычных, предварительно обучены для распознавания тридцати двух тысяч градиентных обновлений с двумя тысячами пятьюстами шестьюдесятью последовательностями в каждой серии.
Мы оцениваем предварительно обученные модели по трем наборам задач.
Одним из них является эталон GLUE, который часто используется для оценки эффективности предварительно обученных языковых моделей.
Мы получаем данные по эталону GLUE, переводя исходные эталонные данные на язык киньяруанда с помощью Google Переводчика.
Второй задачей является получение эталона по выделению именованных сущностей на языке киньяруанда, представляющего собой набор данных высокого качества и аннотированного обученными носителями языка.
Третья задача — это категоризация новостей, в ходе которой мы извлекаем новостные статьи с нескольких веб-сайтов, собираем назначенные авторами категоризационные теги, после чего, опять же, пытаемся предсказать те же самые категории.
А теперь перейдем к результатам.
В том, что касается эталона GLUE, мы обнаружили, что KinyaBERT стабильно и неизменно превосходит базовые модели.
Здесь можно увидеть среднюю производительность по десяти прогонам тонкой настройки.
Мы также проводим пользовательскую оценку переводов, выполненных с помощью Google Переводчика.
В ходе эксперимента пользователь оценивал качество переводов около шести тысяч примеров, присваивая им баллы по шкале от одного до четырех.
В результате многие переводы оказались «шумными».
Тем не менее, всем нашим моделям пришлось иметь дело с одними и тем же переводческими «шумами», поэтому мы считаем, что также важно сравнивать модели по эффективности.
Решая задачу по выделению именованных сущностей, мы обнаружили, что KinyaBERT наиболее эффективен при регрессивном вариантном распределении аффиксов.
Эти результаты являются средним значением, полученным после десяти прогонов тонкой настройки.
При выполнении задачи по категоризации новостей мы получили смешанные результаты.
Предыдущая работа по классификации текста на языке киньяруанда показала, что простого обнаружения ключевых слов чаще всего достаточно для решения этой конкретной задачи.
Следовательно, использование предварительно обученных языковыхмоделей приносит меньше пользы
при решении данной конкретной задачи по категоризации новостей.
Мы также провели абляционное исследование с целью обнаружения альтернативных структур, которые бы позволили нам повысить эффективность.
Для эталона GLUE обнаружено, что применение наборов аффиксов всегда более эффективно, тогда как регрессивное предсказание вероятности аффиксов дает лучшие результаты при выделении именованных сущностей.
Кроме того, низкие результаты при тонкой настройке позволяют понять, что KinyaBERT в большинстве случаев показывает большую конвергентность.
В заключение стоит отметить, что эта работа продемонстрировала эффективность непосредственного использования морфологической информации в предварительно обученных языковых моделях.
Предлагаемая двухуровневая архитектура трансформера-кодировщика позволяет уловить морфологическую сложность и морфологическую композиционность, которые являются важным аспектом морфологически богатых языков.
Полученные результаты должны подтолкнуть нас к дальнейшей разработке морфологически грамотных предварительно обученных языковых моделей.
Здравствуйте! Меня зовут Михал Петрушка. Я бы хотел представить работу «Разрежающие трансформерные модели и обучаемость объединению представлений».
Исследование выполнено с помощью AI Applica при сотрудничестве с Лукашем Борхманном и Лукашем Гарнчареком.
Для начала озвучу проблемы, над которыми мы работали.
Наш метод хорошо работает в случаях, когда речь идет о «длинных» вводах.
То есть, грубо говоря, он предназначен для целевых задач с вводом более двух тысяч токенов, где выход короче представленных входов.
Это имеет некоторое специфическое применение в NLP.
К примеру, представим себе, что при работе с длинным документом необходимо его обобщить, классифицировать, ответить на вопрос о нем и извлечь из него информацию или ключевые фразы.
Позвольте напомнить вам о трансформере Vanilla, а также о его (и соответственно, нашей) проблеме сложности внимания, зависящей от квадратичности линии входа.
В трансформере Vanilla с полной связностью внимания необходимо рассчитать отношения каждого токена с каждым другим токеном.
Вычислительная сложность внимания зависит от количества слоев l, длины последовательности n, длины другой последовательности и размерности представлений.
То же самое наблюдается и в случае перекрестного внимания декодера (обратите внимание на этот рисунок справа). Единственное различие заключается в том, что целевые токены в данном случае обращаются к входным токенам.
Это можно увидеть и в этой формуле.
Рейтинг BLEU представляет отношения, которые следует рассчитать.
В случае полного внимания мы должны вычислить все отношения во вводимой последовательности.
Теперь мы видим, что происходит при работе кодировщика Blockwise, ограничивающего взаимодействие токенов, чтобы они имели доступ лишь к близлежащим токенам.
Чтение текста кусками способно резко уменьшить число вычислений со стороны кодировщика, но не улучшает его перекрестное внимание, поскольку каждый вводимый токен в любом случае передается кодировщику.
Этот метод часто упоминается как слияние в декодере.
В качестве улучшения здесь можно рассматривать замену одной из зависимостей n на другую константу m, представляющую размер блока.
Наш основной вывод заключается в том, что большинство токенов не играют особой роли в широком спектре задач и потому могут быть почти полностью проигнорированы. Это можно увидеть на слайде.
На входе значение имеет лишь то, что влияет на желаемый результат.
И вот вам пример.
Можно читать статью, выделяя по ходу маркером наиболее важные части, а затем составить краткий отчет на основе лишь этой части на среднем этапе.
Таким образом, затраты при выделении и принятии решений о том, является ли текущий токен необходимым для составления этой сводки, очень невелики и зависят только от представления токена.
Объединение выделенных токенов также возможно.
Благодаря нашему оператору Top-K эти затраты ничтожно малы.
Затраты на подготовку сводки на основе короткого входа также намного ниже, чем при использовании модели Vanilla при рассмотрении всех входных данных.
Но вот в чем вопрос.
Как выбрать важные токены и распространить градиенты в обратном направлении по отношению к этой выборке?
Серьезная фундаментальная проблема, которую мы решаем, заключается в создании обучаемого механизма отбора.
Этот механизм позволил бы обратно распространять градиенты при обучении, чтобы сеть училась выбирать самые важные токены.
Причем более точно.
И если учесть, что некоторые выделенные внедрения получены из простого линейного слоя, то задача теперь состоит в том, чтобы получить по внедрениям самый высокий результат. В первую очередь последовательность перекраивается, а пары составляются так, чтобы вектор с высоким результатом группировался с тем, что имеет более низкий рейтинг.
После этого вес рассчитывается путем применения продвинутого софтмакса к рейтингам.
По завершении каждого раунда новые векторы и рейтинги составляются в виде линейной комбинации этих пар с полученными значениями веса.
Короче говоря, мы объединяем их линейно, применяя софтмакс к их рейтингам.
При объединении двух токенов может производиться некоторый «шум».
Но это также позволяет распространить градиенты на все входные внедрения.
Короче говоря, обучаемый Top-K, который мы предлагаем, основан на проведении таких туров, как мягкий отбор на каждом шагу.
А если посмотреть с другой точки зрения, то объединение представлений осуществляется после формирования слоев кодировщика.
То есть сначала оценивается каждое представление, а затем — только те, которые получили самые высокие рейтинги и перешли в следующий слой.
Кодирование может осуществляться, как в стандартной архитектуре трансформера при полноразмерном входе.
Однако текст можно обрабатывать блоками фиксированной длины, а на глобальном уровне выбирать лучшие представления.
Вот пример объединения представлений, выданных после кодирования.
Оно напрямую повлияло на причину перекрестного внимания, зависящего не от входной длины N, а от константы K, представляющей объединенную длину.
Эта константа сообщает, сколько представлений выбрано и передано декодировщику.
Составление сводки из более короткого текста обходится гораздо дешевле, чем предыдущее решение.
Это связано с тем, что длина последовательности может быть значительно сокращена.
Например, мы успешно применяли в наших экспериментах значение K, которое было в шестнадцать или в даже шестьдесят четыре раза ниже, чем значение N.
Обратите внимание, что благотворное влияние кодирования посредством Blockwise и самовнимания довольно стабильно.
Также не следует забывать, что вычислительные затраты внимания зависят от квадрата длины входа.
Раннее сокращение входа в процессе кодирования может значительно снизить затраты.
Для модели Pyramidion мы сузили размер представления на выходе каждого выбранного слоя, что привело к геометрическому уменьшению вычислительных затрат в процессе кодирования.
Как вы видите, общие вычислительные затраты при полном кодировании менее чем в два раза превышают затраты при использовании полноразмерного первого слоя.
При более раннем объединении сумма всех фиолетовых квадратов, таким образом, ограничивается константой, не зависящей от числа слоев l.
Но на константу C может влиять размещение объединенных слоев в сети.
Наши усовершенствования оценивались по длинным входам из восьми тысяч токенов.
На рисунке заметно, что при объединении достигается лучшая масштабируемость глубины сети.
Здесь стоит отметить, что обучение двадцатичетырехслойной модели Pyramidion может обходиться дешевле, чем обучение двухслойного трансформера Vanilla с длинными входами.
Не говоря уже о том, как быстро трансформер Vanilla расходует память при таком длинном входе.
Качественное сравнение тренда Pyramidion с другой базовой линией осуществлялось при выполнении задачи по обобщению длинного документа с целью составления краткого обзора статьи из arXiv или PubMed.
Таким образом, Blockwise, который является нашей базовой линией, работает не хуже ультрасовременных моделей, тогда как Pyramidion сохраняет или улучшает эффективность этой конкурентной базовой модели.
В то же время наша модель обучается на восемьдесят процентов быстрее и более чем на четыреста пятьдесят процентов скорее выдает результат, чем базовый Blockwise.
Обе модели имеют гораздо более низкое число параметров и были обучены с нуля на выбранных задачах.
Прежние подходы к достижению аналогичной производительности предусматривали использование большего числа параметров, а также предварительно обученных фундаментальных моделей и дополнительных целей по предварительному обучению языкам.
Приглашаем вас ознакомиться с полным текстом нашей работы и воспользоваться кодом в GitHub.
Спасибо за внимание.
Здравствуйте! Я Цзявэй Чжоу из Гарвардского университета.
Я очень рад возможности представить нашу работу «Семантико-синтаксический онлайн-анализ для уменьшения задержек в целенаправленном диалоге».
Эта работа стала результатом сотрудничества с Джейсоном, Майклом, Энтони и Сэмом из Microsoft Semantic Machines.
В ходе целенаправленного диалога пользователь взаимодействует с системой, обрабатывающей запросы с высказываниями пользователя, как правило, в устной форме.
Между моментом завершения высказывания пользователем и ответом системы обычно происходит заметная задержка.
В это самое время, так сказать, «за кулисами» высказывание пользователя преобразуется в исполняемую программу.
И она затем выполняется так, чтобы вызвать должный ответ системы.
Программа представлена в виде семантического графа, схематически отражающего вычисления, узлы в котором представляют собой вызов функции, а дочерние модули — аргументы.
При этом большие узлы обозначают мгновенные операции, тогда как другие выполняются медленно.
В простом примере, представленном здесь, можно заметить, что эти программы часто представляют собой более сложные графы за пределами древовидных структур.
И сегодня мы бы хотели задать вопрос: «Нельзя ли начать создавать программу и выполнять ее еще до того, как пользователь закончит высказывание, чтобы добиться более быстрого ответа системы?»
Это проблема онлайн-прогнозирования и принятия решений.
В мире уже существует немало подобных решений.
Взять хотя бы процесс синхронного перевода, в ходе которого профессиональный синхронист переводит речь с одного языка на другой в режиме реального времени, автозавершение текста смартфоном в попытке угадать намерения пользователя или функцию в приложении Uber, отправляющую водителей в те районы, где ожидается повышенный спрос на услуги.
Что же объединяет все эти сценарии?
То, что нам выгоднее принимать решения еще до того, как будут получены все исходные данные.
В нашем же случае речь идет о семантико-синтаксическом онлайн-анализе, который, как ожидается, является более сложной проблемой, поскольку мы должны угадать, что скажет пользователь.
Эта проблема еще очень слабо изучена и не имеет официальных оценочных метрик.
Давайте в первую очередь поговорим о том, как работает обычная система.
Так вот, она работает в автономном режиме, передавая программе данные для анализа только после того, как пользователь сделал высказывание.
В данном случае символы графа прогнозируются лишь после ознакомления со всей информацией.
Мы же, напротив, предлагаем онлайн-систему, которая будет производить сравнение после каждого высказанного префикса.
К примеру, всякий раз при виде нового токена мы предсказываем новый граф.
Однако стоит отметить, что система может и ошибаться.
Оказавшись в точке «на вечеринке у бассейна с Бараком Обамой», мы получаем граф с правильными узлами, указывающими на имя человека и событие, но ошибаемся со временем.
Этот процесс продолжится до тех пор, пока мы не получим полное высказывание от пользователя.
Как это влияет на график выполнения в автономной системе?
Мы получаем графическую программу в самом конце, после чего система начинает ее выполнять.
Не следует забывать, что большие узлы — это быстрые операции, поэтому мы рассматриваем только срок выполнения медленных цветных функций.
Во-первых, эти две функции по поиску человека могут выполняться параллельно, и они выделены белым цветом в розовом поле, поскольку не зависят от других функций.
После получения результатов от узлов более низкого уровня может быть выполнен узел по созданию события. Затем верхняя функция выдаст свой результат, что приведет к исполнению всей программы.
Процесс выполнения очень строг и ограничен структурной программной зависимостью, при которой некоторые операции не могут быть распараллелены, что вызывает значительную задержку.
В нашей онлайн-системе, предсказывающей на ходу, выполнение программы может начаться и раньше.
Здесь, в префиксе после Обамы, мы уверенно предсказываем, что функция поиска человека должна быть в программе, но остальные могут содержать ошибки, поскольку окрашены в серый цвет.
Выполнение узла может начаться немедленно в качестве отдельного шага.
Затем, по мере получения большего количества токенов, мы предсказываем совершенно новый граф, но часть его уже выполняется.
Таким образом, нам нужно лишь рассмотреть остальные узлы, в которых мы также уверены.
А здесь параллельно может выполняться другая программа по поиску человека.
Опять же, мы можем ошибиться в прогнозах.
Но получив больше текста, мы можем увеличить вероятность угадать всё правильно.
Например, здесь где мы правильно предсказали, что событие произойдет до полудня.
Затем мы можем приступить к выполнению остальных шагов в зависимости от структуры программы.
Накладывая срок исполнения на временной график высказывания, мы экономим немало времени.
По этой причине мы и поставили перед собой задачу семантико-синтаксического онлайн-анализа.
Одно из базовых предположений заключается в том, что время выполнения доминирует над временем предсказания модели.
То есть мы выиграем время, только если сможем предсказать раньше.
Другое предположение заключается в том, что, поскольку предсказание и выполнение происходят в фоновом режиме, этот процесс незаметен для пользователя.
Это значит, что нам незачем держаться за последовательную историю синтаксического анализа.
Именно поэтому мы повторно проводим анализ с нуля после каждого токена.
В частности, мы предлагаем двухэтапный подход.
Он состоит из предложенного шага по предсказанию графа с полной структурой и шага по выбору узлов, которые стоит выполнить в данный момент.
У нас есть два варианта предлагаемого метода.
Первый подход сочетает в себя заполнение языковой модели от получения полного высказывания до составления графа синтаксического анализа.
В частности, префикс после Обамы сначала заполняется через языковую модель тонкой настройки BART, после чего переводится в программу с полностью автономным синтаксическим анализатором.
Второй подход напрямую предсказывает программу после произнесения пользователем префикса.
Это достигается посредством обучения одного синтаксического онлайн-анализатора для перевода в цель графа по каждому префиксу.
Это облегчает задачу модели по выдаче верных прогнозов.
Теперь подробнее расскажем о том, как создавать эти графы.
Мы формулируем проблему, генерируя последовательную версию графа.
Каждый узел или ребро представлены каким-либо действием.
Мы начинаем с первого узла.
Указанное ниже число выражает абсолютный показатель в истории действий.
Затем мы получаем второй узел.
Далее между ними проходит ребро.
На нем имеется стрелка, указывающая на показатель предыдущего узла, и метка ребра.
Нуль здесь означает связь самого последнего узла с узлом, сгенерированным нулевым действием, и следующим узлом на следующем ребре.
Этот процесс продолжится до тех пор, пока мы не создадим полный граф.
Базовая модель основана на трансформере с механизмом самонаведения, во многом напоминающем предыдущий синтаксический анализатор, основанный на переходах.
Сгенерировав полный граф, мы получаем вероятности уровней действий, соответствующие различным частям графа.
Мы выбираем надежные подграфы на основе эвристического порога, который должен быть выполнен.
Позже мы изменим порог, чтобы добиться различных компромиссов между сокращением задержки и затратами на выполнение.
В качестве формального критерия оценки онлайн-методов мы предлагаем окончательное сокращение задержки или FLR-метрику.
Вот краткое описание того, как автономная система завершает срок выполнения.
В онлайн-системах срок выполнения перекрывается сроком высказывания и потому завершается раньше.
FLR определяется как время сокращения по сравнению с автономной системой, обозначенное к концу выполнения.
В данный момент мы экспериментируем с двумя крупными разговорными наборами данных для семантического анализа — SMCalFlow и TreeDST.
Наш графический синтаксический анализатор при работе в автономном режиме показал высочайшую производительность при синтаксическом анализе обоих наборов данных.
Полная модель LM также добивается заметного повышения рейтинга BLEU по сравнению с простой базовой линией по завершению узлов.
Теперь оценим точность предсказания префиксов нашим графическим синтаксическим анализатором.
Мы оцениваем соответствие рейтингов F1 n-мерных графов при генерировании и составлении графов по контрольным данным на оси y и по каждой длине префикса на оси x, представленных в виде процентов.
Каждая из этих кривых представляет разную модель с единственной разницей в обучающих данных.
Нижняя кривая представляет автономный синтаксический анализатор. К ней мы добавляем данные о префиксах разной длины, чтобы преобразовать модель в синтаксический онлайн-анализатор.
К примеру, префикс-легенда 80+ означает, что модель обучена с помощью данных префикса, длина которого составляет более восьмидесяти процентов от полной длины высказывания.
Верхний левый угол — это желаемая область.
Как мы видим, автономный синтаксический анализатор, обозначенный черной кривой, не очень хорошо работает с данными префикса.
По мере добавления новых префиксов при обучении кривая поднимается левее и выше, где анализатор лучше справляется с префиксами любой длины.
Однако эффективность синтаксического анализа полных высказываний остается без изменений в верхней правой точке.
Исходя из этих впечатляющих результатов, насколько мы уменьшаем задержку?
Мы измеряем время по числу исходных токенов и моделируем разное время выполнения функции.
Кривые показывают компромиссы между метрикой FLR и затратами на выполнение, определяемые количеством чрезмерных затрат по функциям, являющихся некорректными.
Это достигается путем изменения порога при выборе подграфа.
Более высокий порог выбирает меньше ошибочных функций, но достигает меньшего FLR, тогда как более низкий порог агрессивнее выбирает и выполняет программы.
Мы сравниваем два предлагаемых нами подхода и базовую линию, которая не делает ничего, кроме прямого онлайн-применения автономного синтаксического анализатора.
Верхняя левая область имеет лучшие показатели FLR и компромиссы по затратам.
И здесь мы видим, что оба наших метода превосходят базовую линию с большим отрывом и работают наподобие TreeDST.
Когда выполнение отдельных функций происходит быстрее, наблюдается тенденция к большему числу пробегов и уменьшению времени ожидания.
А когда выполнение отдельных функций происходит медленнее, появляется больше возможностей для улучшения FLR.
Наши два подхода обеспечивают лучшую производительность в различных регионах затрат.
И в целом мы добиваемся относительного сокращения задержки в размере от тридцати до шестидесяти трех процентов в зависимости от времени выполнения и уровня допустимых затрат.
И наконец, у нас есть разбивка среднего сокращения задержки в токенах по каждому типу функциональных узлов, когда допустимые затраты составляют три выполнения.
Как можно заметить, мы выигрываем по всем направлениям.
Кроме того, существует некоторые функции, с которыми мы получали впечатляющее сокращение задержки, где красная полоса намного длиннее (например, менеджер поиска и получателей).
Эти функции низкого уровня не имеют особой зависимости от других.
И в заключение мы предлагаем семантико-синтаксический онлайн-анализ в качестве новой задачи для изучения с использованием точных метрик сокращения задержки.
С помощью мощного графического семантико-синтаксического анализатора мы добьемся достаточно ощутимого сокращения задержки либо с помощью конвейерного подхода с выполняемым LM и полным синтаксическим анализом, либо с помощью синтаксического анализатора, обученного непосредственно на префиксах.
Более того, наш подход может стать общей основой, применяемой к другим исполняемым семантическим представлениям в самых различных сферах.
В дальнейшей работе нам следует рассмотреть вопрос о более грамотном прогнозировании и применении интеграционного метода.
Спасибо за внимание.
Здравствуйте!
Я хочу обсудить с вами нашу работу по возвратной генерации приращенных контрфактивов для решения задач по нахождению ответов на вопросы.
Работа была проведена в ходе моей стажировки в Google Research под руководством Мэтью Лэмма и Яна Тенни.
Чтобы разъяснить свои мотивы по решению этой задачи, я начну с определения контрафактива.
В рамках данной работы мы определяем контрафактив как значительную и контролируемую пертурбацию вводимого текста от исходного текста.
Это позволяет нам оценить изменения в получаемых результатах или маркировке задач.
К примеру, замена слова «очаровательный» на «захватывающий» или «ожидаемый» на «нудный» ведет к изменению общего настроения в рецензии на фильм.
Точно так же добавление уточнения «женский» к вопросу меняет ответ на вопрос в приведенном ниже примере.
Люди обычно более устойчивы к таким пертурбациям, чем NLP- модели, обученные данной задаче.
С чем это связано?
Набор данных может быть выбран с систематическими предубеждениями, что приводит к искажению контрафактивом границы простого решения,
как показано в данной проблеме двухмерной классификации.
В ходе работы мы обнаружили, что добавление контрфактивных примеров к обучающим данным может сделать модель устойчивой к таким пертурбациям.
Но если контрфактивы столь ценны, как мы можем их сгенерировать?
Эта задача особенно трудно дается NLP, как видно из трех примеров к трем разным NLP-задачам.
Как вы видите, примеры, нарушающие границу принятия решения и соответствующие результаты, должны быть очень тщательно проработаны путем пертурбации некоторых атрибутов текста, которые мы здесь подчеркнули.
Это может быть сделано путем ручной аннотации, но это слишком затратно и не лишено предвзятости.
В некоторых предыдущих работах особый акцент уделялся использованию синтаксического дерева или присвоению семантических ролей.
Но набор пертурбаций, генерируемых с помощью этих методов, ограничен семантическим каркасом.
В более поздних работах использовались замаскированные языковые модели для заполнения замаскированных порций текста и изменения меток.
Но поиск фрагментов текста для пертурбации может быть весьма затруднительным.
Еще больше проблем возникает при генерации контрфактивов, особенно для поиска ответов на вопросы.
Эта задача требует предварительных знаний.
В качестве примера можно привести пертурбацию исходного вопроса о том, является ли фильм «Индиана Джонс и храм судьбы» приквелом.
Чтобы ответить на вопрос о том, является ли фильм «Индиана Джонс и храм судьбы» приквелом, нам необходимо знать, какие фильмы входят в эту франшизу.
Кроме того, случайные пертурбации могут привести к невозможности ответить на вопрос при имеющихся свидетельствах или ложных посылках.
Более того, некоторые пертурбации вопросов могут привести к значительному семантическому отклонению от изначально введенных данных.
Взять хотя бы вопрос: «Практиковал ли Индиана Джонс детское рабство в храме судьбы»?
Мы предлагаем очень простой, но эффективный метод — фильтр обратной генерации (RGF) для решения проблемы контрфактивной пертурбации вопросов и всех остальных упомянутых выше проблем.
Основной интуитивный подход, стоящий за RGF, заключается в том, что базовая информация, необходимая для генерирования пертурбаций, может присутствовать в потенциальных ошибках модели при нахождении ответа на вопрос.
Например, ультрасовременная модель REALM дает следующие ответы Top-K на вопрос: «Кто является капитаном футбольного клуба "Ричмонд"»?
И она на самом деле восстанавливает исходный справочный текст и выдает Трента Котчина как лучший возможный ответ.
При этом она извлекает дополнительные отрывки и ответы, которые могут использоваться как руководство к пертурбации вопроса.
К примеру, она выдает еще два ответа с именами капитанов резервной команды, а также женской команды того же клуба, что может вести к интересным поправкам.
Подводя итог, стоит отметить, что RGF сначала извлекает наиболее релевантные ответы Top-K и контексты, которые не соответствуют эталонному ответу в контексте.
После этого шага модель генерирования вопросов к этим альтернативным ответам задает условия для генерирования соответствующего им вопроса.
И наконец, мы можем фильтровать сгенерированные вопросы на основе минимализма или вида семантической пертурбации, которая представляет для нас интерес.
Тщательно выполняя шаги по возвращению, мы используем эти данные и читаем такую модель, как REALM, которая принимает на входе исходный вопрос и такой большой корпус, как «Википедия».
Она состоит из двух модулей.
Модуль возвращения выполняет поиск сходств по плотному индексу отрывков, чтобы вывести наиболее релевантные отрывки Top-K к заданному вопросу.
Затем модуль чтения извлекает фрагмент из каждого отрывка как потенциальный ответ.
В большинстве случаев REALM выдает «золотой отрывок» как ответ.
Однако в этой работе нас больше интересуют ответы и контекст, который он выдает дальше по линии.
На следующем этапе мы используем эти альтернативные ответы и контексты для генерирования новых вопросов, соответствующих этим альтернативам.
Модель генерирования вопросов — это предварительно обученный трансформер «текст в текст», тонко настраивающийся на данные NQ, чтобы сгенерировать вопрос для ответа, который отмечен в контексте.
На выводе мы представляем модель генерирования вопросов, альтернативный ответ и контекст, которые был получен на предыдущем шаге.
Давайте, к примеру, рассмотрим вопрос о том, кто является капитаном футбольного клуба «Ричмонд». REALM извлекает отрывки о женской команде клуба, капитаном которой является Джесс Кеннеди, и модель генерирует запрос: «Кто был капитаном первой в истории женской команды футбольного клуба "Ричмонд"?»
Здесь наблюдается определенная семантическая пертурбация.
Аналогичным образом мы получаем запросы такого рода: «Кто является капитаном резервной команды VFL "Ричмонд"?»
«Кого вывел из строя Грэм в финале прошлого года?»
И наконец, мы отфильтровываем подмножество сгенерированных запросов на основе некоторых желаемых характеристик.
Как мы объясняли ранее, нам хотелось бы убедиться, что новый вопрос все еще семантически близок к оригиналу.
Поскольку методы фильтрации не требуют дополнительного контроля, мы просто сохраняем новые вопросы, которые недалеко отошли при редактировании метки токена от оригинального вопроса.
Например, мы удаляем вопрос о том, кого вывел из строя Грэм в гранд-финале прошлого года,
поскольку он слишком далеко отошел от оригинала вопроса.
В ходе экспериментов нам удалось продемонстрировать, что эта простая эвристика может использоваться для приращения и постановки в очередь обучающих данных.
Мы также экспериментируем со стратегией фильтрации в зависимости от типа семантической пертурбации.
Для этого мы используем фреймворк декомпозиции запроса общего назначения под названием QED.
QED идентифицирует две части вопроса, предикат и ссылку.
Ссылка — это именная группа в вопросе, соответствующая объектам в контексте.
Предикат — это, по сути, вся остальная часть вопроса.
Например, мы можем разделить запрос «Кто был капитаном первой женской команды "Ричмонда"?» на две ссылки: «женская команда» «футбольного клуба "Ричмонд"», и предикат «Кто был капитаном X?»
Модель, обученная дополнительной аннотации предиката в NQ, производит такую декомпозицию вопроса.
Декомпозиция как исходного, так и сгенерированного вопроса на основе QED позволяет классифицировать сгенерированные контрфактивы для оценки.
В частности, мы получаем две группы вопросов:
те, которые претерпевают замену ссылки при сохранении предикатов, и те, которые претерпевают замену предиката и опционально добавляют ссылки.
К примеру, вопрос «Кто был капитаном резервной команды VFL "Ричмонд"?»  представляет собой пример по замене ссылки.
А вопрос «Кто в клубе выступает под девятым номером?» — это пример замены предиката.
Теперь мы оцениваем эффективность пертурбаций RGF при приращении к обучающим данным.
Таким образом, для эффективной оценки, в частности, эффективности контрфактивного приращения, мы экспериментируем с двумя сильными базовыми методами приращения данных.
Первая базовая линия по генерации случайных ответов и вопросов добавляет данные, которые не имеют отношения к исходному вопросу.
То есть отрывки и ответы просто случайным образом берутся из «Википедии».
По сути, эта базовая линия вводит дополнительные данные, которые выглядят как NQ.
На второй базовой линии по генерации «золотых» вопросов и ответов мы специально обновляем возвратную часть нашего метода.
Здесь альтернативные ответы просто выбираются из того же отрывка, который содержит «золотой» ответ.
Как же приращение базовых линий и RGF влияет на понимание прочитанного, когда модель имеет доступ к вопросу и контексту?
Мы провели эксперименты с шестью доменными наборами данных и представляем здесь результаты, показывающие, что обучающие данные удваиваются при приращении.
Было обнаружено, что обе базовые линии по приращению данных неспособны к лучшему обобщению выбранного домена.
Фактически ансамбль из шести моделей, обученных на исходных данных, кажется наиболее конкурентоспособной базовой линией.
При сравнении с той базовой линией мы видим, что контрафактивы RGF способны улучшить эффективность вне домена, сохраняя при этом производительность внутри домена.
Это говорит о том, что заполнение пробелов в способности модели к рассуждению посредством контрфактивного приращения является более эффективным подходом, чем добавление дополнительных данных из обучающего материала.
Кроме того, мы считаем, что использование возвращения для выборки альтернативных результатов или ответов важно для эффективности CDA.
Мы также экспериментируем с открытой доменной настройкой QA, при которой модель видит только вопрос, и снова проводим оценку по четырем доменным наборам данных.
Было обнаружено, что базовые модели не столь эффективны при обобщении вне домена.
Однако приращение данных с помощью RGF показывает более значительные улучшения.
Улучшения наблюдаются даже при использовании доменных наборов данных NQ.
Мы предполагаем, что контрфактивное приращение данных помогает модели лучше усвоить процесс кодировки очень похожих запросов.
И наконец, мы также оцениваем способность модели к увеличению постоянства в области, близкой к исходному вопросу.
Постоянство измеряется долей вопросов, на которые модель давала правильные ответы как в случае исходного, так и в случае контрфактивного запроса.
Вне всяких сомнений, это помогает оценить надежность модели при небольших пертурбациях в районе исходного входа.
Мы экспериментируем с пятью наборами данных, содержащими пары вопросов, семантически близких друг к другу.
Помимо трех наборов данных (AQA, AmbigQA и QUOREF-контрастного), которые уже доступны для нас, мы также проводим оценку по контрафактивам RGF, сопряженным с исходными вопросами NQ, на основе того, претерпели ли они смену предиката или ссылки.
Эти подмножества аннотированы на базе нашей организации для устранения шума и предложены в качестве ресурса.
Ни одна базовая линия не способна значительно улучшить постоянство с объединенной моделью, но делает это с небольшим отрывом.
Тем не менее, контрфактивное приращение RGF произвело впечатляющий прирост постоянства как на прежних наборах данных, так и на двух подмножествах, которые мы подобрали для ссылочной и предикативной пертурбации.
Обратите внимание, что приращенные данные RGF не свободны от предубеждений по типу пертурбации в отличие от оценочных наборов.
На самом деле качественная инспекция типов сгенерированных контрфактивов показывает, что генерируемые вопросы содержат несколько различных пертурбаций.
К примеру, исходный вопрос о населении Уолнат-Гров в штате Миннесота пертурбирован в таких измерениях, как город, штат, страна, а также такими разнообразными предикатами, как местоположение, уровень бедности и количество школ.
Аудио пертурбаций специфично в зависимости от контекста.
Например, для другого вопроса об одиночном разряде Уимблдонского турнира пертурбация происходит по типу игры, виду турнира или результату игры.
В заключение стоит отметить, что мы решаем задачу контрфактивного приращения данных и пертурбации в запросах по поиску информации, а также рассматриваем уникальные проблемы в этой сфере путем изменения генерирующего подхода вместо генерации с использованием потенциальных промахов модели и фильтров, основанных на типах пертурбации или минимализма.
Мы считаем, что этот метод не требует дополнительного контроля, и примеры помечаются по приращению.
Приращение улучшается в условиях доменного обобщения и постоянства в ближайших сферах.
И мы также считаем, что RGF-контрфактивы семантически разнообразны и без введения предвзятости при приращении.
Спасибо.
