Olá, sou a Elena e vou apresentar o nosso trabalho, Detecção de empréstimos não assimilados em espanhol: um Annotated Corpus e abordagens para modelagem.
Vamos abranger o que é o empréstimo lexical, a tarefa que propusemos, o conjunto de dados que lançámos e alguns modelos que explorámos.
Mas, para começar, o que é empréstimo lexical e porque é importante como uma NLP task?
Bem, o empréstimo lexical é basicamente a incorporação de palavras de uma linguagem noutra linguagem.
Por exemplo, em espanhol usamos palavras oriundas do inglês.
E aqui tem alguns exemplos, palavras como podcast, app e financiamento coletivo online, todas estas são palavras em inglês que às vezes usamos em espanhol.
O empréstimo lexical é um tipo de empréstimo linguístico que basicamente se reproduz em padrões de linguagem de outras linguagens.
E empréstimos e alternâncias de código linguístico (também conhecidas como "code switching") têm sido por vezes comparados e descritos como um contínuo, sendo a alternância de código linguístico aquilo que os bilíngues fazem quando misturam duas linguagens ao mesmo tempo.
No entanto, existem algumas diferenças entre o empréstimo lexical e a alternância de código linguístico.
Vamos concentrar-nos no empréstimo lexical.
A alternância de código linguístico é algo que é feito por bilíngues e, por definição, essas alternâncias não estão integradas em nenhuma das linguagens em uso, enquanto que o empréstimo lexical é algo que também é feito por monolingues.
Os empréstimos estarão em conformidade com a gramática do idioma de destino.
E os empréstimos podem eventualmente ser integrados no idioma de destino.
Porque é que o empréstimo é um fenómeno interessante?
Bem, do ponto de vista da linguística, o empréstimo é uma manifestação de como as linguagens mudam e como interagem.
Além disso, os empréstimos lexicais são uma fonte de novas palavras.
Aqui estão alguns exemplos de empréstimos lexicais que foram incorporados no idioma espanhol como novas palavras.
Em termos de NLP, os empréstimos são uma fonte comum de palavras fora do vocabulário.
E, de facto, a detecção de empréstimos lexicais automaticamente provou ser útil para tarefas posteriores a NLP, como análise, síntese de texto-para-fala ou machine translation.
Tem havido um interesse crescente na influência do inglês noutras linguagens, particularmente relacionadas com empréstimos lexicais ingleses, empréstimos que às vezes têm sido chamados de anglicismos.
E aqui estão alguns exemplos de trabalho de detecção automática de empréstimos em algumas dessas linguagens.
Assim, a tarefa que propomos é detetar empréstimos lexicais não assimilados no Newswire espanhol.
Isto significa que estamos interessados em extrair palavras emprestadas de outras linguagens que estão a ser usadas em jornais espanhóis, mas que não foram integradas nem assimiladas no idioma de destino.
Ainda não estão integradas no espanhol.
Aqui está um exemplo.
Esta é uma frase em espanhol: Las prendas best-sellers se estampan con motivos florales, animal print o retales tipo patchwork.
Como podem ver, há três espaços de textos que são na verdade palavras inglesas, como "best-seller", "animal print" e "patchwork".
Estes são os tipos de espaços que estamos interessados em extrair e detetar.
Houve uma palavra anterior sobre detecção de anglicismos que consistia num modelo CRF para detecção de anglicismos no Newswire espanhol.
Este modelo alcançou uma pontuação F1 de oitenta e seis.
Mas havia algumas limitações tanto no conjunto de dados como na abordagem de modelagem.
Portanto, o conjunto de dados concentrou-se exclusivamente numa fonte de notícia, consistia apenas em manchetes.
E também houve uma sobreposição nos empréstimos que aparecem no conjunto de treinamento e no conjunto de testes.
Isto impediu a avaliação de se a abordagem de modelagem poderia realmente generalizar para empréstimos anteriormente não conhecidos.
Assim, o que pretendemos é enfrentar algumas destas limitações na tarefa.
Para começar, criámos um novo conjunto de dados.
O objetivo foi um novo conjunto de dados anotado com empréstimos lexicais e o objetivo era criar um conjunto de testes o mais difícil possível.
Portanto, haveria sobreposição mínima em palavras e tópicos entre o conjunto de treinamento e o conjunto de testes.
Como resultado, o conjunto de testes vem de fontes e datas que não estamos a ver no conjunto de treinamento.
Aqui pode ver-se que não há sobreposição no tempo.
Além disso, o conjunto de testes também é muito denso em palavras emprestadas.
Apenas para fornecer alguns números, se o conjunto de treinamento contém seis empréstimos por cada mil tokens, o conjunto de testes continha vinte empréstimos por cada mil tokens.
O conjunto de testes continha o maior número possível de palavras de vocabulário.
Na verdade, noventa e dois por cento dos empréstimos no conjunto de testes são OOV.
Então, não foram vistos durante o treinamento.
E o corpus linguístico consistia basicamente numa coleção de textos que vinham de diferentes fontes de jornais espanhóis.
E foi anotado à mão usando duas etiquetas.
Um para empréstimos lexicais do inglês, que constituem a maioria dos empréstimos lexicais em espanhol e, em seguida, o rótulo "outros" para empréstimos de outras linguagens.
Usamos formatos CONLL e usamos codificação BIO para que pudéssemos codificar empréstimos de token único, como empréstimos em aplicações ou multi token, como machine learning.
Estes são os números do corpus linguísitcos.
Como se pode ver, isto equivale a cerca de trezentos e setenta mil tokens.
E aqui está o número de espaços que foram rotulados como inglês e os espaços que foram rotulados como outros empréstimos e quantos deles eram únicos.
E aqui estão alguns exemplos do conjunto do conjunto de dados.
Como pode ver por exemplo aqui, temos no primeiro exemplo a preparação em lote de empréstimos que é um empréstimo multipalavra.
E nós anotámos usando a codificação BIO.
Então o BIO foi usado para palavras em espanhol, não para palavras que não foram emprestadas.
E aqui neste segundo exemplo, existe "benching" e "crash", que também são rotulados como empréstimos do inglês.
Assim, uma vez que tínhamos o conjunto de dados, explorámos vários modelos para a tarefa de extrair e detetar estes empréstimos lexicais.
O primeiro que tentámos foi o modelo de campo aleatório condicional.
Este foi o modelo que tinha sido usado no trabalho anterior.
E usámos as mesmas características artesanais das desse trabalho.
Como se pode ver, estas são as características.
Estas são características binárias, como a palavra ou o token em maiúsculas?
O título está capitalizado?
É um símbolo de aspas?
Coisas assim, que são o tipo de características que se esperaria numa tarefa de named entity recognition.
Estes são os resultados que obtivemos.
Obtemos cinquenta e cinco pontuações F1 usando o modelo CRF com características artesanais.
O que é uma enorme diferença comparada com a pontuação F1 relatada de oitenta e seis, que foi o resultado obtido com o mesmo modelo CRF, as mesmas características, mas num conjunto de dados diferente também para detecção de empréstimos lexicais no espanhol.
Assim, isto prova que o conjunto de dados que criámos é mais difícil e que precisávamos explorar modelos mais sofisticados para estas tarefas.
Então, testámos dois modelos baseados em transformadores.
Usámos BETO, que é um modelo BERT monolíngue treinado para espanhol e também multilingual BERT.
Ambos os modelos foram usados através da biblioteca de transformadores da HuggingFace.
Estes são os resultados que obtivemos.
Como se pode ver, multilingual BERT tem um desempenho melhor do que o BETO tanto no conjunto de desenvolvimento como no conjunto de testes e em todas as métricas.
Só para termos uma ideia para comparar, o modelo CRF obteve um oitenta e dois.
O modelo CRF obteve uma classificação de cinquenta e cinco F1, enquanto que o multilingual BERT obteve oitenta e dois, o que é uma grande diferença.
Assim que obtivemos estes resultados, fizemos outra pergunta: poderíamos encontrar um modelo BiLSTM-CRF, alimentá-lo com diferentes tipos de integrações, integrações que codificam diferentes tipos de informações linguísticas e superam os resultados obtidos por modelos baseados em transformadores?
Para fazer isto, realizámos algumas experiências preliminares, e aplicámos isto no modelo BiLSTM-CRF usando a biblioteca de flares.
E tentámos experimentar com diferentes tipos de integrações, como com base em transformadores, mas também texto rápido, integrações de caracteres, e assim por diante.
O que descobrimos foi que integrações baseadas em transformadores tiveram um desempenho melhor do que integrações não contextualizadas, que a combinação de integrações do BERT inglês e do BETO espanhol supera as integrações do multilingual BERT.
E que integrações BPE produziu melhor F1 e integrações de caracteres produzem melhor memória.
Com isto em mente, estes foram os resultados de melhor desempenho que obtivemos.
Ambos os modelos foram modelos BiLSTM-CRF usando flare.
Um foi alimentado com integrações BETO e BERT e também BPE, e o outro com integrações BETO e BERT, BPE e também integração de caracteres.
Este último foi o que produziu a maior pontuação F1 no conjunto de testes, embora a maior pontuação no conjunto de desenvolvimento tenha sido obtida por aquele sem integrações de caracteres.
Apenas para ter em mente que o melhor resultado que obtivemos com o multilingual BERT obteve uma F1 de setenta e seis no conjunto de desenvolvimento e oitenta e dois no conjunto de testes.
Isto é uma melhoria em comparação com esses resultados.
Finalmente, fizemos outra pergunta: a detecção de empréstimos lexicais poderia ser enquadrada como transfer learning de language identification na alternância de código linguístico?
Então, executámos o mesmo modelo BiLSTM-CRF que executámos usando o flare, mas em vez de usar estas integrações BETO e BERT não adaptadas com base em transformadores, usámos integrações de alternância de código linguístico.
O que são integrações de alternância de código linguístico?
São integrações ajustadas de integrações com base em transformadores que foram pré-treinadas para language identification na secção espanhol-inglês do conjunto de dados de alternância de código linguístico do código LinCE.
LinCE é um conjunto de dados sobre alternância de código linguístico que tem uma secção sobre alternância de código linguístico espanhol-inglês.
Alimentámos o nosso BiLSTM-CRF com integrações de alternância de código linguístico e opcionalmente integrações de caracteres, integrações BPE e assim por diante.
O melhor resultado que obtivemos foi oitenta e quatro vírgula vinte e dois, que é o mais alto em todos os modelos que experimentámos no conjunto de testes.
Embora o melhor resultado F1 que obtivemos no conjunto de desenvolvimento, que foi de setenta e nove, tenha sido menor do que o melhor resultado obtido pelo BiLSTM-CRF alimentado com integrações não adaptadas.
Aqui estão algumas conclusões do nosso trabalho.
Produzimos um novo conjunto de dados do newswire espanhol que é anotado com empréstimos lexicais não assimilados.
Este conjunto de dados é mais denso em empréstimos e rico em OOV do que recursos anteriores.
Explorámos quatro tipos de modelos para detecção de empréstimos lexicais.
Um. Em termos de análise de erros, a memória foi um ponto fraco para todos os modelos.
Como spode ver aqui, alguns falsos negativos frequentes incluem empréstimos em maiúsculas, palavras que existem em inglês e espanhol, por exemplo.
Também, curiosamente, as integrações BPE parecem melhorar a pontuação F1.
E a integração de caracteres parece melhorar a memória.
O que é uma descoberta interessante que talvez possamos explorar em trabalhos futuros.
Um. Bem, isto é tudo o que tenho.
Muito obrigado por ouvirem.
Chamo-me Antoine.
Sou estudante de doutoramento na Universidade de Massachusetts Amherst.
Estou apresentando o nosso artigo KinyaBERT: um language model de Kinyarwanda sensível à morfologia.
Hoje, vou falar sobre a motivação para esta pesquisa.
Em seguida, apresentarei a arquitetura do modelo KinyaBERT em detalhe.
Vou então falar sobre os nossos resultados experimentais, e depois terminar com algumas conclusões.
Todos nós sabemos que os avanços recentes em natural language processing foram possíveis pelo uso de modelos de linguagens pré-treinadas como o BERT.
No entanto, ainda há um número de limitações.
Devido à complexa morfologia que é expressa pela maioria das linguagens morfologicamente ricas, o omnipresente algoritmo de tokenização de byte pair encoding que usei não consegue extrair as unidades lexicais de subpalavra, o que significa os morfemas, que são necessários para representação eficaz.
Por exemplo, aqui temos três palavras Kinyarwanda que têm vários morfemas nelas, mas os algoritmos BPE não conseguem extraí-los.
Isto ocorre porque algumas regras morfológicas produzem diferentes formas de superfície que escondem a informação lexical exata, e o BPE, que é baseado exclusivamente nas formas de superfície, não tem acesso a este modelo lexical.
O segundo desafio é que, mesmo que se tivesse acesso a um morphological analyzer oráculo, a substituição de tokens BPE por morfemas não é suficiente para expressar a composicionalidade morfológica.
Uma terceira lacuna na pesquisa é que os novos modelos de linguagens pré-treinadas são mais frequentemente avaliados em linguagens com elevados recursos.
E também precisamos de avaliar a sua aplicabilidade com recursos baixos e linguagens diversas.
Assim, apresentamos o KinyaBERT, que é uma adaptação simples mas eficaz da arquitetura BERT, e que se destina a lidar com mais eficácia com linguagens morfologicamente ricas.
Avaliamos o KinyaBERT sobre o Kinyarwanda, um idioma morfologicamente rico de low resource, que é falado por mais de doze milhões de pessoas em toda a África Oriental e Central.
A entrada para o modelo é uma frase ou um documento.
Por exemplo, temos John twarahamubonye biradutangaza, o que significa que ficámos surpreendidos por encontrar o John lá.
Como se pode ver, as palavras em Kinyarwanda contém vários morfemas que contêm diferentes informações neles.
Assim, no nosso modelo, passamos esta frase ou um documento por um morphological analyzer.
Que então gera morfemas contidos em cada uma das palavras.
Os morfemas são geralmente compostos pelo radical e zero ou mais afixos.
Os afixos podem indicar tempo, aspeto, sujeito ou objeto em verbos, e relacionam-se, muitas vezes, com a classe de substantivo em Bantu para sujeitos e objetos.
O morphological analyzer também produz uma parte da etiqueta de fala para cada uma das palavras.
Após este passo, fazemos integrações para a parte das etiquetas de fala.
Integrações para os afixos.
E integrações para o radical.
Estes são o nível de morfologia, estes são o nível de integrações de morfologia.
Em seguida, passamos estas integrações através de um codificador de morfologia, que é um pequeno transformer encoder que é aplicado a cada palavra independentemente.
A saída do são os vetores que são contextualizados com a informação morfológica em cada palavra.
Agora, realizamos a composição onde as integrações morfológicas correspondentes à parte da fala e radical são encadeadas em conjunto.
Encadeamos ainda mais com outra radical incorporação no nível sentença.
Em seguida, formamos uma entrada para o codificador principal da frase ou do documento.
A saída final são integrações contextualizadas que podem ser usadas para tarefas NLP posteriores.
Para um morphological analyser, usamos princípios de morfologia de estado finito de dois níveis com implementação personalizada que é adaptada ao idioma Kinyarwanda.
Modelamos efetivamente a morfologia de todas as palavras em Kinyarwanda, incluindo verbos, substantivos, pronomes demonstrativos e possessivos, numerais e outros.
Usamos uma parte não supervisionada de algoritmo de rotulagem de fala.
É usado um modelo integrado de primeira ordem para contabilizar a probabilidade de morfologia, basicamente a probabilidade que é atribuída pelo morphological analyzer.
Também levamos em consideração a parte da precedência da etiqueta de fala, bem como os acordos sintáticos que estão presentes nas palavras de entrada.
A parte de marcador de fala usa uma inferência bidirecional que melhora o mais frequentemente usado algoritmo para descodificar Viterbi.
Algumas observações aqui para positional encoding.
Um, o codificador de morfologia não usa qualquer positional encoding.
Isto ocorre porque cada um dos morfemas ocupa um espaço conhecido no modelo morfológico.
Assim, a informação posicional é inerente quando os morfemas são dados.
Em segundo lugar, o codificador de frases usa os chamados integrações posicionadas relativas desassociadas, que foram recentemente publicadas na conferência ICLR.
Estas integrações posicionais essencialmente desassociam as correlações posicionais de token para computação de atenção de tokens.
De forma semelhante ao BERT, usamos um objetivo de pretraining masked language model.
Essencialmente, temos de prever tanto o radical como os afixos que estão associados às palavras.
Durante o pretraining, quinze por cento de todas as palavras são consideradas para previsão, das quais oitenta por cento são mascaradas, dez por cento são trocadas por palavras aleatórias e dez por cento permanecem inalteradas.
Para previsão de afixos, enfrentamos alguns problemas de classificação de rótulo múltiplo.
Para isso, agrupamos afixos num número fixo de conjuntos e prevemos o conjunto como um rótulo de classe.
A outra opção é prever o vetor de probabilidade de afixo.
Nós avaliamos ambas as abordagens nas nossas experiências.
Pré-treinamos o KinyaBERT com cerca de dois gigabytes e meio de texto Kinyarwanda e comparamos com três modelos de linhas de referência.
Um deles é um modelo de vários idiomas chamado XLM-R, que é treinado num grande texto de corpora linguística composto por várias linguagens.
As outras duas linhas de referência são pré-treinadas com o mesmo texto Kinyarwanda usando o algoritmo byte pair encoding ou usando morphological analysis sem usar a arquitetura de dois níveis de transformer encoder.
Todos os modelos são configurados na arquitetura base, que é de cerca de cento e cento e dez milhões de parâmetros, com Kinyarwanda com KinyaBERT usando o menor número de parâmetros.
Todos os modelos exceto o de vários idiomas são pré-treinados para trinta e dois mil atualizações em gradiente com um tamanho de lote de dois mil quinhentos e sessenta sequências em cada lote.
Avaliamos os modelos pré-treinados em três conjuntos de tarefas.
Uma delas é o benchmark GLUE, que tem sido frequentemente usado para avaliar a eficácia de modelos de linguagens pré-treinadas.
Obtemos nossos dados de referência GLUE traduzindo os dados de referência originais para Kinyarwanda usando o Google Translate.
A segunda tarefa é o benchmark named entity recognition de Kinyarwanda, que é um conjunto de dados de qualidade que foi anotado por falantes nativos treinados.
A terceira é uma tarefa de categorização de notícias, onde tratamos artigos de notícias de vários sites e recolhemos as suas etiquetas de categorização que foram atribuídas pelos autores e, essencialmente, tentamos prever as mesmas categorias.
E agora vamos aos resultados.
Para o benchmark GLUE, descobrimos que o KinyaBERT supera consistentemente os modelos de linha de referência.
Aqui mostramos o desempenho médio para dez execuções de ajuste fino.
Também realizamos uma avaliação de utilizadores das traduções que são produzidas pelo Google Translate.
Essencialmente, os utilizadores classificaram cerca de seis mil exemplos, atribuindo pontuações numa escala de um a quatro, avaliando a qualidade das traduções.
O resultado é que muitas traduções tinham ruído.
Mas todos os modelos tiveram de lidar com o mesmo ruído na tradução, e continua a ser importante notar o desempenho relativo entre os modelos.
Para a tarefa name entity recognition, também descobrimos que o KinyaBERT oferece o melhor desempenho, com a variante de regressão de distribuição de afixos com melhor desempenho.
Estes resultados são também médias de dez execuções de ajuste fino.
Para a tarefa de categorização de notícias, encontramos resultados mistos.
Trabalhos anteriores sobre classificação de texto para Kinyarwanda descobriu que a detecção de palavra-chave simples é maioritariamente suficiente para resolver esta tarefa específica.
Assim, há menos ganho com o uso de modelos de linguagens pré-treinadas.
Sobre esta tarefa particular de categorização de notícias.
Também realizámos um estudo de ablação para ver se existem estruturas alternativas que melhorem o desempenho.
Para o benchmark GLUE, descobrimos que o uso de conjuntos de afixos tem um desempenho melhor de forma consistente, enquanto o objetivo de regressão de probabilidade de afixos produz o melhor desempenho em named entity recognition.
Ao observar as pontuações baixas para ajuste fino, descobrimos que o KinyaBERT tem melhor convergência na maioria dos casos.
Como conclusão, este trabalho demonstrou a eficácia do uso explícito de informação morfológica em modelos de linguagens pré-treinadas.
A arquitetura proposta de dois níveis transformer encoder permite capturar a complexidade morfológica e a composicionalidade morfológica, que é um aspecto importante de linguagens morfologicamente ricas.
Estes resultados devem motivar mais pesquisa em modelos linguagens pré-treinadas em linguagens sensíveis à morfologia.
Olá, o meu nome é Michał Pietruszka e tenho o prazer de apresentar o artigo intitulado Dispersão de modelos transformadores com agrupamento de representação treinável.
Um trabalho feito na Applica AI em cooperação com Lukasz Borchmann e Lukasz Garncarek.
Permitam-me que comece pelos problemas que os nossos objectivos de trabalho nos propõem.
O nosso método funciona bem para os casos em que são consideradas entradas longas.
Grosso modo, destina-se para as ordens de tarefa e entrada de mais de dois mil tokens e os alvos são mais curtos do que as entradas fornecidas.
Isto tem algumas aplicações específicas em NLP.
Por exemplo, pode-se imaginar que, dado um longo documento, há uma necessidade de o resumir, classificar, responder a perguntas sobre ele, extrair informações ou algumas frases-chave.
Deixem-me lembrar o transformador básico e o seu problema de complexidade de atenção que depende do quadrado da linha de entrada.
No transformador básico, com conectividade total de atenção, devem ser calculadas relações de cada token com todos os outros tokens.
A complexidade computacional de atenção depende do número de camadas l, comprimento da sequência n, outro comprimento de sequência e a dimensionalidade de representações.
Da mesma forma, na atenção cruzada do descodificador, para esta imagem no lado direito, a única diferença aqui é que os tokens de destino estão a atender os tokens de entrada neste caso.
O que também pode ser visto nesta fórmula.
A BLEU score representa relações que têm de ser calculadas.
No caso da atenção completa, precisamos de calcular todas as relações dentro da sequência de entrada.
Agora, vemos o que acontece quando temos um codificador em bloco que funciona limitando a conectividade dos tokens para que possam ver apenas outros tokens próximos.
O texto é lido em pedaços que podem reduzir drasticamente o número de cálculos no lado do codificador, mas não melhora a atenção cruzada do descodificador, pois cada token de entrada é passado para o descodificador de qualquer forma.
Este método é muitas vezes referido como fusão no descodificador.
A melhoria aqui pode ser interpretada como a alteração de uma das dependências de n para outra constante m que representa o tamanho do bloco.
A nossa principal observação é que a maioria dos tokens é irrelevante para uma ampla variedade de tarefas e pode ser quase completamente desconsiderada. Isto é exemplificado no diapositivo.
As únicas partes das entradas são relevantes para a saída pretendida.
Por exemplo.
Pode ler-se um artigo uma vez marcando as partes mais importantes com um marcador fluorescente e, em seguida, produzir um resumo baseado apenas nessa parte na fase intermédia.
O custo de destacar e decidir se o token atual é essencial para produzir o resumo é, portanto, barato e depende apenas da representação do token.
É possível agrupar os tokens marcados.
Graças ao nosso operador top k, e seu custo é insignificante.
O custo de produzir um resumo a partir de uma entrada encurtada também é muito menor do que no modelo básico quando é considerada a entrada completa.
Mas aqui está uma pergunta.
Como selecionar tokens importantes e retropropagar gradientes para essa seleção?
O problema subjacente essencial que resolvemos é propor o mecanismo de seleção treinável.
Um que possa permitir que o gradiente seja retropropagado durante o treinamento para que a rede possa aprender a selecionar os tokens mais importantes.
Mais precisamente
Dado algumas integrações obtidas a partir de uma camada simples linear, a tarefa é obter as integrações com maior pontuação. Primeiro, a sequência é permutada e os pares são preparados para que o  vetor de pontuação mais alta seja obtido com o de pontuação mais baixa.
Em seguida, os pesos são calculados usando softmax potenciado sobre as pontuações.
Após cada rodada de torneio, os novos vetores e pontuações são compostos como uma combinação linear desses pares com os pesos obtidos.
Então, em suma, nós combinamo-los linearmente, realizando um softmax sobre as suas pontuações.
E ao combinar dois tokens, pode ser produzido algum ruído.
Mas também permite que os gradientes sejam propagados para todas as integrações de entrada.
Em suma, um top k treinável que propomos é baseado na realização de um torneio como seleção suave em cada passo.
E de uma perspectiva diferente, o agrupamento de representação segue a camada do codificador.
Primeiro, cada representação é classificada e, em seguida, apenas aqueles com as pontuações mais altas são passados para a próxima camada.
A codificação pode ser realizada como na arquitetura padrão do transformador em todo o comprimento da entrada.
No entanto, é possível processar texto em blocos de comprimento fixo e selecionar globalmente a melhor representação.
Aqui está um exemplo do agrupamento de representação introduzido após o codificador.
Isto influenciou diretamente a causa da atenção cruzada, que não depende do comprimento da entrada N, mas da constante K, representando o comprimento agrupado.
Esta constante informa quantas representações são selecionadas e passadas para o decodificador.
Produzir um resumo a partir de um texto mais curto é significativamente mais barato do que a solução anterior.
Dado que o comprimento da sequência pode ser encurtado por um fator grande.
Por exemplo, usamos com sucesso k de dezasseis ou mesmo sessenta vezes quatro ou mesmo sessenta e quatro vezes menor do que o valor de n nas nossas experiências.
Observe-se que o impacto benéfico da codificação em bloco e da atenção autónoma é sustentado.
Lembrem-se de que o custo computacional de atenção depende do quadrado do comprimento de entrada.
Reduzir a entrada mais cedo durante o processo de codificação pode reduzir significativamente os custos.
Para o modelo piramídio, reduzimos o tamanho da representação na saída de cada uma das camadas escolhidas, levando à redução exponencial do custo computacional à medida que a codificação prossegue.
Como se pode ver, o custo computacional total de um codificador completo aqui é menos de duas vezes o custo da primeira camada em tamanho real.
Quando o agrupamento é introduzido anteriormente, a soma de todos os quadrados roxos é, portanto, limitada a uma constante, não dependente do número de camadas l.
Mas na constante c, que pode ser influenciada pela colocação das camadas de agrupamento dentro da rede.
As nossas melhorias foram comparadas em oito mil entradas longas de tokens.
E a figura mostra que, quando o agrupamento é ativado, é alcançada a melhor escalabilidade para a profundidade da rede.
Aqui pode-se notar que treinar o piramídio de vinte e quatro camadas pode ser mais barato do que treinar um transformador básico de duas camadas em entradas tão longas.
Sem mencionar a facilidade com que o transformador básico pode ficar sem memória para uma entrada tão longa.
A comparação qualitativa do nosso piramídio de tendência com outra linha de referência é realizada na tarefa de sumarização do documento longo, ou, dado o corpo de um artigo do arXiv ou PubMed, a tarefa é gerar o seu resumo.
Assim, pode ver-se em termos de bloco, que é a nossa linha de referência, executa-se no nível dos recentes modelos de última geração, enquanto que o piramídio mantém ou melhora o desempenho desta linha de referência competitiva.
Ao mesmo tempo, o nosso modelo é oitenta por cento mais rápido para treinar e mais de quatrocentos e cinquenta por cento mais rápido na inferência quando comparado com linha de referência em bloco.
Ambos os modelos têm contagens de parâmetro muito mais baixas e foram treinados do zero nas tarefas escolhidas.
As abordagens anteriores para alcançar um desempenho semelhante tiveram de usar mais parâmetros e alavancar modelos fundamentais de base pré-treinados e objetivos adicionais de pré-treinamento de idiomas para alcançar um desempenho semelhante.
Recomendamos a leitura do nosso artigo completo e a utilização do nosso código do GitHub.
Obrigado por assistir.
Olá, o meu nome é Jiawei Zhou da Universidade de Harvard.
Estou muito feliz por apresentar o nosso trabalho em Semantic parsing online para redução de latência em diálogo orientado para tarefas.
Este é um trabalho conjunto com Jason, Michael, Anthony e Sam da Semantic Machines da Microsoft.
Em diálogo orientado para tarefas, um utilizador interage com o sistema que lida com solicitações de enunciados de utilizadores, geralmente na fala.
Desde o final do enunciado do utilizador até à resposta do sistema, existe muitas vezes um atraso percetível.
Na prática, o enunciado do utilizador é traduzido num programa executável.
Que é então executado para que o sistema possa responder adequadamente.
Como o programa é representado como um gráfico semântico que descreve a computação, onde o nó representa uma invocação de função e seus valores secundários são os argumentos.
Os grandes nós marcam operações instantâneas, mas os outros demoram a executar.
No exemplo simples que mostramos aqui, estes programas podem ser gráficos muitas vezes mais complicados para além das estruturas em árvore.
Nesta palestra, fazemos a pergunta, podemos começar a gerar o programa e executá-lo antes mesmo de o utilizador terminar o enunciado para que possa ser alcançada uma resposta mais rápida pelo sistema?
Isto é o problema de previsão e decisão online.
Há muitos outros neste reino.
Exemplos incluem tradução simultânea, onde um intérprete ao vivo traduz um idioma para outro em tempo real, preenchimento automático inteligente de texto para adivinhar a intenção do utilizador e Uber Pool para onde os motoristas são enviados para onde podem ser necessários com base na procura prevista.
Todos estes cenários têm uma coisa em comum.
Ou seja, é benéfico tomar decisões antes de ver todas as entradas.
No nosso caso, vamos lidar com semantic parsing online, o que pode ser um desafio, pois temos de adivinhar o que o utilizador poderá dizer.
E também é pouco explorado sem nenhuma métrica formal de avaliação.
Primeiro, vamos ver como funciona um sistema comum.
Está a ser operado offline por parsing para o programa apenas no final do enunciado do utilizador.
Aqui, o gráfico de caracteres é previsto depois de ver todas as informações.
Em contraste, estamos a propor um sistema online que faz uma comparação em cada prefixo do enunciado.
Por exemplo, de cada vez que vemos um novo token, prevemos um novo gráfico.
Observem que podem haver erros.
Na posição da festa na piscina com o Barack Obama, temos um gráfico com os nós certos na pessoa e no sujeito do evento, mas adivinhamos a informação de tempo incorreta.
Este processo continua até recebermos o enunciado do utilizador completo.
Como é que isto afetaria o cronograma de execução no sistema offline?
Teremos o gráfico do programa no final para que o sistema possa iniciar a execução nesta altura.
Lembremo-nos de que os grandes nós são operações rápidas, por isso, consideramos apenas a linha do tempo de execução das funções lentas coloridas.
Primeiro, estas duas funções de encontrar a pessoa podem ser executadas em paralelo, destacadas a branco a partir da caixa rosa, pois não têm dependência com outras funções.
Em seguida, o nó de criar evento pode então ser executado após a obtenção de resultados de nós de nível inferior e, em seguida, o rendimento da função principal para que todo o programa seja concluído.
O processo de execução é rigoroso, restrito à estrutura de dependência do programa onde algumas operações não podem ser paralelizadas, o que induz um atraso percetível.
No nosso sistema online, onde prevemos à medida que avançamos, a execução do programa pode começar mais cedo.
Aqui, no prefixo depois de Obama, prevemos com confiança que a função de encontrar pessoa deve estar no programa, mas o resto pode conter erros à medida que ficam acinzentados.
A execução do nó pode ser iniciada imediatamente como um passo.
Então, com mais tokens, prevemos um gráfico totalmente novo, mas parte dele já está a ser executado.
Então, só precisamos de considerar o resto dos nós sobre os quais também estamos confiantes.
Aqui, outro processo de encontrar pessoa pode ser executado em paralelo.
Mais uma vez, podemos ter previsões erradas.
Com mais texto, temos mais capacidade de acertar.
Tal como o tempo do evento aqui, onde AM também é antecipado corretamente.
Em seguida, podemos começar a executar o resto seguindo a estrutura de dependência do programa.
Ao sobrepor a linha do tempo de execução com a linha do tempo do enunciado, poupamos muito tempo.
Então propusemos a tarefa de semantic parsing online.
Uma suposição subjacente é que o tempo de execução domina o tempo de previsão de modelo.
Portanto, só podemos ganhar tempo prevendo mais cedo.
Outra suposição é que, como a previsão e a execução acontecem em segundo plano, não são visíveis para os utilizadores.
Não é necessário manter uma história consistente de análise.
Assim, voltamos a analisar a partir do zero após cada token.
Em particular, propomos uma abordagem de dois passos.
Um passo proposto que prevê um gráfico com estrutura completa e um passo de seleção que seleciona os nós que valem a pena executar neste momento.
Tivemos duas variantes do método proposto.
A primeira abordagem combina uma conclusão de modelo de linguagem com enunciado completo a análise de gráfico.
Em particular, o prefixo depois de Obama é primeiro completado através de um modelo de linguagem BART ajustado com precisão e depois traduzido para um programa com analisador offline completo.
A segunda abordagem prevê diretamente o programa a partir de prefixos no enunciado do utilizador.
Isto é conseguido por treinamento de um único analisador online para traduzir para o objetivo gráfico de cada prefixo.
Isto torna mais fácil para o modelo aprender a antecipação correta.
Mais detalhadamente, como geramos estes gráficos?
Formulamos o problema gerando uma versão serial do gráfico.
Cada nó ou aresta é representado por uma ação.
Aqui, começamos a partir do primeiro nó.
O número abaixo regista o índice absoluto no histórico de ações.
Em seguida, temos o segundo nó.
Depois, é a aresta entre eles.
Contém o ponteiro para o índice do nó anterior e o rótulo da aresta.
Zero aqui significa conectar o nó mais recente com o nó gerado pela ação zero e pela próxima aresta do próximo nó.
Este processo continua até gerarmos o gráfico completo.
O modelo subjacente é baseado num transformador com mecanismo de auto-apontamento semelhante a um analisador anterior baseado em transições.
Após gerar um gráfico completo, obtivemos as probabilidades de nível de ação que correspondem a diferentes partes do gráfico.
Selecionamos subgráficos de confiança com base no limiar heurístico a ser executado.
Mais tarde, vamos variar o limite para obter diferentes compensações entre a redução de latência e o custo de execução.
Para avaliação formal dos métodos online, propomos a redução final da latência ou a métrica FLR.
Aqui está uma recapitulação de como um sistema offline termina o cronograma de execução.
Em sistemas online, a execução sobrepõe-se ao cronograma do enunciado, por isso, termina mais cedo.
O FLR é definido como o tempo de redução comparado ao sistema offline, marcado pelo final da execução.
Realizamos experiências em dois grandes conjuntos de dados conversacional de semantic parsing, SMCalFlow e TreeDST.
O nosso analisador com base em gráficos ao operar offline, atinge desempenho de última geração em análise em ambos os conjuntos de dados.
O modelo completo LM também atinge um ganho não trivial BLEU comparado com a linha de referência simples de conclusão do nó.
Agora, vamos olhar para a precisão de previsão do nosso prefixo para analisador de gráficos.
Testamos a classificação de correspondência F1 de múltiplos de gráfico entre a geração e gráfico na validação de dados no eixo y para cada comprimento de prefixo no eixo x representado por percentagens.
Cada uma destas curvas representa um modelo diferente com a única diferença em training data.
A curva inferior é o analisador offline e misturamos os dados de prefixo em diferentes comprimentos para fazer a transição do modelo para um analisador online.
Por exemplo, o prefixo de legenda de mais de oitenta por cento significa que o modelo é treinado com dados de prefixo com comprimento de prefixo maior que oitenta por cento do comprimento total do enunciado.
O canto superior esquerdo é a área desejada.
Como podemos ver, o analisador offline na curva preta não tem um bom desempenho nos dados de prefixo.
Como estamos a misturar mais prefixos em treinamento, a curva está a levantando para cima e para a esquerda, com melhor desempenho em todos os comprimentos de prefixo.
No entanto, o desempenho completo de análise de enunciados não é afetado no ponto superior direito.
Com base nestes resultados fortes, quanta latência reduzimos?
Medimos o tempo pelo número de tokens de fonte e simulamos diferentes tempos de execução da função.
As curvas mostram o compromisso entre a métrica FLR e o custo de execução, medido pelo número de custos de função excessivos que não estão corretos.
Isto é conseguido variando o limite de seleção do subgráfico.
Um limite mais alto seleciona menos funções de erro, mas obtém um FLR menor, enquanto que o limite mais baixo seleciona e executa programas de forma mais agressiva.
Comparamos as duas abordagens que propomos e uma linha de base que não faz nada além de aplicar diretamente o analisador offline para utilização online.
A região superior esquerda tem o melhor FLR e compromisso de custo.
Vemos que ambos os nossos métodos superam a linha de referência por uma margem grande e têm um desempenho mais semelhante no TreeDST.
Embora a execução de funções individuais seja mais rápida, tende a haver mais execuções executadas e menor espaço de redução de latência.
Quando a execução da função individual é mais lenta, há mais espaço para melhoria de FLR.
As nossas duas abordagens alcançam melhor desempenho em diferentes regiões de custo.
No geral, conseguimos uma redução de latência relativa de trinta a sessenta e três por cento, dependendo do tempo de execução e do custo permitido.
Finalmente, temos uma discriminação da redução de latência média em tokens para cada tipo de nó de função quando o custo permitido é de três execuções executadas.
Como podemos ver, há ganhos em toda a linha.
Existem também algumas funções nas quais obtemos uma redução impressionante da latência, onde a barra vermelha é muito mais longa, como encontrar gestor e destinatário.
Estas são funções de baixo nível que não têm muita dependência de outras.
Em conclusão, propusemos semantic parsing online como nova tarefa para explorar com a métrica rigorosa de redução de latência.
Com um forte gráfico com base no analisador semântico, conseguimos uma redução de latência relativamente boa através da nossa abordagem de pipeline com a conclusão de LM e um analisador completo ou diretamente através de um analisador aprendido nos prefixos.
Além disso, a nossa abordagem pode ser uma estrutura geral e pode ser aplicada a outras representações executáveis semânticas em diferentes domínios.
Trabalhos futuros poderiam explorar métodos de previsão e integração de execução mais inteligentes.
Obrigado por me ouvirem.
Olá.
Vou discutir o nosso trabalho de geração de contrafactuais de recuperação aumentados para tarefas de question answering.
Este é o trabalho feito durante o meu estágio no Google Research, onde fui orientado por Matthew Lamm e Ian Tenney.
Para justificar a tarefa, deixem-me começar por definir um contrafactual.
Neste trabalho, definimos um contrafactual como uma perturbação do texto de entrada que difere de alguma forma controlada significativa do texto original.
E permite-nos raciocinar sobre as mudanças no resultado ou no rótulo da tarefa.
Por exemplo, mudar as palavras "fascinante" para "cativante" ou "esperado" para "entorpecedor da mente" muda o sentimento para esta análise de filme.
Da mesma forma, adicionar o qualificador "feminino" à pergunta altera a resposta para a pergunta no exemplo abaixo.
Os seres humanos são tipicamente robustos a tais perturbações em comparação com modelos NLP treinados na tarefa.
Porquê?
O conjunto de dados pode ser amostrado com preconceitos sistemáticos que levam a um limite de decisão simples que é violado pelo contrafactual.
Como mostrado neste problema de classificação 2D.
O meu trabalho descobriu que adicionar exemplos contrafactuais aos dados de treinamento pode tornar o modelo robusto contra tais perturbações.
Então, se os contrafactuais são valiosos, como podemos gerá-los?
Esta tarefa é especialmente difícil para NLP porque aqui estão três exemplos de três diferentes tarefas NLP.
Como se pode ver, exemplos que violam o limite de decisão entre os resultados precisam de ser elaborados com muito cuidado, perturbando alguns atributos do texto que estão sublinhados aqui.
Isto poderia ser feito por anotação humana, mas isso é caro e tendencioso.
Alguns trabalhos anteriores concentraram-se no uso de árvores de sintaxe ou semantic role labeling.
Mas o conjunto de perturbações geradas por estas técnicas é limitado pela estrutura semântica.
Trabalhos mais recentes usaram modelos de linguagem mascarados para preencher partes mascaradas do texto para alterar os rótulos.
Mas descobrir que partes do texto se devem perturbar pode ser desafiador.
Há mais desafios para gerar contrafactuais para question answering especificamente.
Esta tarefa requer conhecimento de fundo.
Por exemplo, para perturbar a pergunta original "O filme Indiana Jones e o tempo perdido é uma prequela?",
precisamos de estar cientes dos outros filmes da série para chegar a uma questão como "O filme Indiana Jones e os caçadores da arca perdida é uma prequela?".
Além disso, perturbações aleatórias podem levar a perguntas que não são respondíveis com as evidências disponíveis ou têm premissas falsas.
Além disso, algumas perturbações da pergunta podem levar a um desvio semântico significativo da entrada original.
Por exemplo, a pergunta "O Indiana Jones pratica escravidão infantil em "O templo perdido"?",
Nós propomos uma técnica muito simples, mas eficaz, chamada "retrieve generate filter" ou RGF, para lidar com perturbações contrafactuais de perguntas, e também visa enfrentar todos os outros desafios acima mencionados.
A intuição central por trás do RGF é que a informação de fundo necessária que é precisa para gerar perturbações podem estar presentes nos quase-acidentes feitos por um modelo de question answering.
Por exemplo, o modelo REALM de última geração produz as seguintes respostas top k para a pergunta "Quem é o capitão do Richmond Football Club?".
Embora recupere a passagem de referência original e responda "Trent Cotchin" como a melhor escolha.
também recupera passagens e respostas adicionais que podem ser usadas para orientar a perturbação de perguntas.
Por exemplo, recupera mais duas respostas correspondentes aos capitães da equipa de reserva e da equipa feminina do mesmo clube, e isso pode levar a edições interessantes.
Para resumir, o RGF recupera primeiro respostas top k mais relevantes e contextos que não correspondem à resposta de referência em contexto.
Após este passo, o modelo de question generation condiciona estas respostas alternativas para gerar uma pergunta que lhes corresponda.
E, finalmente, podemos filtrar as questões geradas com base na minimalidade ou com base no tipo de perturbação semântica que estamos interessados em introduzir.
Analisando cada passo em maior detalhe para recuperação, usamos um modelo de recuperação e leitura como o REALM que toma como entrada a pergunta original e um grande corpus linguístico como a Wikipédia.
É composto por dois módulos.
O módulo de recuperação executa busca por similaridade sobre um denso índice de passagens para recuperar as passagens top k mais relevantes para a pergunta.
E o módulo de leitura, em seguida, extrai um intervalo de cada passagem como uma potencial resposta.
O REALM recupera a passagem de ouro e obtém uma resposta na maioria dos casos.
No entanto, neste trabalho, estamos mais interessados nas respostas e contexto que recupera mais adiante.
No próximo passo, question generation, usamos estas respostas alternativas e contextos para regenerar novas perguntas que correspondem a estas alternativas.
O modelo de question generation é um transformador texto-para-texto pré-treinado que é ajustado com precisão nos dados NQ para gerar uma pergunta para uma resposta marcada em contexto.
Durante a inferência fornecemos o modelo de question generation, a resposta alternativa e contexto que recuperamos no passo anterior.
Por exemplo, para a consulta "Quem é o capitão do Richmond Football Club?", o REALM recupera passagens sobre a equipa feminina do clube, cuja capitã é Jess Kennedy, e o de question generation gera a consulta "Quem foi capitã da primeira equipa feminina do Richmond Football Club?".
Que tem uma perturbação semântica específica.
De uma forma semelhante, também recebemos consultas como "Quem foi capitão da equipa de reserva do Richmond VFL?".
Ou "Quem ganhou ao Graham na grande final do ano passado?".
Finalmente, filtramos um subconjunto das consultas geradas com base em algumas características pretendidas.
Como motivado anteriormente, gostaríamos de garantir que a nova pergunta ainda está semanticamente próxima da original.
Para técnicas de filtragem que não requerem supervisão adicional, simplesmente retemos novas perguntas que têm uma pequena distância de edição da etiqueta do token da pergunta original.
Por exemplo, removemos a pergunta "Quem ganhou ao Graham na grande final do ano passado?".
Porque tem uma distância de edição maior da questão original.
Nas nossas experiências, demonstramos que esta heurística simples pode ser usada para aumentar e enfileirar dados de treinamento.
Também experimentamos uma estratégia de filtragem baseada no tipo de perturbação semântica.
Para este fim, usamos uma estrutura de decomposição de consulta de finalidade geral chamada QED.
A QED identifica duas partes para a pergunta, um predicado e uma referência.
Referências são frases substantivas na pergunta que correspondem a entidades no contexto.
Um predicado é basicamente a parte restante da pergunta.
Por exemplo, somos capazes de decompor a consulta "Quem foi a capitã da primeira equipa feminina de Richmond" em duas referências: a "equipa feminina do Richmond Football Club" e o predicado "Quem foi a capitã de X".
Um modelo treinado em anotações de predicado de referência para NQ dá-nos essa decomposição de pergunta.
A decomposição da pergunta original e gerada com base em QED permite-nos categorizar os nossos contrafactuais gerados para avaliação.
Especificamente, obtemos dois grupos de perguntas.
Aqueles que sofrem uma mudança de referência enquanto retêm predicados, e aqueles que sofrem uma mudança de predicado e opcionalmente adicionam referências.
Por exemplo, "Quem foi o capitão da equipa de reserva do RICHMOND VFL?" é uma mudança de referência,
enquanto que "Quem veste o número nove do clube" é uma mudança predicado.
Agora avaliamos a eficácia das perturbações RGF quando aumentadas para dados de treinamento.
Assim, para avaliar eficazmente a eficácia do aumento de contrafactuais em particular, experimentamos com duas fortes linhas de referência de aumento de dados.
A primeira linha de referência, chamada resposta aleatória e question generation, adiciona dados que não têm relação com a pergunta original.
Ou seja, passagens e respostas são simplesmente amostradas aleatoriamente da Wikipédia.
Essa linha de referência basicamente adiciona mais dados que se parecem com NQ.
Com a segunda resposta de ouro da linha de referência e question generation, atualizamos especificamente a parte de recuperação do nosso método.
Aqui, respostas alternativas são escolhidas da mesma passagem que continha a resposta de ouro.
Como é que o aumento das linhas de referência e do RGF se desempenham na reading comprehension onde o modelo tem acesso a pergunta e contexto?
Experimentamos com seis conjuntos de dados de domínioe apresentamos resultados aqui, onde os dados são os dados de treinamento e são dobrados no aumento.
Descobrimos que ambas as linhas de referência do aumento de dados não são capazes de melhorar a nossa generalização de domínio.
Na verdade, um conjunto de seis modelos treinados nos dados originais parece ser a linha de referência mais competitiva.
Comparando com essa linha de referência, descobrimos que os contrafactuais RGF são capazes de melhorar o desempenho do domínio enquanto mantêm o desempenho do domínio.
Isto sugere que preencher as lacunas de raciocínio do modelo através do aumento de contrafactuais é mais eficaz do que adicionar mais dados da distribuição de treinamento.
Além disso, descobrimos que o uso de recuperação para amostrar resultados ou respostas alternativas é importante para CDA eficaz.
Também experimentamos a definição QA de domínio aberto, onde o modelo vê apenas a pergunta e, mais uma vez, avaliamos quatro dos conjuntos de dados de domínio.
Descobrimos que modelos de linha de referência não são tão eficazes para generalização fora do domínio.
No entanto, o aumento de dados com RGF mostra melhorias mais significativas.
Até melhoramos no conjunto de dados do domínio NQ.
Criámos uma hipótese de que o aumento de dados contrafactuais auxilia o modelo numa melhor aprendizagem de codificações de consultas para consultas muito semelhantes.
Por fim, também avaliamos a capacidade do modelo de melhorar a consistência na vizinhança local da pergunta original.
A consistência mede a proporção de perguntas respondidas corretamente pelo modelo onde tanto a consulta original como a contrafactual são respondidas corretamente.
Isto ajuda-nos explicitamente a medir a robustez do modelo a pequenas perturbações na vizinhança da entrada original.
Experimentamos com cinco conjuntos de dados que contêm pares de perguntas que estão semanticamente próximas umas das outras.
Além dos três conjuntos de dados AQA, AmbigQA e QUOREF-Contrast que já estão disponíveis, também avaliamos os contrafactuais RGF que são emparelhados com perguntas NQ originais com base em se sofreram uma mudança de predicado ou uma mudança de referência.
Estes subconjuntos foram anotados internamente para eliminar o ruído e são fornecidos como um recurso.
Todas as linhas de referência são incapazes de melhorar significativamente a consistência com o modelo do conjunto melhorando a consistência numa pequena margem.
No entanto, o aumento de contrafactuais RGF tem ganhos impressionantes em consistência tanto em conjuntos de dados anteriores quanto nos dois subconjuntos que selecionámos para referência e perturbações de predicado.
Observe-se que os dados RGF aumentados não são influenciado pelo tipo de perturbação, apenas os conjuntos de avaliação o são.
De facto, uma inspeção qualitativa dos tipos de contrafactuais gerados mostra que as perguntas geradas contêm várias perturbações diversas.
Por exemplo, esta pergunta original sobre a população de Walnut Grove, Minnesota é perturbada ao longo de diferentes dimensões como cidade, estado, país e ao longo de diferentes predicados como localização, pobreza, número de escolas.
O áudio de perturbações é específico quanto ao contexto.
Por exemplo, para esta outra pergunta sobre o torneio individual de Wimbledon, a perturbação é ao longo do tipo de jogo, tipo de torneio ou resultado do jogo.
Conclusões finais; abordamos a tarefa de aumento de dados de contrafactuais e perturbações para informações na busca de consultas e abordamos os seus desafios únicos através de uma reversão da abordagem de geração, geramos em demasia usando quase-erros do modelo e filtramos com base no tipo de perturbação ou minimalidade.
Descobrimos que esta técnica não requer supervisão adicional e os exemplos são rotulados para aumento.
O aumento melhora a generalização fora do domínio e a consistência de vizinhança.
E descobrimos que os contrafactuais RGF são semanticamente diversos sem introduzir preconceito durante o aumento.
Obrigado.
