Bonjour, je m’appelle Elena et je vais vous présenter notre travail, [détecter] les emprunts non assimilés en espagnol : un [corpus annoté] et des approches de [modélisation].
Nous allons donc couvrir ce qu’est l’emprunt [lexical], la [tâche] que nous avons proposée, les [données] que nous avons publiées et certains [modèles] que nous avons explorés.
Mais pour commencer, qu’est-ce que l’emprunt [lexical] et pourquoi est-ce important en tant que [tâche de TAL traitement automatique du langage naturel] ?
Eh bien, l’emprunt [lexical] est fondamentalement l’incorporation de [mots] d’une [langue] dans une autre [langue].
[Par] exemple, en espagnol, nous utilisons des [mots] qui viennent de l’[anglais].
Et ici, vous avez quelques exemples : des [mots] tels que podcast, app et crowdfunding [en ligne] ; tous ces [mots] sont des mots [anglais] que nous utilisons parfois en espagnol.
L’emprunt [lexical] est un type d’emprunt [linguistique] qui consiste essentiellement à reproduire dans une [langue] des modèles d’autres [langues].
Et l’emprunt et l’alternance codique ont parfois été [comparés] et décrits comme un continuum, l’alternance codique étant la chose que font les bilingues lorsqu’ils mélangent deux [langues] en même temps.
Il y a cependant quelques différences entre l’emprunt [lexical] et l’alternance codique.
Nous allons nous concentrer sur l’emprunt [lexical].
L’alternance codique est quelque chose qui est fait par les bilingues et par définition, les alternances codiques ne sont pas intégrées dans l’une des [langues] utilisées, alors que l’emprunt [lexical] est quelque chose qui est également fait par les monolingues.
Les emprunts seront conformes à la [grammaire] de la [langue] du destinataire.
Et les emprunts peuvent éventuellement être intégrés dans la [langue] du destinataire.
Alors pourquoi emprunter un phénomène intéressant ?
Eh bien, du point de vue de la [linguistique], l’emprunt est une manifestation de la façon dont les [langues] changent et comment elles interagissent.
Et aussi, les emprunts [lexicaux] sont une [source] de nouveaux [mots].
Ici, vous avez quelques exemples d’emprunts [lexicaux] qui ont été incorporés dans la [langue] espagnole en tant que nouveaux [mots].
En termes de [TAL traitement automatique du langage naturel], les emprunts sont une [source] courante de [mots] hors-[vocabulaire].
Et en effet, [détecter] [automatiquement] les emprunts [lexicaux] s’est avéré utile [pour] les [tâches] [downstream] de [TAL traitement automatique du langage naturel] telles que l’[analyse syntaxique], la synthèse [texte]-[parole] ou la [traduction automatique].
Il y a eu un intérêt croissant pour l’influence de l’[anglais] sur d’autres [langues], en particulier les emprunts [lexicaux] [anglais], des emprunts qui ont parfois été appelés anglicismes.
Et ici, vous avez quelques exemples de travail sur la [détection] [automatique] des emprunts dans certaines de ces [langues].
Donc, la [tâche] que nous [proposons] est de détecter les emprunts [lexicaux] non assimilés dans le [fil d’actualité] espagnol.
Ce qui signifie que cela nous intéresse d'[extraire] les [mots] empruntés à d’autres [langues] qui sont utilisés dans les journaux espagnols, mais qui n’ont pas été intégrés ou assimilés dans la [langue] du destinataire.
Donc pas encore intégrés à l’espagnol.
Vous avez ici un exemple.
Ceci est une [phrase] en espagnol : Las prendas bestsellers se estampan con motivos florales, animal print o retales tipo patchwork.
Hum, et comme vous pouvez le voir, il y a trois [étendages] de [textes] qui sont en réalité des [mots] [anglais] comme bestseller, animal print et patchwork.
Il s’agit du type d’[étendages] qu'il nous intéresse d'[extraire] et de [détecter].
Il y a eu un [mot] [antérieur] sur la [détection] de l’anglicisme qui consiste en un [modèle] [CRF] [pour] la [détection] de l’anglicisme sur le [fil d’actualité] espagnol.
Ce [modèle] a obtenu un score F1 de quatre-vingt-six.
Mais il y avait des limites à la fois dans les [données] et dans l’[approche] de [modélisation].
Ainsi, les [données] se concentraient exclusivement sur une [source] d'[actualités], ne comprenaient que des titres.
Et il y avait aussi un chevauchement dans les emprunts qui apparaissent dans l’ensemble de [formation] et l’ensemble de test.
Cela a empêché d’évaluer si l’[approche] de [modélisation] pouvait effectivement [se généraliser] aux emprunts précédemment [invisibles].
Nous visons donc à nous attaquer à certaines de ces limites dans la [tâche].
Alors, pour commencer, nous avons créé de nouvelles [données].
Avec de nouvelles [données] qui ont été [annotées] avec des emprunts [lexicaux], le but était de créer un ensemble de test aussi difficile que possible.
Il y aurait donc un chevauchement minimal entre les [mots] et les sujets entre l’ensemble de [formation] et l’ensemble de test.
Et par conséquent, eh bien, l’ensemble de test provient de sources et de dates que nous ne voyons pas dans l’ensemble de [formation].
Ici, vous pouvez voir qu’il n’y a pas de chevauchement dans le temps.
L’ensemble de test est aussi très dense en termes d’emprunt.
Juste pour vous donner quelques chiffres, si l’ensemble de [formation] contient six emprunts pour mille [gages], l’ensemble de test contenait vingt emprunts pour mille [gages].
L’ensemble de test contenait autant de [mots] hors-[vocabulaire] que possible.
En effet, quatre-vingt-douze pour cent des emprunts dans l’ensemble de test sont des [OOV].
Ils n’ont donc pas été vus pendant la [formation].
Et le [corpus] consistait essentiellement en une collection de [textes] provenant de différentes sources de journaux espagnols.
Et il a été [annoté] à la main en utilisant deux étiquettes.
Une [pour] les emprunts [lexicaux] [anglais], constituant la majorité des emprunts [lexicaux] en espagnol, puis l’autre étiquette [pour] les emprunts d’autres [langues].
Nous utilisons les formats [CoNLL] et avons utilisé l’[encodage] [BIO] pour pouvoir [encoder] des emprunts de [gages] simples tels que app ou des emprunts de [gages] multiples tels que l'[apprentissage automatique].
Ce sont les chiffres du [corpus].
Comme vous pouvez le voir, il s’élève à environ trois cent soixante-dix mille [gages].
Et ici, vous avez le [nombre] d’[étendages] qui ont été [étiquetés] comme [anglais] et les [étendages] qui ont été [étiquetés] comme autres emprunts, et combien d’entre eux étaient uniques.
Et ici, vous avez quelques exemples de l’ensemble des [données].
Comme vous pouvez le voir ici, [par] exemple, nous avons dans le premier exemple le batch cooking emprunteur qui est un emprunt de [mots] multiples.
Et nous l’avons [annoté] en utilisant l’[encodage] [BIO].
Donc le [BIO] a été utilisé [pour] des [mots] en espagnol, et non [pour] des [mots] qui n’ont pas été empruntés.
Et ici, dans ce deuxième exemple, vous avez benching et crash qui sont également [étiquetés] comme des emprunts de l’[anglais].
Donc, une fois que nous avons eu les [données], nous avons exploré plusieurs [modèles] [pour] la [tâche] d’[extraction] et de [détection] de ces emprunts [lexicaux].
Le premier que nous avons essayé était le [modèle] de champ aléatoire conditionnel.
Ah, c’était le [modèle] qui avait été utilisé sur le travail [antérieur].
Et nous avons utilisé les mêmes [fonctions] faites main à partir de celles de ce travail.
Comme vous pouvez le voir, voici les [fonctions].
Ce sont des [fonctions] [binaires] telles que le [mot] ou le [gage] en majuscules ?
Est-ce une casse de titre ?
Est-ce un guillemet ?
Des choses comme ça, qui sont le type de [fonctions] que l’on attendrait d’une [tâche] de [named entity recognition].
Voici les résultats que nous avons obtenus.
Nous obtenons cinquante-cinq points en F1 en utilisant le [modèle] [CRF] avec des [fonctions] faites main.
Ce qui est une énorme différence [comparée] au score F1 de quatre-vingt-six rapporté, qui était le résultat obtenu avec le même [modèle] [CRF], les mêmes [fonctions] mais sur des [données] différentes également [pour] la [détection] de l’emprunt [lexical] espagnol.
Donc, cela prouve que les [données] que nous avons créées sont plus difficiles et que nous devions explorer des [modèles] plus sophistiqués [pour] ces [tâches].
Nous avons donc testé deux [modèles] basés sur la [conversion].
Nous avons utilisé [BETO] qui est un [modèle de Représentations d'encodeurs bidirectionnels à partir de transformateurs] [monolingue] formé [pour] l’espagnol, mais aussi des [Représentations d'encodeurs bidirectionnels à partir de transformateurs multilingues].
Nous utilisons les deux [modèles] à travers la bibliothèque de [conversion] d’HuggingFace.
Voici les résultats que nous avons obtenus.
Comme vous pouvez le voir, les [Représentations d'encodeurs bidirectionnels à partir de transformateurs multilingues] fonctionnent mieux que les [BETO] à la fois sur l’ensemble de développement et sur l’ensemble de test, et à travers tous les [indicateurs].
Juste pour que nous ayons une idée à comparer, le [modèle] [CRF] a obtenu un quatre-vingt-deux.
Le [modèle] [CRF] a obtenu cinquante-cinq points en F1, tandis que les [Représentations d'encodeurs bidirectionnels à partir de transformateurs multilingues] ont obtenu quatre-vingt-deux, ce qui est une grande différence.
Donc, une fois que nous avons eu ces résultats, nous nous sommes posés une autre [question] qui est : pourrions-nous trouver un [modèle] [BiLSTM-CRF], l’alimenter avec différents types d’[intégrations], des [intégrations] qui [encodent] différents types d’[informations] [linguistiques], et dépasser les résultats obtenus par les [modèles] basés sur la [conversion] ?
Donc, pour ce faire, nous avons effectué quelques expériences préliminaires ; nous avons exécuté ceci par le biais du [modèle] [BiLSTM-CRF] en utilisant la bibliothèque Flare.
Et nous avons essayé d’expérimenter différents types d’[intégrations] comme celles basées sur la [conversion], mais aussi des [intégrations] de caractères, de [texte] rapide et ainsi de suite.
Ce que nous avons découvert, c’est que les [intégrations] basées sur la [conversion] ont obtenu de meilleurs résultats que les [intégrations] non [contextualisées], et que la combinaison d’[intégrations] de [Représentations d'encodeurs bidirectionnels à partir de transformateurs] en anglais et de [BETO] en espagnol dépasse les [intégrations] de [Représentations d'encodeurs bidirectionnels à partir de transformateurs multilingues].
Et aussi, que les [intégrations] de [BPE] produisent un meilleur F1 et les [intégrations] de caractères, un meilleur rappel.
Dans cet esprit, ce sont les meilleurs résultats que nous avons obtenus.
Les deux [modèles] étaient des [modèles] [BiLSTM-CRF] utilisant Flare.
L’un a été alimenté avec des [intégrations] de [BETO], de [Représentations d'encodeurs bidirectionnels à partir de transformateurs] et de [BPE], et l’autre avec des [intégrations] de [BETO], de [Représentations d'encodeurs bidirectionnels à partir de transformateurs], de [BPE] et aussi des [intégrations] de caractères.
Ce dernier était celui qui a produit le score F1 le plus élevé sur l’ensemble de test, bien que le score le plus élevé sur l’ensemble de développement ait été obtenu par celui sans [intégrations] de caractères.
Gardons juste à l’esprit que le meilleur résultat que nous avons obtenu avec [Représentations d'encodeurs bidirectionnels à partir de transformateurs multilingues] était un F1 de soixante-seize sur l’ensemble de développement et quatre-vingt-deux sur l’ensemble de test.
C’est donc une amélioration [comparée] à ces résultats.
Enfin, nous nous sommes posés une autre [question] qui était de savoir si la [détection] d’emprunt [lexical] pouvait être encadrée comme [apprentissage par transfert] de l’[identification de langue] dans l’alternance codique ?
Nous exécutons alors le même [modèle] [BiLSTM-CRF] que nous avions exécuté en utilisant Flare, mais au lieu d’utiliser ces [intégrations] de [BETO] et [Représentations d'encodeurs bidirectionnels à partir de transformateurs] basées sur la [conversion] non adaptées, nous avons utilisé les [intégrations] d’alternance codique.
Qu’est-ce que les [intégrations] d’alternance codique ?
Eh bien, ce sont des [intégrations] qui ont été des [intégrations] basées sur la [conversion] ajustée, qui ont été [préformées] [pour] l’[identification de langue] sur la section [anglaise] espagnole des [données] d’alternance codique [LinCE].
[LinCE] est un ensemble de [données] sur l’alternance codique qui comporte une section sur l’[anglais] espagnol, l’alternance codique [anglais] espagnol.
Nous avons donc alimenté notre [BiLSTM-CRF] avec des [intégrations] d’alternance codique et éventuellement des [intégrations] de caractères, des [intégrations] de [BPE] et ainsi de suite.
Le meilleur résultat que nous avons obtenu était quatre-vingt-quatre points vingt-deux, ce qui est le plus élevé parmi tous les [modèles] que nous avons essayés sur l’ensemble de test.
Bien que le meilleur score F1 que nous ayons obtenu sur l’ensemble de développement, qui était de soixante-dix-neuf, était inférieur au meilleur résultat obtenu par le [BiLSTM-CRF] alimenté avec des [intégrations] non adaptées.
Voilà donc les conclusions de notre travail.
Nous avons produit de nouvelles [données] de [fil d’actualité] espagnol qui sont [annotées] avec des emprunts [lexicaux] non assimilés.
Ces [données] sont plus denses en matière d’emprunt et riches en [OOV] par rapport aux [ressources] [antérieures].
Nous avons exploré quatre types de [modèles] [pour] la [détection] d’emprunt [lexical].
Hum. En termes d’[analyse] des erreurs, eh bien, le rappel était un point faible [pour] tous les [modèles].
Ah, comme vous pouvez le voir ici, certains faux négatifs fréquents incluent des emprunts en majuscules, des [mots] qui existent à la fois en [anglais] et en espagnol, [par] exemple.
Il est également intéressant de noter que les [intégrations] de [BPE] semblent améliorer le score F1.
Et l’[intégration] de caractères semble améliorer le rappel.
Ce qui est une découverte intéressante que peut-être nous pouvons explorer sur les travaux futurs.
Hum. Eh bien, c’est tout ce que j’ai.
Merci beaucoup [pour] votre écoute.
Je m’appelle Antoine.
Je suis doctorant à l’Université du Massachusetts à Amherst.
Je vous présente notre [article] [KinyaBERT] : un [modèle de langue] en kinyarwanda conscient de la [morphologie].
Aujourd’hui, je vais parler de la motivation [pour] ces [recherches].
Ensuite, je présenterai en détail l’architecture du [modèle] [KinyaBERT].
Je parlerai ensuite de nos résultats expérimentaux, puis je terminerai par quelques conclusions.
Nous savons tous que les progrès récents du [traitement du langage naturel] ont été rendus possibles par l’utilisation de [modèles] de [langues préformées] tels que les [Représentations d'encodeurs bidirectionnels à partir de transformateurs].
Cependant, il y a encore un certain [nombre] de limitations.
En raison de la [morphologie] complexe qui est exprimée par la plupart des [langues] [morphologiquement] riches, l’[algorithme] de [marquage] [byte pair encoding] omniprésent que j’ai utilisé ne peut pas extraire les unités [lexicales] [sous-mots] exactes, [signifiant] les [morphèmes], qui sont nécessaires [pour] une [représentation] efficace.
[Par] exemple, ici, nous avons trois [mots] en kinyarwanda ayant plusieurs [morphèmes] en eux, mais les [algorithmes] de [BPE] ne peuvent pas les extraire.
En effet, certaines règles [morphologiques] produisent différentes formes de surface qui cachent l’[information] [lexicale] exacte, et le [BPE], qui est uniquement basé sur les formes de surface, n’a pas accès à ce [modèle] [lexical].
Le deuxième défi est que même si l’on avait accès à un [analyseur morphologique] [oracle], remplacer les [gages] de [BPE] par des [morphèmes] n’est pas suffisant pour exprimer la [compositionnalité] [morphologique].
Une troisième lacune dans les [recherches] est que les nouveaux [modèles] de [langue préformée] sont le plus souvent évalués sur des [langues] à ressources élevées.
Et nous devons évaluer leur applicabilité sur des [ressources] faibles et diverses [langues] également.
[Par conséquent], nous présentons [KinyaBERT], qui est une adaptation simple mais efficace de l’architecture des [Représentations d'encodeurs bidirectionnels à partir de transformateurs] destinée à gérer plus efficacement les [langues] [morphologiquement] riches.
Nous évaluons [KinyaBERT] sur le kinyarwanda, une [langue] [low resource] riche [morphologiquement], qui est [parlée] par plus de douze millions de personnes à travers l’Afrique de l’Est et centrale.
La [saisie] du [modèle] est soit une [phrase], soit un [document].
[Par] exemple, ici, nous avons John twarahamubonye biradutangaza, qui signifie « nous avons été surpris de trouver John là-bas ».
Comme vous pouvez le voir, les [mots] en kinyarwanda comprennent plusieurs [morphèmes] qui renferment différentes [informations].
[Par conséquent], dans notre [modèle], nous faisons passer cette [phrase] ou un [document] à un [analyseur morphologique].
Ce qui engendre alors des [morphèmes] contenus dans chacun des [mots].
Les [morphèmes] sont généralement constitués du radical et de zéro ou plus d’affixes.
Les affixes peuvent indiquer le temps, l’[aspect], le sujet ou l’objet dans les [verbes], et se rapportent plus souvent à la classe [nom] bantoue [pour] les sujets et les objets.
L’[analyseur morphologique] produit également une étiquette de partie de [discours] [pour] chacun des [mots].
Après cette étape, nous faisons des [intégrations] [pour] le dis- [pour] les étiquettes de la partie de [discours].
[Intégrations] [pour] les affixes.
Et [intégrations] [pour] le radical.
Il s’agit du niveau [morphologique] ; il s’agit des [intégrations] de niveau [morphologique].
Nous faisons ensuite passer ces [intégrations] à travers un [encodeur] [morphologique], qui est un petit [encodeur de conversion] appliqué à chaque [mot] indépendamment.
Les résultats sont les [vecteurs] [contextualisés] avec les [informations] [morphologiques] à chaque [mot].
Maintenant, nous effectuons une composition où les [intégrations] [morphologiques] [correspondant] à une partie de [discours] et au radical sont concaténées ensemble.
Nous les concaténons en outre avec une autre [intégration] du radical au niveau de la [phrase].
Ensuite, nous formons une [saisie] à la [phrase] principale ou l’[encodeur] de [document].
Le résultat final donne des [intégrations] [contextualisées] qui peuvent être utilisées [pour] les [tâches] de [TAL traitement automatique du langage naturel] [downstream].
[Pour] un [analyseur morphologique], nous utilisons des principes de [morphologie] à deux niveaux à états finis avec une mise en œuvre personnalisée adaptée à la [langue] kinyarwanda.
Nous [modélisons] efficacement la [morphologie] de tous les [mots] en kinyarwanda, y compris les verbes, les [noms], les [pronoms] démonstratifs et possessifs, les chiffres et autres.
Nous utilisons une partie [non supervisée] d’[algorithme] de [classification] de [discours].
Un [modèle] factorisé de premier ordre est utilisé pour rendre compte [de] la probabilité [morphologique], essentiellement la probabilité attribuée par l’[analyseur morphologique].
Nous prenons également en considération la priorité de l’étiquette de la partie de [discours] ainsi que les accords [syntaxiques] qui sont présents dans les [mots] de [saisie].
Le [marqueur] de partie de [discours] utilise une [inférence] [bidirectionnelle] bidi qui améliore le plus souvent l’[algorithme] Viterbi utilisé [pour] le [décodage].
Quelques remarques ici [pour] l'[encodage positionnel].
Premièrement, l’[encodeur] [morphologique] n’utilise aucun [encodage positionnel].
C’est parce que chacun des [morphèmes] occupe un emplacement connu dans le [modèle] [morphologique].
[Par conséquent], l’[information] positionnelle est inhérente lorsque les [morphèmes] sont donnés.
Deuxièmement, l’[encodeur] de [phrase] utilise les [intégrations] positionnelles relatives dites non liées, qui ont été récemment publiées lors de la conférence [ICLR].
Ces [intégrations] positionnelles démêlent essentiellement les [corrélations] positionnelles de [calcul] d’[attention] [gage] à [gage].
De manière [similaire] aux [Représentations d'encodeurs bidirectionnels à partir de transformateurs], nous utilisons un objectif de [préformation] de [modèle de langue masqué].
Essentiellement, nous devons prévenir à la fois le radical et les affixes qui sont associés aux [mots].
Pendant la [préformation], quinze pour cent de tous les [mots] sont considérés [pour] la [prévention], dont quatre-vingt pour cent sont masqués, dix pour cent sont échangés avec des [mots] aléatoires et dix pour cent sont laissés inchangés.
[Pour] la [prévention] d’affixe, nous faisons face à un [problème] de [classification] multi-étiquettes.
[Pour] cela, nous regroupons les affixes ensemble dans un [nombre] fixe d’ensembles et prévenons l’ensemble comme une étiquette de classe.
Ou bien, l’autre option est de prévenir le [vecteur] de probabilité d’affixe.
Nous évaluons ces deux approches dans nos expériences.
Nous préformons [KinyaBERT] sur environ deux giga-octets et demi de [texte] kinyarwanda, et le comparons à trois [modèles] de base.
L’un est un [modèle] [multilingue] appelé [XLM]-R, qui est formé sur un [grand] [corpus] de [texte] composé de plusieurs [langues].
Les deux autres [bases] sont [préformées] sur le même [texte] kinyarwanda en utilisant soit l’[algorithme] de [byte pair encoding], soit l’[analyse morphologique] sans utiliser l’architecture [encodeur de conversion] à deux niveaux.
Tous les [modèles] sont configurés dans l’architecture de base, qui est d’environ cent à cent et dix millions de paramètres, avec le kinyarwanda avec [KinyaBERT] utilisant le plus petit [nombre] de paramètres.
Tous les [modèles] sauf les [multilingues] sont [préformés] [pour] trente-deux mille mises à jour de [pentes] avec une taille de lot de deux mille cinq cent soixante [séquences] dans chaque lot.
Nous évaluons les [modèles] [préformés] sur trois ensembles de [tâches].
L’une est la référence [GLUE] qui a souvent été utilisée [pour] évaluer l’efficacité des [modèles] de [langue préformée].
Nous obtenons nos [données] de référence [GLUE] en traduisant les [données] de référence originales en kinyarwanda à l’aide de Google Translate.
La deuxième [tâche] est la référence de [reconnaissance d'entité nommée] kinyarwanda, qui est un ensemble de [données] de haute [qualité] ayant été [annoté] par des locuteurs natifs formés.
La troisième est une [tâche] de catégorisation des [actualités] où nous extrayons des articles de [actualités] de plusieurs sites web et collectons leurs étiquettes de catégorisation qui ont été attribuées par les auteurs, puis essayons essentiellement de prévenir ces dernières, les mêmes catégories.
Et maintenant, passons aux résultats.
[Pour] la référence [GLUE], nous constatons que [KinyaBERT] dépasse systématiquement les [modèles] de référence.
Ici, nous montrons la performance moyenne [pour] dix cycles de [raffinement].
Nous effectuons également une [évaluation] des [traductions] produites par Google Translate.
Essentiellement, les [utilisateurs] ont évalué environ six mille exemples, en attribuant des scores sur une échelle de un à quatre et en [évaluant] la [qualité] des [traductions].
Le résultat est que beaucoup de [traductions] étaient bruyantes.
Mais tous les [modèles] ont dû faire face au même bruit de [traduction], et la performance relative entre les [modèles] est toujours importante à remarquer.
[Pour] la [tâche] de [reconnaissance d'entité nommée], nous constatons également que [KinyaBERT] fournit les meilleures performances avec la variante de [régression] de distribution d’affixes fonctionnant le mieux.
Ces résultats sont également des moyennes de dix cycles de [raffinement].
[Pour] la [tâche] de catégorisation des [actualités], nous trouvons des résultats mitigés.
Le travail [antérieur] sur la [classification de texte] [pour] le kinyarwanda avait trouvé que la [détection] de mot-clé simple est surtout suffisante [pour] résoudre cette [tâche] spécifique.
[Par conséquent], il y a moins d'avantage à utiliser des [modèles] de [langue préformée].
Sur cette [tâche] particulière de catégorisation des [actualités].
Nous avons également mené une étude d’[ablation] pour voir s’il existe des structures alternatives qui améliorent les performances.
[Pour] la référence [GLUE], nous constatons que l’utilisation d’ensembles d’affixes donne constamment de meilleurs résultats, tandis que l’objectif de [régression] de probabilité d’affixe fournit les meilleures performances sur la [reconnaissance d'entité nommée].
De plus, en examinant les faibles scores [pour] le [raffinement], nous constatons que [KinyaBERT] a une meilleure convergence dans la plupart des cas.
Donc, pour conclure, ce travail a démontré l’efficacité de l’utilisation explicite des [informations] [morphologiques] dans les [modèles] de [langue préformée].
L’architecture à deux niveaux proposée permet de capturer la [compositionnalité] [morphologique] de la complexité [morphologique], qui est un [aspect] important des [langues] [morphologiquement] riches.
Ces résultats devraient motiver davantage les [recherches] sur les [modèles] de [langue préformée] conscients de la [morphologie].
Bonjour, je m’appelle Michal Pietruszka et j’ai le plaisir de vous présenter l’[article] intitulé [Modèles] de [conversion] parcimonieux avec la mise en commun de la [représentation] adaptative.
Un travail réalisé à Applica [intelligence artificielle] en coopération avec Lukasz Borchmann et Lukasz Garncarek.
Permettez-moi de commencer par les problèmes que nous visons dans le cadre de notre travail.
Notre [méthode] fonctionne bien [pour] les cas où de longues saisies sont considérées.
En gros, c’est [pour] les ordres de [tâche] et de [saisie] de plus de deux mille [gages], et les cibles sont plus courtes que les saisies fournies.
Cela a des applications spécifiques en [TAL traitement automatique du langage naturel].
[Par] exemple, on peut imaginer qu’étant donné qu’un [document] est long, il est nécessaire de le résumer, de classer, de [répondre] à la [question] à ce sujet et d’extraire des [informations] ou certaines expressions clés.
Permettez-moi de rappeler la [conversion] vanille et sa question de sa complexité d’[attention] qui dépend du carré de la ligne de [saisie].
Dans la [conversion] vanille, avec une connectivité de pleine [attention], les [relations] de chaque [gage] à chaque autre [gage] doivent être calculées.
La complexité [informatique] de l’[attention], qui dépend du [nombre] de couches l, de la longueur de [séquence] n, d’une autre longueur de [séquence] et de la dimensionnalité des [représentations].
De même, dans l’[attention] croisée du [décodeur], à cette image sur le côté droit, la seule différence ici est que les [gages] [cibles] sont attentifs aux [gages] de [saisie] dans ce cas.
Ce que l’on retrouve également dans cette formule.
Le [score BLEU] représente les [relations] qui doivent être calculées.
Dans le cas de la pleine [attention], nous devons calculer toutes les [relations] dans la [séquence] de [saisie].
Maintenant, nous voyons ce qui se passe lorsque nous avons un [encodeur] par bloc qui fonctionne en limitant la connectivité des [gages] afin qu’ils ne puissent voir que les autres [gages] à proximité.
Le [texte] est lu en morceaux, ce qui peut réduire considérablement le [nombre] de calculs du côté de l’[encodeur], mais n’améliore pas l’[attention] croisée du [décodeur] car chaque [gage] de [saisie] est de toute façon transmis au [décodeur].
Cette [méthode] est souvent appelée fusion dans le [décodeur].
L’amélioration ici peut être interprétée comme changeant l’une des [dépendances] de n en une autre constante m représentant la taille du bloc.
Notre observation clé est que la plupart des [gages] ne sont pas pertinents [pour] une grande variété de [tâches] et peuvent être presque complètement ignorés. Ceci est illustré sur la diapositive.
Les seules parties des saisies sont pertinentes pour la sortie souhaitée.
[Par] exemple.
On peut lire un article une fois en marquant les parties les plus importantes avec un surligneur, puis produire un résumé basé sur cette partie à partir du stade intermédiaire seulement.
Le coût de la mise en surbrillance et de la décision de savoir si le [gage] actuel est essentiel pour produire le résumé est donc peu élevé et ne dépend que de la [représentation] du [gage].
La mise en commun des [gages] en surbrillance est possible.
Grâce à notre meilleur opérateur k, son coût est négligeable.
Le coût de production d’un résumé à partir d’une [saisie] raccourcie est également beaucoup plus faible que dans le [modèle] vanille lorsque la [saisie] complète est prise en compte.
Mais une [question] se pose.
Comment sélectionner les [gages] importants et rétropropager les pentes vers cette sélection ?
Le [problème] sous-jacent essentiel que nous résolvons est de [proposer] le mécanisme de sélection adaptatif.
Celui qui peut permettre [à] la [pente] de se rétropropager pendant la [formation] afin que le réseau puisse apprendre à sélectionner les [gages] les plus importants.
Plus précisément
Compte tenu de certains soulignements d’[intégrations] obtenus à partir d’une couche [linéaire] simple, la [tâche] est de renvoyer les [intégrations] au score le plus élevé. Tout d’abord, la [séquence] est permutée et les paires sont préparées de manière à ce que le [vecteur] de score le plus élevé soit pris avec le vecteur de score le plus faible.
Ensuite, les [poids] sont calculés à l’aide de [softmax] boosté sur les scores.
Après chaque tour de tournoi, de nouveaux [vecteurs] et scores sont composés comme une combinaison [linéaire] de ces paires avec les [poids] obtenus.
Donc, en bref, nous les combinons linéairement en effectuant un [softmax] sur leurs scores.
Et tout en combinant deux [gages], un certain bruit peut être produit.
Mais cela permet aussi de propager les pentes à toutes les [intégrations] de [saisie].
En bref, un top k adaptatif que nous [proposons] est basé sur l’exécution d’un tournoi comme la sélection souple à chaque étape.
Et d’un point de vue différent, la mise en commun de la [représentation] suit la couche de l’[encodeur].
Tout d’abord, chaque [représentation] est notée, puis seules celles qui ont les scores les plus élevés sont passées à la couche suivante.
L’[encodage] peut être effectué comme dans l’architecture de [conversion] standard sur la [saisie] pleine longueur.
Il est cependant possible de traiter le [texte] par blocs de longueur fixe et de sélectionner globalement la meilleure [représentation].
Voici un exemple de la mise en commun de [représentation] introduite après l’[encodeur].
Cela a directement influencé la cause de l’[attention] croisée, qui ne dépend pas de la longueur de [saisie] N, mais de la constante K, représentant la longueur mise en commun.
Cette constante indique combien de [représentations] sont sélectionnées et transmises au [décodeur].
Produire un résumé à partir d’un [texte] plus court est nettement moins cher que la solution [antérieure].
Comme la longueur de [séquence] qui peut être raccourcie par un [grand] facteur.
Par exemple, nous avons utilisé avec succès le k seize ou même soixante-quatre fois plus petit que la valeur de n dans nos expériences.
Veuillez noter que l’impact bénéfique de l’[encodage] par blocs et de l’[attention] personnelle est maintenu.
Rappelez-vous que le coût [informatique] de l’[attention] dépend du carré de la longueur de [saisie].
Réduire plus tôt la [saisie] pendant le processus d’[encodage] peut baisser considérablement les coûts.
[Pour] le [modèle] pyramidion, nous avons réduit la taille de la [représentation] sur la sortie de chaque couche choisie, conduisant à la réduction exponentielle du coût [informatique] au fur et à mesure que l’[encodage] progresse.
Comme vous pouvez le voir, le coût [informatique] total d’un [encodeur] complet est ici moins de deux fois le coût de la première couche pleine grandeur.
Lorsque la mise en commun est introduite plus tôt, la somme de tous les carrés violets est donc liée à une constante, qui ne dépend pas du [nombre] de couches l.
Mais sur la constante c, qui peut être influencée par le placement des couches de mise en commun au sein du réseau.
Nos améliorations ont été évaluées sur la base de huit mille longues saisies de [gages].
Et la figure montre que lorsque la mise en commun est engagée, la meilleure évolutivité [pour] la profondeur du réseau est atteinte.
Ici, on peut noter que la [formation] du pyramidion de vingt-quatre couches peut être moins chère que la [formation] d’une [conversion] vanille à deux couches sur des saisies aussi longues.
Sans parler de la facilité avec laquelle la [conversion] vanille peut perdre la mémoire [pour] une si longue [saisie].
La comparaison qual [qualité] qual [qualitative] de notre pyramidion tendance à d’autres bases est effectuée sur la longue [tâche] de [synthèse] de [document], ou compte tenu du corps d’un article d’arXiv ou [PubMed], la [tâche] est de générer son résumé.
Ainsi, on peut voir bloc par bloc, qui est notre base, ce qui est effectué au niveau du [re], les [modèles] ultra-modernes récents, tandis que le pyramidion conserve ou améliore la performance de cette base compétitive.
En même temps, notre [modèle] est quatre-vingts pour cent plus rapide à former et plus de quatre cent cinquante pour cent plus rapide à l’[inférence] quand il est [comparé] à la base par bloc.
Les deux [modèles] ont un nombre de [paramètres] beaucoup plus faible et ont été formés à partir de zéro sur les [tâches] choisies.
Les approches [antérieures] visant à atteindre un rendement [similaire] devaient utiliser plus de paramètres et tirer parti des [modèles] fondamentaux de base [préformés], ainsi que de l’objectif de [préformation] en [langue] supplémentaire pour atteindre un rendement [similaire].
Nous vous invitons à lire notre [article] complet et à utiliser notre code GitHub.
Merci [d]’avoir regardé cette vidéo.
Bonjour, je m’appelle Jiawei Zhou de l’Université d’Harvard.
Je suis très heureux de présenter notre travail sur l’[analyse syntaxique et sémantique] [en ligne] [pour] la réduction de la latence dans le [dialogue] orienté sur la [tâche].
Il s’agit d’un travail commun avec Jason, Michael, Anthony et Sam de [Semantic] Machines par Microsoft.
Dans le [dialogue] orienté sur la [tâche], un [utilisateur] interagit avec le [système] qui traite les [discours] de l’[utilisateur] énoncés généralement en parlant.
De la fin du [discours] de l’[utilisateur] à la réponse du [système], il y a souvent un retard notable.
Sous le capot, le [discours] de l’[utilisateur] est traduit en un programme exécutable.
Celui-ci est ensuite exécuté afin que le [système] puisse répondre correctement.
Parce que le programme est représenté comme un [graphique] [sémantique] qui décrit le [calcul], où le nodule représente une invocation de fonction et ses enfants sont les arguments.
Les grands [nodules] marquent des opérations instantanées, mais les autres mettent du temps à s’exécuter.
Dans l’exemple simple que nous montrons ici, ces programmes peuvent souvent être des [graphiques] plus compliqués au-delà des structures arborescentes.
Dans cette conférence, nous posons la [question] : pouvons-nous commencer à [générer] le programme et à l’exécuter avant même que l’[utilisateur] ait terminé le [discours], afin que le [système] puisse obtenir une réponse plus rapide ?
C’est la [prévention] [en ligne] et le [problème] de décision.
Il y en a beaucoup d’autres dans ce domaine.
Les exemples incluent la [traduction] [simultanée] où un interprète en direct traduit une [langue] en une autre en temps réel, la saisie automatique intelligente du [texte] pour deviner l’intention de l’[utilisateur], et Uber pool où les chauffeurs sont envoyés là où ils pourraient être nécessaires en fonction de la demande prévue.
Tous ces scénarios ont une chose en commun.
C’est-à-dire qu’il est bénéfique de prendre des décisions avant de voir toutes les [saisies].
Dans notre cas, nous allons traiter de l’[analyse syntaxique et sémantique] [en ligne], ce qui pourrait être difficile car nous devons deviner ce que l’[utilisateur] pourrait dire.
Et cela est également sous-exploré sans indicateur d’[évaluation] formel.
Tout d’abord, regardons comment fonctionne un [système] ordinaire.
Il fonctionne hors ligne par l'[analyse syntaxique] du programme uniquement à la fin du [discours] de l’[utilisateur].
Ici, le [graphique] de caractères est prévenu après avoir vu toutes les [informations].
En revanche, nous proposons un [système] [en ligne] qui compare à chaque préfixe de [discours].
[Par] exemple, chaque fois que nous voyons un nouveau [gage], nous prévenons un nouveau [graphique].
Notez qu’il peut y avoir des erreurs.
À l’emplacement de la pool party avec Barack Obama, nous avons obtenu un [graphique] avec les bons [nodules] sur la personne et le sujet d’[activité], mais deviné les mauvaises [informations] de timing.
Ce processus se poursuit jusqu’à ce que nous recevions le [discours] complet de l’[utilisateur].
Comment cela affecterait-il la chronologie d’exécution dans le [système] hors ligne ?
Nous obtiendrons le [graphique] de programme à la fin afin que le [système] puisse commencer l’exécution à ce stade.
Rappelez-vous que les grands [nodules] sont des opérations rapides ; nous ne considérons donc que la chronologie d’exécution des fonctions lentes colorées.
Premièrement, ces deux fonctions Trouver une personne peuvent être exécutées en [parallèle], surlignées en blanc à partir de la case rose car elles n’ont pas de [dépendance] à d’autres fonctions.
Ensuite, l’[activité] de création de nodules peut ensuite être exécutée après avoir obtenu des résultats à partir de [nodules] de niveau inférieur, puis la fonction supérieure mène à l’achèvement de l’ensemble du programme.
Le processus d’exécution est strict, limité à la [structure] de [dépendance] du programme où certaines opérations ne peuvent pas être parallélisées, ce qui induit un retard notable.
Dans notre [système] [en ligne], où nous prévenons au fur et à mesure, l’exécution du programme peut commencer plus tôt.
Ici, au préfixe après Obama, nous prévenons en toute confiance que la fonction Trouver une personne devrait être dans le programme, mais le reste peut contenir des erreurs car elles sont grisées.
L’exécution du nodule peut être immédiatement commencée comme une étape.
Ensuite, avec plus de [gages], nous prévenons un [graphique] totalement nouveau, mais une partie est déjà en cours d’exécution.
Donc, nous n’avons qu’à considérer le reste des [nodules] sur lesquels nous sommes confiants.
Ici, une autre fonction Trouver une personne peut être exécutée en [parallèle].
Encore une fois, nous pouvons avoir des préventions erronées.
Avec plus de [texte], nous avons plus de capacité à faire les choses correctement.
Comme l’heure de l’[activité] ici où AM est également anticipé correctement.
Ensuite, nous pouvons commencer à exécuter le reste en suivant la [structure] de [dépendance] du programme.
En chevauchant la chronologie d’exécution avec la chronologie du [discours], nous gagnons beaucoup de temps.
Nous avons donc proposé la [tâche] d’[analyse syntaxique et sémantique] [en ligne].
Une hypothèse sous-jacente est que le temps d’exécution domine le temps de [prévention] du [modèle].
Donc, nous ne pouvions gagner du temps qu’en prévenant plus tôt.
Une autre hypothèse est que, comme la [prévention] et l’exécution se produisent en arrière-plan, cela n’est pas visible par les utilisateurs.
Il n’est pas nécessaire de maintenir un historique d’[analyse syntaxique] cohérent.
Donc, nous réanalysons à partir de zéro après chaque [gage].
En particulier, nous [proposons] une [approche] en deux étapes.
Une étape proposée qui prévient un [graphique] avec une [structure] complète et une étape de sélection qui sélectionne les [nodules] valant la peine d’être exécutés pour le moment.
Nous avions deux variantes de la [méthode] proposée.
La première [approche] combine l’achèvement d’un [modèle de langue] avec un [discours] complet à [analyse syntaxique] de [graphique].
En particulier, le préfixe après Obama est d’abord complété par un [modèle de langue] [BART] raffiné, puis traduit en un programme avec un [analyseur] hors ligne complet.
La seconde [approche] prévient directement le programme à partir des préfixes de [discours] de l’[utilisateur].
Ceci est réalisé en [formant] un seul [analyseur] [en ligne] à traduire au [graphique] objectif à partir de chaque préfixe.
Cela facilite au [modèle] l’apprentissage de la bonne anticipation.
Avec un peu plus de détails, comment générons-nous ces [graphiques] ?
Nous formulons le [problème] en [générant] une version série du [graphique].
Chaque nodule ou arête est représenté(e) par une action.
Ici, nous commençons par le premier nodule.
Le [nombre] ci-dessous enregistre l’indice absolu dans l’historique des actions.
Ensuite, nous avons le deuxième nodule.
Ensuite, il y a l’arête entre eux.
Il contient le pointeur vers l’indice du nodule [antérieur] et l’étiquette d’arête.
Zéro signifie ici connecter le nodule le plus récent avec le nodule [généré] par l’action zéro, le nodule suivant et l’arête suivante.
Ce processus se poursuit jusqu’à ce que nous générions le [graphique] complet.
Le [modèle] sous-jacent est basé sur un [transformateur] avec un mécanisme de pointage automatique [similaire] à un [analyseur] basé sur la transition [antérieure].
Après avoir [généré] un [graphique] complet, nous avons obtenu les probabilités de niveau d’action qui correspondent aux différentes parties du [graphique].
Nous sélectionnons des sous-graphiques de confiance en fonction de l’[heuristique] de seuillage à exécuter.
Plus tard, nous allons modifier le seuil pour obtenir différents compromis entre la réduction de la latence et le coût d’exécution.
[Pour] une [évaluation] formelle des [méthodes] [en ligne], nous [proposons] une réduction finale de la latence ou un indicateur [FLR].
Voici un récapitulatif de la façon dont un [système] hors ligne termine la chronologie d’exécution.
Dans les [systèmes] [en ligne], l’exécution chevauche la chronologie de [discours] ; donc elle se termine plus tôt.
[FLR] est défini comme le temps de réduction [comparé] au [système] hors ligne, marqué par la fin de l’exécution.
Nous menons des expériences sur deux [grandes] [données] d’[analyse syntaxique et sémantique] [conversationnelle], [SMCalFlow] et [TreeDST].
Notre [analyseur] basé sur le [graphique], lorsqu’il fonctionne hors ligne, [atteint] des performances de pointe sur l’[analyse syntaxique] sur les deux [données].
Le [modèle] complet de LM réalise également un gain [BLEU] non trivial [comparé] à la simple base de l’achèvement du nodule.
Examinons maintenant la précision de [prévention] de notre préfixe pour l’[analyseur] de [graphique].
Nous testons le score F1 de correspondance des tuples de [graphique] entre la [génération] et le [graphique] dans les [données] de validation dans l’axe y [pour] chaque longueur de préfixe, et dans l’axe x représenté par des pourcentages.
Chacune de ces courbes représente un [modèle] différent avec la seule différence de [données de formation].
La courbe du bas est l’[analyseur] hors ligne, et nous mélangeons les [données] de préfixe en différentes longueurs pour faire passer le [modèle] à un [analyseur] [en ligne].
[Par] exemple, le préfixe de légende quatre-vingts pour cent plus signifie que le [modèle] est formé avec les [données] de préfixe ayant une longueur de préfixe supérieure à quatre-vingts pour cent de la longueur totale du [discours].
Le coin supérieur gauche est la zone souhaitée.
Comme nous pouvons le voir, l’[analyseur] hors ligne en courbe noire ne se porte pas bien sur les [données] de préfixe.
Comme nous mélangeons plus de préfixes dans la [formation], la courbe se soulève en haut à gauche, en étant plus performante sur toutes les longueurs de préfixe.
Cependant, la performance complète d’[analyse syntaxique] du [discours] n’est pas affectée dans le point supérieur droit.
Sur la base de ces résultats solides, combien de latence réduisons-nous ?
Nous mesurons le temps par le [nombre] de [gages] [sources] et simulons différents temps d’exécution de fonction.
Les courbes montrent le compromis entre l’indicateur [FLR] et le coût d’exécution, mesuré par le [nombre] de coûts de fonction excessifs qui ne sont pas corrects.
Ceci est réalisé en faisant varier le seuil de sélection du sous-graphique.
Un seuil plus élevé sélectionne moins de fonctions d’erreur, mais obtient un [FLR] plus petit, tandis que le seuil inférieur sélectionne et exécute les programmes de manière plus agressive.
Nous comparons les deux approches que nous [proposons] et une base qui ne fait rien d’autre que d’appliquer directement l’[analyseur] hors ligne [pour] l’utilisation [en ligne].
La région supérieure gauche a le meilleur compromis [FLR] et coût.
Nous voyons nos deux [méthodes] battre la ligne de base par une [grande] marge, et elles fonctionnent de manière plus similaire sur [TreeDST].
Bien que l’exécution des fonctions individuelles soit plus rapide, cela tend à y avoir plus d’exécutions lancées et une marge de réduction de la latence plus faible.
Lorsque l’exécution des fonctions individuelles est plus lente, il y a plus de marge [pour] l’amélioration du [FLR].
Nos deux approches permettent d’obtenir de meilleurs résultats dans différentes régions de coûts.
Dans l’ensemble, nous obtenons une réduction de latence relative de trente à soixante-trois pour cent en fonction du temps d’exécution et du coût autorisé.
Enfin, nous avons une répartition de la réduction de latence moyenne en [gages] [pour] chaque type de nodule de fonction lorsque le coût autorisé est de trois exécutions.
Comme nous pouvons le voir, il y a des gains partout.
Il y a aussi certaines fonctions sur lesquelles nous obtenons une réduction de latence impressionnante où la barre rouge est beaucoup plus longue, comme trouver le gestionnaire et le destinataire.
Ce sont des fonctions de bas niveau qui n’ont pas beaucoup de [dépendance] des autres.
En conclusion, nous avons proposé une [analyse syntaxique et sémantique] [en ligne] comme nouvelle [tâche] à explorer avec l’indicateur rigoureux de réduction de la latence.
Avec un [analyseur] [sémantique] basé sur le [graphique] fort, nous obtenons une réduction de latence relativement bonne soit par notre [approche] pipeline avec l’achèvement du LM et un [analyseur] complet, soit directement par un [analyseur] appris sur les préfixes.
[De plus], notre [approche] peut être un cadre général et être appliquée à d’autres [représentations] [sémantiques] exécutables dans différents [domaines].
Les travaux futurs pourraient explorer la [méthode] d’intégration de [prévention] et d’exécution plus intelligente.
Merci [de] votre attention.
Bonjour.
Je vais discuter de notre travail sur la [génération] de contrefactuels [améliorés] d’[extraction] [pour] les [tâches] de [réponse aux questions].
C’est le travail effectué lors de mon stage chez le centre de [recherches] Google, où j’ai été encadré par Matthew Lamm et Ian Tenney.
Pour motiver la [tâche], permettez-moi de commencer par définir un [contrefactuel].
Dans ce travail, nous définissons un [contrefactuel] comme une perturbation du [texte] de [saisie] qui diffère d’une manière contrôlée significative du [texte] original.
Et cela nous permet de raisonner sur les changements dans le résultat ou l’étiquette de [tâche].
[Par] exemple, changer les [mots] fascinants en captivants ou supposés abrutissants change le [sentiment] [pour] cette critique de film.
De même, l’ajout du qualificatif féminin à la [question] modifie la [réponse] à la [question] dans l’exemple ci-dessous.
Les humains sont généralement robustes à de telles perturbations [comparés] aux [modèles] de [TAL traitement automatique du langage naturel] formés sur la [tâche].
Pourquoi ça ?
Les [données] peuvent être échantillonnées avec des [biais] systématiques qui conduisent à une limite de décision simple violée par le [contrefactuel].
Comme le montre ce [problème] de [classification] 2D.
Mon travail a révélé que l’ajout d’exemples [contrefactuels] aux [données de formation] peut rendre le [modèle] robuste à de telles perturbations.
Donc, si les contrefactuels sont précieux, comment pouvons-nous les générer ?
Cette [tâche] est particulièrement difficile [pour] le [TAL traitement automatique du langage naturel] car il y a ici trois exemples de trois [tâches] de [TAL traitement automatique du langage naturel] différentes.
Comme vous pouvez le voir, les exemples qui violent la limite de décision entre les résultats doivent être très soigneusement élaborés en perturbant certains attributs du [texte] qui sont soulignés ici.
Cela pourrait être fait par [annotation] [civique], mais cela est coûteux et partial.
Certains travaux antérieurs se sont concentrés sur l’utilisation d’arbres de [syntaxe] ou d'[étiquetage de rôle sémantique].
Mais l’ensemble des perturbations [générées] par ces techniques sont limitées par le cadre [sémantique].
Des travaux plus récents ont utilisé des [modèles de langue] masqués pour remplir des parties masquées du [texte] afin de changer les étiquettes.
Mais trouver quelles parties du [texte] perturber peut être difficile.
Il y a plus de défis à [générer] des contrefactuels [pour] la [réponse aux questions] spécifiquement.
Cette [tâche] nécessite des [connaissances] de base.
[Par] exemple, pour perturber la [question] originale : est-ce qu'Indiana Jones et le Temple maudit est une préquelle ?
Nous devons être au courant des autres films de la franchise pour arriver à une [question] comme : est-ce qu’Indiana Jones et les Aventuriers de l'arche perdue est une préquelle ?
[En outre], des perturbations aléatoires peuvent conduire à des [questions] qui ne répondent pas avec les preuves disponibles ou ont de fausses prémisses.
[De plus], certaines perturbations de [question] peuvent conduire à une dérive [sémantique] significative par rapport à la [saisie] originale.
[Par] exemple, est-ce qu’Indiana Jones pratique l’esclavage des enfants dans le Temple maudit ?
Nous [proposons] une technique très simple mais efficace appelée Retrieve Generate Filter ou [RGF], pour s’attaquer aux perturbations [contrefactuelles] des [questions], et qui vise également à relever tous les autres défis susmentionnés.
L’intuition de base derrière le [RGF] est que les [informations] d’arrière-plan nécessaires pour générer des perturbations peuvent être présentes dans les quasi-accidents causés par un [modèle] de [réponse aux questions].
[Par] exemple, le [modèle] [REALM] à la fine pointe de la technologie produit les premières réponses k suivantes à la [question] : qui est le capitaine du Richmond Football Club ?
Bien qu’il récupère le passage de référence original et [répond] Trent Cotchin en premier choix.
Il extrait également des passages et des réponses supplémentaires qui peuvent être utilisés pour guider la perturbation de [question].
[Par] exemple, il récupère deux autres réponses [correspondant] aux capitaines de l’équipe de réserve et de l’équipe féminine du même club, ce qui peut conduire à des modifications intéressantes.
Pour résumer, le [RGF] extrait d’abord les premières réponses k les plus pertinentes et les [contextes] qui ne correspondent pas à la [réponse] de référence dans le [contexte].
Suite à cette étape, le [modèle] de [production de questions] conditionne ces réponses alternatives pour générer une [question] qui leur correspond.
Et enfin, nous pouvons filtrer les [questions] [générées] en fonction de la minimalité ou du type de perturbation [sémantique] que nous voulons introduire.
En passant en revue chaque étape plus en détail [pour] l’[extraction], nous utilisons un [modèle] lu comme [REALM] qui prend comme [saisie] la [question] originale, et un [grand] [corpus] comme [Wikipédia].
Il est constitué de deux modules.
Le module d’extraction effectue des [recherches] de [similarité] sur un indice dense de passages pour extraire les passages k les plus pertinents à la [question].
Et un module de lecture extrait ensuite un étendage de chaque passage en tant que [réponse] potentielle.
[REALM] extrait le passage d’or et la [réponse] dans la plupart des cas.
Cependant, dans ce travail, nous sommes plus intéressés par les réponses et le [contexte] qu’il extrait plus loin dans la ligne.
Dans l’étape suivante, [production de questions], nous utilisons ces réponses alternatives et [contextes] pour générer de nouvelles [questions] qui correspondent à ces alternatives.
Le [modèle] de [production de questions] est une [conversion] [texte]-à-[texte] préformé qui est raffiné sur les [données] NQ pour générer une [question] [pour] une [réponse] marquée dans le [contexte].
Au cours de l’[inférence], nous fournissons le [modèle] de [production de questions], la [réponse] alternative et le [contexte] que nous avons [extraits] à l’étape [antérieure].
[Par] exemple, [pour] la [question] : qui est le capitaine du Richmond Football Club ? [REALM] extrait des passages sur l’équipe féminine du club, dirigée par Jess Kennedy, et le [modèle] de [production de questions] génère la [requête] « qui a été le capitaine de la toute première équipe féminine du Richmond Football Club ? »
Qui a une perturbation [sémantique] spécifique.
D’une manière [similaire], nous recevons également des [questions] comme : qui était capitaine de l’équipe de réserve [VFL] de Richmond ?
Ou qui Graham a-t-il invalidé lors de la grande finale l’année dernière ?
Enfin, nous filtrons un sous-ensemble des [requêtes] [générées] en fonction de certaines caractéristiques souhaitées.
Comme [motivé] plus tôt, nous aimerions nous assurer que la nouvelle [question] est toujours [sémantiquement] proche de l’originale.
[Pour] les techniques de filtrage qui ne nécessitent pas de supervision supplémentaire, nous conservons simplement de nouvelles [questions] qui ont une petite distance d’[édition] de l’étiquette de [gage] par rapport à la [question] d’origine.
[Par] exemple, nous supprimons la [question] : qui Graham a-t-il invalidé lors de la grande finale l’année dernière ?
Car elle a une distance d’[édition] plus longue par rapport à la [question] d’origine.
Dans nos expériences, nous démontrons que cette [heuristique] simple peut être utilisée pour améliorer et mettre en file d’attente les [données de formation].
Nous expérimentons également une stratégie de filtrage basée sur le type de perturbation [sémantique].
À cette fin, nous utilisons un cadre de décomposition de [requête] à usage général appelé [QED].
[QED] identifie deux parties à la [question], un [prédicat] et une référence.
Les références sont des syntagmes [nominaux] dans la [question] qui correspondent à des [entités] dans le [contexte].
Un [prédicat] est essentiellement la partie restante de la [question].
[Par] exemple, nous sommes en mesure de décomposer la [requête] « qui a dirigé la toute première équipe féminine de Richmond en deux références » : l’équipe féminine du Richmond Football Club et le [prédicat] qui a dirigé X.
Un [modèle] formé sur les [annotations] du [prédicat] de référence [pour] NQ nous fournit cette décomposition de [question].
La décomposition à la fois de la [question] originale et [générée] basée sur [QED] nous permet de catégoriser nos contrefactuels [générés] [pour] l’[évaluation].
Plus précisément, nous obtenons deux groupes de [questions].
Ceux qui subissent un changement de référence tout en conservant les [prédicats], et ceux qui subissent un changement de [prédicat] et ajoutent éventuellement des références.
[Par] exemple, qui a été capitaine de l’équipe de réserve de Richmond [VFL] est-il un changement de référence ?
Alors que, qui porte le [numéro] neuf [pour] le club est un changement de [prédicat].
Nous évaluons maintenant l’efficacité des perturbations [RGF] lorsqu’elles sont [améliorées] par rapport aux [données de formation].
Ainsi, pour évaluer efficacement l’efficacité de l’[élargissement] [contrefactuel] en particulier, nous expérimentons deux [bases] de forte [amélioration de données].
La première base, appelée [réponse] aléatoire et [production de questions], ajoute des [données] qui n’ont pas de [relation] avec la [question] originale.
Autrement dit, les passages et les réponses sont simplement échantillonnés au hasard à partir de [Wikipédia].
Cette base ajoute essentiellement plus de [données] ressemblant à NQ.
Avec la deuxième [réponse] d’or de base et la [production de questions], nous mettons spécifiquement à jour la partie [extraction] de notre [méthode].
Ici, les réponses alternatives sont simplement choisies à partir du même passage qui contenait la [réponse] d’or.
Comment l’[élargissement] des [bases] et du [RGF] fonctionne sur la [reading comprehension] où le [modèle] a accès à la [question] et au [contexte] ?
Nous expérimentons avec six [données] hors [domaine] et présentons les résultats ici, où les [données] qui sont les [training data] sont doublées dans l’[élargissement].
Nous constatons que les deux [bases] d’[amélioration de données] ne sont pas en mesure d’améliorer notre [généralisation] du [domaine].
En effet, un ensemble de six [modèles] formés sur les [données] originales semble être la base la plus compétitive.
En comparant avec cette base, nous constatons que les contrefactuels [RGF] sont capables d’améliorer les performances hors [domaine] tout en maintenant les performances de [domaine].
Cela suggère que combler les lacunes de [raisonnement] du [modèle] via l’[élargissement] [contrefactuel] est plus efficace que d’ajouter plus de [données] de la distribution de [formation].
[En outre], nous constatons que l’utilisation de l’[extraction] pour échantillonner d’autres résultats ou réponses est importante [pour] un [CDA] efficace.
Nous expérimentons également un paramètre [QA] de [domaine] ouvert où le [modèle] ne voit que la [question] et une fois de plus, nous évaluons sur quatre [données] hors [domaine].
Nous constatons que les [modèles] de référence ne sont pas aussi efficaces [pour] notre [généralisation] hors [domaine].
Cependant, l’[amélioration de données] avec [RGF] montre des améliorations plus significatives.
Nous nous améliorons même dans les [données] NQ de [domaine].
Nous avons émis l’hypothèse que l’[amélioration de données] [contrefactuelle] aide le [modèle] à [apprendre] de meilleurs encodages de [requête] [pour] des [requêtes] très [similaires].
Enfin, nous évaluons également la capacité du [modèle] à améliorer la cohérence dans le voisinage local de la [question] originale.
La cohérence mesure la proportion de [questions] correctement répondues par le [modèle] où à la fois la [requête] originale et celle [contrefactuelle] reçoivent une réponse correcte.
Cela nous aide explicitement à mesurer la [robustesse] du [modèle] à de petites perturbations dans le voisinage de la [saisie] originale.
Nous expérimentons avec cinq [données] qui contiennent des paires de [questions] [sémantiquement] proches les unes des autres.
Mis à part les trois [données] [AQA], [AmbigQA] et [QUOREF]-Contrast définies qui sont déjà disponibles, nous évaluons également sur les contrefactuels [RGF] qui sont synchronisés avec les [questions] NQ originales selon qu'elles ont subi un changement de [prédicat] ou un changement de référence.
Ces sous-ensembles ont été [annotés] en interne pour éliminer le bruit et sont fournis en tant que ressource.
Toutes les [bases] sont incapables d’améliorer de manière significative la cohérence avec le [modèle] d’ensemble en améliorant la cohérence d’une petite marge.
Cependant, l’[élargissement] [contrefactuel] du [RGF] a des gains impressionnants en cohérence à la fois sur les [données] antérieures et les deux sous-ensembles que nous avons sélectionnés [pour] les perturbations de référence et de [prédicat].
Notez que les [données] [RGF] [améliorées] ne sont pas biaisées par le type de perturbation, seuls les ensembles d’[évaluation] le sont.
En effet, une inspection [qualitative] des types de contrefactuels [générés] montre que les [questions] [générées] contiennent plusieurs perturbations diverses.
[Par] exemple, cette [question] originale sur la population de Walnut Grove, au Minnesota, est perturbée par différentes dimensions comme la ville, l’État, le pays, et par différents [prédicats] comme l’emplacement, la pauvreté et le [nombre] d’écoles.
L’audio des perturbations est spécifique au [contexte].
[Par] exemple, [pour] cette autre [question] sur le tournoi en simple de Wimbledon, la perturbation est liée au type de jeu, au type de tournoi ou au résultat du jeu.
Derniers points à retenir : nous abordons la [tâche] d’[amélioration des données] [contrefactuelle] et les perturbations [pour] les [requêtes] recherchant des [informations] et abordons ses défis uniques via un renversement de l’[approche] de [génération], et générons plus en utilisant des quasi-accidents du [modèle] et un filtre basé sur le type de perturbation ou la minimalité.
Nous constatons que cette technique ne nécessite aucune supervision supplémentaire et les exemples sont [étiquetés] [pour] l’[élargissement].
L’[élargissement] améliore la [généralisation] de [domaine] et la cohérence du voisinage.
Et nous constatons que les contrefactuels [RGF] sont [sémantiquement] divers sans introduire de biais lors de l’[élargissement].
Merci.