Hallo, mijn naam is Elena en ik zal een presentatie geven over ons werk, [Detecteren] van niet-geassimileerde leenwoorden in het Spaans: Een [geannoteerd corpus] en benaderingen voor [modellering].
Dus we gaan het hebben over wat [lexicaal] lenen is, de [taak] die we hebben voorgesteld, de [dataset] die we hebben vrijgegeven en enkele [modellen] die we hebben onderzocht.
Maar om te beginnen, wat is [lexicaal] lenen en waarom is het belangrijk als [NLP-taak]?
In feite is [lexicaal] leenwoordengebruik het overnemen van [woorden] uit de ene [taal] in een andere [taal].
[Bijvoorbeeld] in het Spaans gebruiken we [woorden] die uit het [Engels] komen.
En hier zijn een paar voorbeelden, [woorden] zoals podcast, app, en [online] crowdfunding. Dit zijn allemaal [woorden] uit het [Engels] die we soms in het Spaans gebruiken.
[Lexicaal] lenen is een vorm van [linguïstisch] lenen, dat wil zeggen het reproduceren in de ene [taal] van patronen van andere [talen].
En lenen en code switching worden soms [vergeleken] en beschreven als een continuüm, waarbij het tegelijkertijd door elkaar gebruiken van twee [talen] door tweetaligen wordt beschouwd als code switching.
Er zijn echter enkele verschillen tussen [lexicaal] lenen en code-switching.
We richten ons op [lexicaal] lenen.
Code switching gebeurt door tweetaligen en de code switches zijn per definitie niet geïntegreerd in een van de gebruikte [talen], terwijl [lexicaal] lenen iets is dat ook door eentaligen wordt gedaan.
De leenwoorden zullen voldoen aan de [grammatica] van de ontvangende [taal].
En leenwoorden kunnen uiteindelijk worden geïntegreerd in de ontvangende [taal].
Waarom is een leenwoord een interessant fenomeen?
Vanuit het oogpunt van [taalkunde] is lenen een uiting van de wijze waarop [talen] veranderen en hoe ze interageren.
En ook [lexicale] leenwoorden zijn een [bron] van nieuwe [woorden].
Hier zijn enkele voorbeelden van [lexicale] leenwoorden die als nieuwe [woorden] in de Spaanse [taal] zijn opgenomen.
In termen van [NLP] zijn leenwoorden een veel voorkomende [bron] van [woorden] die niet in de [woordenschat] voorkomen.
En in feite is het [automatisch] [detecteren] van [lexicale] leenwoorden al nuttig gebleken [voor] [NLP] [downstream] [taken] zoals [parsen], [tekst]-naar-[spraak] synthese of [automatische vertaling].
Er is een groeiende belangstelling voor de invloed van het [Engels] op andere [talen] in het bijzonder in verband met [Engels] [lexicaal] leenwoorden, leenwoorden die ook wel Anglicismen worden genoemd.
En hier staan enkele voorbeelden van werk aan [automatische] [detectie] van leenwoorden in enkele van deze [talen].
De [taak] die wij [voorstellen] is dus het opsporen van niet-geassimileerde [lexicale] leenwoorden in Spaanse [newswire].
Dit betekent dat wij geïnteresseerd zijn in het [extraheren] van [woorden] uit andere [talen] die worden gebruikt in Spaanse kranten, maar die niet zijn geïntegreerd of geassimileerd in de ontvangende [taal].
Dus nog niet geïntegreerd in het Spaans.
Dit is een voorbeeld ervan.
Deze [zin] is in het Spaans: Las prendas bestsellers se estampan con motivos florales, animal print o retales tipo patchwork.
En zoals u kunt zien, zijn er drie [spannen] van [teksten] die eigenlijk [woorden] in het [Engels] zijn zoals bestseller, animal print en patchwork.
Dit is het type [spannen] waarin wij geïnteresseerd zijn in [extraheren] en [detecteren].
Er is [eerder] iets over Anglicisme [woordinbeddingen] [detectie] geweest die bestond uit een [CRF] [model] [voor] Anglicisme [detectie] op Spaanse [Newswire].[woordinbeddingen].
Dit [model] behaalde een F1-score van zesentachtig.
Maar er waren enkele beperkingen in zowel de [dataset] als de [modellering] [benadering].
Dus de [dataset] richtte zich uitsluitend op één [bron] van [nieuws], bestond alleen uit koppen.
En er was ook een overlapping in de leenwoorden die voorkomen in de [training]set en de testset.
Hierdoor kon niet worden beoordeeld of de [modellering] [benadering] daadwerkelijk kon [generaliseren] naar eerder [onzichtbare] leenwoorden.
Wij willen dus een aantal van deze beperkingen in de [taak] aanpakken.
Allereerst hebben we dus een nieuwe [dataset] gemaakt.
Ah het doel was een nieuwe [dataset] die [geannoteerd] was met [lexicale] leenwoorden en het doel was een zo moeilijk mogelijke testset te maken.
Dus er zou minimale overlap zijn in [woorden] en onderwerpen tussen de [training]set en testset.
En als gevolg daarvan komt de testset uit bronnen en data die we niet zien in de [training]set.
Hier ziet u dat er geen overlapping is in de tijd.
Het is ook zo dat de testset ook erg leendicht is.
Om enkele cijfers te geven: als de [training]set zes leenwoorden per duizend [tokens] bevat, bevat de testset twintig leenwoorden per duizend [tokens].
De testset bevatte zoveel mogelijk uit [woordenschat] [woorden].
In feite is tweeënnegentig procent van de leenwoorden in de testset [OOV].
Zij zijn dus niet gezien tijdens de [training].
En het [corpus] bestond in wezen uit een verzameling [teksten] die afkomstig waren uit verschillende bronnen van Spaanse kranten.
En het werd [geannoteerd] met de hand met behulp van twee tags.
Een [voor] [Engels] [lexicale] leenwoorden die de meerderheid van de [lexicale] leenwoorden in het Spaans vormen, en dan het label andere [voor] leenwoorden uit andere [talen].
We gebruiken [CONLL] formaten en we gebruikten [BIO] [codering] zodat we kunnen [coderen] ah single [token] leenwoorden zoals app of multi [token] leenwoorden zoals [machine learning].
Dit zijn de nummers van het [corpus].
Zoals u ziet, gaat het om ongeveer driehonderdzeventigduizend [tokens].
En hier hebt u het [aantal] [spannen] die [gelabeld] waren als [Engels] en de [spannen] die [gelabeld] waren als andere leenwoorden en hoeveel daarvan uniek waren.
En dit zijn een paar voorbeelden van de set van de [dataset].
Zoals u [bijvoorbeeld] hier kunt zien, hebben we ah in het eerste voorbeeld, hebben we de leenpartij koken, wat een multi- [woord] leenwoord is.
En wij hebben het [geannoteerd] met behulp van het [BIO] [coderen].
De [BIO] werd dus gebruikt [voor] [woorden] in het Spaans dus niet [voor] [woorden] die niet geleend werden.
En hier in dit tweede voorbeeld heb je benching en crash die ook [gelabeld] zijn als leenwoorden uit het [Engels].
Toen we de [dataset] eenmaal hadden, onderzochten we verschillende [modellen] [voor] de [taak] van het [extraheren] en [detecteren] van deze [lexicale] leenwoorden.
De eerste die wij probeerden was het voorwaardelijke willekeurige veld [model].
En, dit was het [model] dat was gebruikt bij het [eerdere] werk.
En we gebruikten dezelfde handgemaakte [functies] van die uit dat werk.
Zoals u kunt zien, zijn dit de [functies].
Dit zijn [binaire] [functies] zoals het [woord] of het [token] in hoofdletters?
Is het een titlecase?
Is het een aanhalingsteken?
Zulke dingen, die het type [functies] zijn dat men zou verwachten in een [naam entiteitherkenning] [taak].
Dit zijn onze resultaten.
We behalen vijfenvijftig F1-scores met behulp van het [CRF] [model] met handgemaakte [functies].
Dat is een enorm verschil [vergeleken] met de gerapporteerde F1-score van zesentachtig, het resultaat verkregen met hetzelfde [CRF] [model], dezelfde [functies] maar op een andere [dataset] ook [voor] Spaanse [lexicale] leenwoorden [detectie].
Dit bewijst dus dat de [dataset] die wij hebben gemaakt moeilijker is en dat wij geavanceerdere [modellen] [voor] deze [taken] moesten onderzoeken.
Wij hebben dus twee op [transformer] gebaseerde [modellen] getest.
Wij gebruikten [BETO] dat een [eentalig] [BERT-model] is dat getraind is [voor] Spaans en ook [meertalig BERT].
Beide [modellen] gebruiken we via de [transformers] bibliotheek van HuggingFace.
Dit zijn onze resultaten.
Zoals u kunt zien, presteert [meertalig BERT] beter dan [BETO], zowel op de ontwikkelingsset als op de testset en voor alle [statistieken].
Zodat we een idee hebben om te vergelijken, behaalde het [CRF] [model] tweeëntachtig.
Het [CRF] [model] behaalde een F1 score van vijfenvijftig, terwijl de [meertalige BERT] tweeëntachtig behaalde, wat een groot verschil is.
Dus toen we die resultaten eenmaal hadden, stelden we onszelf een andere [vraag]: kunnen we een [BiLSTM-CRF] [model] vinden, het voeden met verschillende soorten [inbeddingen], [inbeddingen] die verschillende soorten [linguïstisch] gebaseerde [informatie] [coderen] en het beter doen dan de resultaten van op [transformer] gebaseerde [modellen]?
Dus om dit te doen, hebben we enkele voorlopige experimenten uitgevoerd, we hebben dit uitgevoerd door [BiLSTM-CRF] [model] met behulp van flare-bibliotheek.
En we hebben geëxperimenteerd met verschillende soorten [embeddings], zoals [transformer]-gebaseerde maar ook snelle [tekst], karakter [inbeddingen], enzovoort.
Wat we ontdekten was dat [transformer]-gebaseerde [inbeddingen] beter presteerden dan niet [gecontextualiseerde] [inbeddingen], dat de combinatie van [Engels] [BERT] en Spaanse [BETO] [inbeddingen] beter presteerde dan [meertalige BERT] [inbeddingen].
En dat [BPE] [inbeddingen] een betere F1 en karakter [inbeddingen] een betere recall opleveren.
Met dat gegeven in het achterhoofd waren dit de best presterende resultaten die we kregen.
Beide [modellen] waren [BiLSTM-CRF] [modellen] met gebruik van flare.
De ene werd gevoed met [BETO] en [BERT] [inbeddingen] en [BPE], en de andere met [BETO] en [BERT] [inbeddingen] en [BPE] en ook karakter [inbeddingen].
Deze laatste was degene die de hoogste F1-score op de testset produceerde, hoewel de hoogste score op de ontwikkelingsset werd verkregen door degene zonder karakter [inbeddingen].
Alleen al om in gedachten te houden dat het beste resultaat dat we met [meertalige BERT] behaalden een F1 van zesenzeventig op de ontwikkelset en tweeëntachtig op de testset.
Dit is dus een verbetering [vergeleken] met die resultaten.
Tot slot stelden we ons een andere [vraag] die [lexicale] lenen [detectie] kan worden ingelijst als [overdracht leren] van [taalidentificatie] in code switching?
We voeren dus hetzelfde [BiLSTM-CRF] [model] uit dat we hadden uitgevoerd met flare, maar in plaats van deze onaangepaste [transformer]-gebaseerde [BETO] en [BERT] [inbeddingen] te gebruiken, gebruikten we code-switch [inbeddingen].
Wat zijn code switch [inbeddingen]?
Dit zijn [inbeddingen] die verfijnde [transformer]-gebaseerde [inbeddingen], die [vooraf getraind] zijn [voor] [taalidentificatie] op het Spaanse [Engelse] deel van de [LinCE] code-switching [dataset].
[LinCE] is een [dataset] over code-switching met een sectie over Spaans [Engels], Spaans [Engels] code-switching.
Dus voedden we onze [BiLSTM-CRF] met codeswitch [inbeddingen] en optioneel karakter [inbeddingen], [BPE] [inbeddingen] enzovoort.
Het beste resultaat was vierentachtig komma tweeëntwintig, het hoogste resultaat van alle [modellen] die wij op de testset hebben uitgeprobeerd.
Hoewel het beste resultaat F1 score die we kregen op de ontwikkeling set, die was negenenzeventig, was lager dan het beste resultaat verkregen door de [BiLSTM-CRF] gevoed met unadapted [inbeddingen].
Enkele conclusies uit ons werk.
Wij hebben een nieuwe [dataset] Spaanse [newswire] geproduceerd die [geannoteerd] is met niet-geassimileerde [lexicale] leenwoorden.
Deze [dataset] is rijker aan leenwoorden en [OOV] dan [eerdere] [bronnen].
Wij hebben vier soorten [modellen] [voor] [lexicale] leenwoorden [detectie] onderzocht.
Ehm. In termen van fouten [analyse], wel, recall was een zwak punt [voor] alle [modellen].
En, zoals u hier kunt zien, omvatten sommige frequente valse negatieven leenwoorden in hoofdletters, [woorden] die zowel in het [Engels] als in het Spaans bestaan, [bijvoorbeeld].
Ook interessant is dat [BPE] [inbeddingen] de F1-score lijken te verbeteren.
En karakter [inbedding] lijkt de herinnering te verbeteren.
Dat is een interessante vaststelling die we misschien in de toekomst kunnen onderzoeken.
Ehm. Dit was het dan.
Heel erg bedankt [voor] het luisteren.
Mijn naam is Antoine.
Ik ben promovendus aan de Universiteit van Massachusetts Amherst.
Ik presenteer de [paper] [KinyaBERT]: een [morfologie]-bewust Kinyarwanda [taalmodel].
Vandaag zal ik het hebben over de motivatie [voor] dit [onderzoek].
Daarna zal ik [KinyaBERT] [model] architectuur in detail presenteren.
Vervolgens zal ik onze experimentele resultaten bespreken en eindigen met enkele conclusies.
We weten allemaal dat de recente vooruitgang [op het gebied van natuurlijke taalverwerking] mogelijk is gemaakt door het gebruik van [vooraf getrainde taal] [modellen] zoals [BERT].
Er zijn echter nog een [aantal] beperkingen.
Vanwege de complexe [morfologie] die de meeste [morfologisch] rijke [talen] uitdrukken, kan het alomtegenwoordige [bytepaarcodering] [tokenisering] [algoritme] dat ik heb gebruikt, niet de exacte [subwoord] [lexicaal] eenheden, [d.w.z.] de [morfemen], extraheren die nodig zijn [voor] effectieve [representatie].
[Bijvoorbeeld] hier hebben we drie Kinyarwanda [woorden] die verschillende [morfemen] bevatten, maar de [BPE] [algoritmen] kunnen ze niet extraheren.
Dit komt omdat sommige [morfologische] regels verschillende oppervlaktevormen produceren die de exacte [lexicale] [informatie] verbergen, en [BPE], die uitsluitend gebaseerd is op de oppervlaktevormen, geen toegang heeft tot dit [lexicale] [model].
De tweede uitdaging is dat zelfs als men toegang had tot een [oracle] [morfologisch analyser], het vervangen van [BPE] [tokens] door [morfemen] niet voldoende is om de [morfologisch] [compositionaliteit] tot uitdrukking te brengen.
Een derde hiaat in het [onderzoek] is dat nieuwe [vooraf getrainde taal] [modellen] meestal worden geëvalueerd op high resource [talen].
En we moeten hun toepasbaarheid ook beoordelen op lage [middelen] en diverse [talen].
[Daarom] presenteren we [KinyaBERT], wat een eenvoudige maar effectieve aanpassing is van de [BERT] architectuur die bedoeld is om effectiever om te gaan met [morfologisch] rijke [talen].
We evalueren [KinyaBERT] op Kinyarwanda, een [lage bron] [morfologisch] rijke [taal], die [gesproken] wordt door meer dan twaalf miljoen mensen in Oost- en Centraal-Afrika.
De [input] bij het [model] is een [zin] of een [document].
[Bijvoorbeeld] hier hebben we John twarahamubonye biradutangaza, wat betekent dat we verrast waren om John daar te vinden.
Zoals je kunt zien, bevat Kinyarwanda [woorden] verschillende [morfemen] die verschillende [informatie] bevatten.
[Daarom] geven we in ons [model] deze [zin] of een [document] door aan een [morfologische analyzer].
Die vervolgens [morfemen] voortbrengt die in elk van de [woorden] zijn vervat.
De [morfemen] zijn meestal gemaakt van de stengel en nul of meer affixen.
De affixen kunnen duiden op gespannenheid, [aspect], onderwerp of object in [werkwoorden], en hebben vaker betrekking op de Bantu [zelfstandig naamwoord] klasse [voor] onderwerpen en objecten.
De [morfologische analyzer] produceert ook een deel van [spraak] tag [voor] elk van de [woorden].
Na deze stap maken we [inbeddingen] [voor] de spee- [voor] het deel van [spraak] tags.
[Inbeddingen] [voor] de affixen.
En [inbeddingen] [voor] de stam.
Dit zijn de [morfologie] niveaus, dit zijn de [morfologie] niveaus [insluitingen].
Vervolgens halen wij deze [inbeddingen] door een [morfologie]-[encoder], een kleine [transformer encoder] die op elk [woord] afzonderlijk wordt toegepast.
De output van de zijn de [vectoren] die [gecontextualiseerd] zijn met [morfologisch] [informatie] bij alle [woordinbeddingen].
Nu voeren we een compositie uit waarbij [morfologisch] [inbeddingen] die [overeenkomen] met deel van [spraak] en stam worden samengevoegd.
We voegen ze verder samen met een andere stam [inbedding] op [zin] niveau.
Vervolgens vormen we een [input] naar de hoofd [zin] of [document] [encoder].
De uiteindelijke output zijn [gecontextualiseerde] [inbeddingen] die kunnen worden gebruikt [voor] [downstream] [NLP] [taken].
[Voor] een [morfologische analyzer] gebruiken we eindige toestand twee niveau [morfologie] principes met aangepaste implementatie die is afgestemd op de Kinyarwanda [taal].
Wij [modelleren] effectief de [morfologie] van alle Kinyarwanda [woorden], inclusief werkwoorden, [zelfstandige naamwoorden], aanwijzende en bezittelijke [voornaamwoorden], telwoorden en andere.
We gebruiken een [unsupervised] [spraak] [tagging] [algoritme].
Een eerste orde factor [model] wordt gebruikt om rekening te houden [voor] [morfologie] waarschijnlijkheid, in principe de waarschijnlijkheid die wordt toegewezen door de [morfologische analyzer].
We houden ook rekening met het deel van [spraak] tag-prioriteit evenals de [syntactische] overeenkomsten die aanwezig zijn in de [input] [woorden].
Het deel van [spraak] [tagger] maakt gebruik van een bidi [bidirectionele] [interferentie] die de vaker gebruikte Viterbi [algoritme] [voor] [decodering] verbetert.
Een paar opmerkingen hier [voor] [positionele codering].
Ten eerste gebruikt de [morfologie] [encoder] geen [positiecodering].
Dit komt omdat elk van de [morfemen] een bekende plaats inneemt in het [morfologisch] [model].
[Daarom] is positionele [informatie] inherent wanneer de [morfemen] worden gegeven.
Ten tweede maakt de [zin] [encoder] gebruik van de zogenaamde ongebonden relatieve positionele [inbeddingen], die onlangs zijn gepubliceerd op [ICLR] -conferentie.
Deze positionele [inbedding] ontwart in wezen positionele [correlaties] van [token] naar [token] [aandacht] [berekening].
[Vergelijkbaar] met [BERT] gebruiken we een [gemaskerd taalmodel] [pre-training] -doelstelling.
In wezen moeten we zowel de stengel als de affixen voorspellen die geassocieerd worden met de [woorden].
Tijdens [pre-training] wordt vijftien procent van alle [woorden] beschouwd [voor] [voorspelling], waarvan tachtig procent wordt gemaskeerd, tien procent wordt geruild met willekeurige [woorden] en tien procent blijft ongewijzigd.
[Voor] affix [voorspelling] krijgen we te maken met een multi-label [classificatie] [probleem].
[Voor] dit, groeperen wij ofwel affixen in een vast [aantal] sets en voorspellen de set als klassenlabel.
De andere optie is om de affixwaarschijnlijkheid [vector] te voorspellen.
We evalueren beide benaderingen in onze experimenten.
We trainen [KinyaBERT] op ongeveer twee en een halve gigabyte Kinyarwanda [tekst] en vergelijken het met drie baseline [modellen].
Een daarvan is een [meertalig] [model] genaamd [XLM]-R, dat is getraind op een [grote] [tekst] [corpora] die is gemaakt van meerdere [talen].
De andere twee [baselines] zijn [vooraf getraind] op dezelfde Kinyarwanda [tekst] met ofwel de [bytepaarcodering] [algoritme] of met [morfologische analyse] zonder gebruik te maken van de tweelaags [transformer encoder] architectuur.
Alle [modellen] zijn geconfigureerd in de basisarchitectuur, die ongeveer tussen honderd en honderd en tien miljoen parameters ligt, waarbij Kinyarwanda met [KinyaBERT] de minste [aantal] parameters gebruikt.
[vooraf getraind]Alle [modellen] behalve de [meertalige] zijn [vooraf getraind] [voor] tweeëndertigduizend [gradiënt] updates met een batchgrootte van tweeduizend vijfhonderdzestig [sequenties] in elke batch.
We evalueren de [modellen] [vooraf getraind] op drie sets van [taken].
Een daarvan is de [GLUE] benchmark die vaak is gebruikt [voor] het evalueren van de effectiviteit van [voorgetrainde taal] [modellen].
We verkrijgen onze [GLUE] benchmark [data] door de originele benchmark [data] te vertalen naar Kinyarwanda met behulp van Google Translate.
De tweede [taak] is Kinyarwanda [naam entiteitherkenning] benchmark, wat een hoge [kwaliteit] [dataset] is die werd [geannoteerd] door getrainde moedertaalsprekers.
De derde is een [nieuws] categorisatie [taak] waarbij we [nieuws] artikelen van verschillende websites halen en hun categorisatietags verzamelen die door de auteurs zijn toegewezen en vervolgens in wezen proberen hetzelfde te voorspellen, dezelfde categorieën.
En nu gaan we naar de resultaten.
[Voor] de [GLUE] benchmark vinden we dat [KinyaBERT] consequent beter presteert dan baseline [modellen].
Hier tonen we de gemiddelde prestaties [voor] tien [finetunen] runs.
We voeren ook een [gebruiker] [evaluatie] uit van de [vertalingen] die worden geproduceerd door Google Translate.
[beoordelen]In wezen beoordeelden [gebruiker] gebruikers ongeveer zesduizend voorbeelden, waarbij scores werden toegekend op een schaal van één tot vier, [beoordelen] van de [kwaliteit] van de [vertalingen].
Het resultaat is dat veel [vertalingen] luidruchtig waren.
Maar alle [modellen] moesten het hoofd bieden aan dezelfde ruis in de [vertaling], en de relatieve prestaties tussen de [modellen] zijn nog steeds belangrijk om op te merken.
[Voor] de [naam entiteitherkenning] [taak] vinden we ook dat [KinyaBERT] de beste prestaties levert met de affixverdeling [regressie] -variant die het beste presteert.
Deze resultaten zijn ook gemiddelden van tien [finetunen] runs.
[Voor] de [nieuws] categorisatie [taak] vinden we gemengde resultaten.
[Eerder] werk aan [tekstclassificatie] [voor] Kinyarwanda had ontdekt dat eenvoudig zoekwoord [detectie] meestal voldoende is [voor] het oplossen van deze specifieke [taak].
[Daarom] is er minder winst uit het gebruik van [vooraf getrainde taal] [modellen].
Op deze specifieke [taak] van [nieuws] categorisatie.
We hebben ook een [ablatie] studie uitgevoerd om te zien of er alternatieve structuren zijn die de prestaties verbeteren.
[Voor] de [GLUE] benchmark, vinden we dat het gebruik van affix sets consequent beter presteert, terwijl affix waarschijnlijkheid [regressie] doelstelling levert de beste prestaties op [naam entiteit erkenning].
Ook door te kijken naar de lage scores [voor] [finetunen], vinden we dat [KinyaBERT] in de meeste gevallen een betere convergentie heeft.
Tot slot heeft dit werk de effectiviteit aangetoond van het expliciet gebruik van [morfologisch] [informatie] in [vooraf getrainde taal] [modellen].
[compositionaliteit]De voorgestelde two tier [transformator encoder] architectuur maakt het vastleggen van [morfologische] complexiteit [morfologische] [compositionaliteit] mogelijk, wat een belangrijk [aspect] is van [morfologisch] rijke [talen].
Deze bevindingen zouden verder [onderzoek] naar [morfologie] aware [taal] [voorgetrainde taal] [modellen] moeten motiveren.
Hallo, mijn naam is Michał Pietruszka en het is mij een genoegen u de [paper] met de titel Sparsificeren van [transformer] [modellen] met trainbare [representatie] pooling te presenteren.
Dit project is uitgevoerd bij Applica [AI] in samenwerking met Lukasz Borchmann en Lukasz Garncarek.
Laat ik beginnen met de problemen die onze werkdoelen zijn.
Onze [methode] werkt goed [voor] de gevallen waarin lange ingangen worden overwogen.
Grofweg is het bedoeld [voor] de [taak] orders en [input] van meer dan tweeduizend [tokens] en de targets zijn korter dan de verstrekte inputs.
Dit heeft enkele specifieke toepassingen in [NLP].
[Bijvoorbeeld], men kan zich voorstellen dat gegeven een lang [document], is er een noodzaak om het samen te vatten, classificeren, [antwoord] de [vraag] over, extract [informatie] of een aantal belangrijke zinnen.
Laat mij u herinneren aan de vanille [transformer] en onze en zijn kwestie van zijn [aandacht] complexiteit die afhangt van het kwadraat van de [input] lijn.
In de vanille [transformer], met volledige [aandacht] connectiviteit, moeten [relaties] van elke [token] tot elke andere [token] worden berekend.
De [reken-] complexiteit van [aandacht], dit hangt af van het [aantal] lagen l, [sequentie] lengte n, een andere [sequentie] lengte, en de dimensionaliteit van [representaties].
Evenzo is in het kruis van de [decoder] [aandacht], naar deze afbeelding aan de rechterkant, het enige verschil hier dat de [doel] [tokens] in dit geval aandacht besteden aan de [input] [tokens].
Dat zie je ook terug in deze formule.
De [BLEU score] vertegenwoordigt [relaties] die moeten worden berekend.
In het geval van de volledige [aandacht], moeten we elke [relaties] binnen de [input] [sequentie] berekenen.
Nu zien we wat er gebeurt als we een blokgewijze [encoder] hebben die werkt door de [tokens] -connectiviteit te beperken, zodat ze alleen andere nabijgelegen [tokens] kunnen zien.
De [tekst] wordt gelezen in brokken die het [aantal] berekeningen aan de [encoder] -zijde drastisch kunnen verminderen, maar verbetert het kruis [aandacht] van de [decoder] niet, aangezien elke [input] [token] toch aan de [decoder] wordt doorgegeven.
Deze [methode] wordt vaak aangeduid als fusie in [decoder].
De verbetering hier kan worden geïnterpreteerd als het veranderen van een van de [afhankelijkheden] van n naar een andere constante m die de blokgrootte vertegenwoordigt.
Onze belangrijkste observatie is dat de meeste [tokens] irrelevant zijn [voor] een breed scala aan [taken] en bijna volledig kunnen worden genegeerd. Dit wordt geïllustreerd op de slide.
De enige onderdelen van de ingangen zijn relevant voor de gewenste output.
[Bijvoorbeeld].
Men kan een artikel lezen zodra het markeren van de belangrijkste onderdelen met een markeerstift, en vervolgens produceren een samenvatting op basis van dit deel van alleen de middenfase.
De kosten van het markeren en beslissen of de huidige [token] essentieel is om de samenvatting te produceren, zijn dus goedkoop en hangen alleen af van de [token]'s [representatie].
Het poolen van de gemarkeerde [tokens] is mogelijk.
Dankzij onze top k operator en de kosten is verwaarloosbaar.
De kosten van het produceren van een samenvatting van een ingekorte [input] is ook veel lager dan in de vanille [model] wanneer het geheel [input] wordt beschouwd.
Maar hier is een [vraag].
Hoe selecteer je belangrijke [tokens] en backpropageer je gradiënten naar die selectie?
Het essentiële onderliggende [probleem] dat wij oplossen is het trainbare selectiemechanisme [voorstellen].
Een die [voor] [gradiënt] kan toestaan om terug te worden gepropageerd tijdens de [training], zodat het netwerk kan leren om de belangrijkste [tokens] te selecteren.
Beter gezegd
Gegeven een aantal [inbeddingen] underscore verkregen uit een eenvoudige [lineaire] laag, is de [taak] om de hoogst scorende [inbeddingen] terug te geven. Eerst wordt de [sequentie] gepermuteerd en worden paren voorbereid zodat de hogere score [vector] wordt genomen met de lagere score.
Vervolgens worden [waardes] berekend met behulp van boosted [softmax] over scores.
Na elke toernooironde worden nieuwe [vectoren] en scores samengesteld als een [lineaire] combinatie van die paren met de verkregen [waardes].
Kortom, we combineren ze lineair door een [softmax] over hun scores uit te voeren.
En terwijl het combineren van twee [tokens], kan wat lawaai worden geproduceerd.
Maar het maakt het ook mogelijk om de gradiënten te verspreiden naar alle [input] [inbeddingen].
Kortom, een trainbare top k die we [voorstellen] is gebaseerd op het uitvoeren van een toernooi zoals zachte selectie bij elke stap.
En vanuit een ander perspectief volgt de [representatie] pooling de [encoder] laag.
Eerst wordt elke [representatie] gescoord en vervolgens worden alleen degenen met de hoogste scores doorgegeven aan de volgende laag.
[Coderen] kan worden uitgevoerd als in de standaard [transformer] architectuur op de volledige lengte [input].
Het is echter mogelijk om [tekst] in blokken van vaste lengte te verwerken en globaal de beste [representatie] te selecteren.
Hier is een voorbeeld van de [representatie] pooling geïntroduceerd na de [encoder].
Dit heeft direct invloed op de oorzaak van kruis [aandacht], die niet afhangt van de [input] lengte N, maar de constante K, die de samengevoegde lengte vertegenwoordigt.
Deze constante geeft aan hoeveel [representaties] worden geselecteerd en doorgegeven aan de [decoder].
Een samenvatting maken van een kortere [tekst] is aanzienlijk goedkoper dan de [eerdere] oplossing.
Omdat de lengte van [sequentie] kan worden ingekort met een [grote] factor.
[Bijvoorbeeld] we gebruikten met succes k van zestien of zelfs zestig keer vier of zelfs vierenzestig keer kleiner dan de waarde van n in onze experimenten.
Merk op dat het gunstige effect van bloksgewijze [coderen] en zelf [aandacht] duurzaam is.
Vergeet niet dat de [reken-]kosten van [aandacht] afhangen van het kwadraat van de [input] lengte.
Door de [input] eerder tijdens het [coderen] proces te verminderen, kunnen de kosten aanzienlijk worden verlaagd.
[Voor] het piramidion [model] vernauwden we de grootte van de [representatie] op de output van elke gekozen laag, wat leidde tot de exponentiële vermindering van [reken-] kosten naarmate het [coderen] vordert.
Zoals u kunt zien, zijn de totale [reken-] kosten van een volledige [encoder] hier minder dan twee keer de kosten van de volledige eerste laag.
Wanneer pooling eerder wordt geïntroduceerd, wordt de som van alle paarse vierkanten dus begrensd tot een constante, niet afhankelijk van het [aantal] lagen l.
Maar op de constante c, die beïnvloed kan worden door het plaatsen van de poollagen binnen het netwerk.
Onze verbeteringen werden gebenchmarkt op achtduizend [tokens] lange inputs.
En de figuur laat zien dat wanneer pooling wordt ingeschakeld, de beste schaalbaarheid [voor] de diepte van het netwerk wordt bereikt.
Hier kan men opmerken dat [training] de pyramidion van vierentwintig lagen goedkoper kan zijn dan [training] een tweelaagse vanille [transformer] op dergelijke lange ingangen.
Om nog maar te zwijgen over hoe gemakkelijk vanille [transformer] uit het geheugen kan gaan [voor] zo 'n lange [input].
De kwalitatieve [kwaliteit] kwalitatieve [kwalitatieve] vergelijking van onze trendpiramidion met andere baseline wordt uitgevoerd op de lange [document] [samenvatting] [taak], of gegeven de hoofdtekst van een artikel van arXiv of [PubMed], is de [taak] om zijn samenvatting te genereren.
Zo kan men blockwise zien, wat onze baseline is, presteert op het niveau van de [re], recente state-of-the-art [modellen], terwijl het piramidion de prestaties van deze competitieve baseline behoudt of verbetert.
Tegelijkertijd is ons [model] tachtig procent sneller om te trainen en meer dan vierhonderdvijftig procent sneller bij [interferentie] wanneer [vergeleken] met de blockwise baseline.
Beide [modellen] hebben veel lagere [parameter] tellingen en zijn vanaf nul getraind op de gekozen [taken].
[Eerdere] benaderingen om een [vergelijkbare] prestatie te bereiken, moesten meer parameters gebruiken en [voorgetrainde] funderingsfundamentele [modellen] en aanvullende [taal] [pre-training] -doelstelling gebruiken om [vergelijkbare] prestaties te bereiken.
We nodigen je uit om onze volledige [paper] te lezen en onze GitHub-code te gebruiken.
Bedankt [voor] het kijken.
Hallo, ik ben Jiawei Zhou van Harvard University.
Het is me een groot genoegen ons werk aan [online] [semantisch parsen] [voor] latentiereductie in [taak]-georiënteerde [dialoog] te presenteren.
Dit is een samenwerking met Jason, Michael, Anthony en Sam van Microsoft [Semantische] Machines.
In [taak]-georiënteerde [dialoog] interageert een [gebruiker] met het [systeem] dat verzoeken van [gebruiker] [uitingen] gewoonlijk in het spreken behandelt.
Vanaf het einde van de [gebruiker] [uiting] tot het [systeem] antwoord is er vaak een merkbare vertraging.
Onder de motorkap wordt de [gebruiker] [uiting] vertaald in een uitvoerbaar programma.
Die wordt vervolgens uitgevoerd zodat het [systeem] goed kan reageren.
Omdat het programma wordt weergegeven als [semantisch] [grafiek] die de [berekening] schetst, waarbij knooppunt een functieaanroep vertegenwoordigt en de kinderen de argumenten zijn.
De grote [knooppunten] markeren ogenblikkelijke operaties, maar de anderen zijn traag om uit te voeren.
Het eenvoudige voorbeeld dat we hier laten zien, deze programma 's kunnen vaak ingewikkelder zijn [grafieken] buiten de boomstructuren.
In dit gesprek stellen we de [vraag], kunnen we het programma starten [genereren] en uitvoeren voordat de [gebruiker] zelfs de [uiting] afrondt, zodat het snellere antwoord door het [systeem] kan worden bereikt?
Dit is de [online] [voorspelling] en beslissing [probleem].
Er zijn vele anderen in dit domein.
Voorbeelden hiervan zijn [simultaan] [vertaling] waarbij een live tolk de ene [taal] in realtime naar de andere vertaalt, slimme [tekst] automatische voltooiing om de [gebruikers] intentie te raden en Uber-pool waar de chauffeurs naartoe worden gestuurd waar ze mogelijk nodig zijn op basis van de voorspelde vraag.
Al deze scenario 's hebben één ding gemeen.
Dat wil zeggen, het is nuttig om beslissingen te nemen voordat je alle [input] ziet.
In ons geval gaan we te maken krijgen met [online] [semantische parsing], waarvan kan worden verwacht dat het een uitdaging is, omdat we moeten raden wat de [gebruiker] zou kunnen zeggen.
En het is ook onderbelicht zonder formele [evaluatie] metriek.
Laten we eerst eens kijken hoe een gewoon [systeem] werkt.
Het werkt offline door [ontleden] naar het programma, alleen aan het einde van de [uiting] van de [gebruiker].
Hier wordt het karakter [grafiek] voorspeld na het zien van alle [informatie].
Daarentegen stellen we een [online] [systeem] voor dat bij elke [uiting] voorvoegsel vergelijkt.
[Voor] bijvoorbeeld, elke keer dat we een nieuwe [token] zien, voorspellen we een nieuwe [grafiek].
Houd er rekening mee dat er fouten kunnen optreden.
Op de positie van op het zwembadfeest met Barack Obama kregen we een [grafiek] met de juiste [knooppunten] op de persoon en het [gebeurtenis] onderwerp, maar raad de verkeerde timing [informatie].
Dit proces gaat door totdat we de volledige [uiting] van de [gebruiker] ontvangen.
Hoe zou dit de uitvoeringstijdlijn in het offline [systeem] beïnvloeden?
We krijgen het programma [grafiek] aan het einde zodat het [systeem] op dit punt met de uitvoering kan beginnen.
Vergeet niet dat de grote [knooppunten] snelle bewerkingen zijn, dus we houden alleen rekening met de uitvoeringstijdlijn van de gekleurde langzame functies.
Ten eerste, deze twee vinden persoon functies kunnen worden uitgevoerd in [parallel], wit gemarkeerd uit de roze doos als ze geen [afhankelijkheid] van andere functies.
Vervolgens kan de node create [gebeurtenis] vervolgens worden uitgevoerd na het verkrijgen van resultaten van lagere niveau [knooppunten] en vervolgens de topfunctie opbrengst, zodat het hele programma is voltooid.
Het uitvoeringsproces is strikt, beperkt tot het programma [afhankelijkheid] [structuur] waar sommige bewerkingen niet kunnen worden geparalleliseerd, wat een merkbare vertraging veroorzaakt.
In ons [online] [systeem], waar we onderweg voorspellen, kan de uitvoering van het programma eerder beginnen.
Hier, bij het voorvoegsel na Obama, voorspellen we vol vertrouwen dat de zoekpersoonfunctie in het programma zou moeten staan, maar de rest kan fouten bevatten omdat ze grijs zijn.
De uitvoering van het knooppunt kan onmiddellijk worden gestart als een stap.
Dan, met meer [tokens], voorspellen we een totaal nieuwe [grafiek], maar een deel ervan is al uitgevoerd.
Dus we hoeven alleen maar de rest van de [knooppunten] te overwegen waar we ook vertrouwen in hebben.
Hier kan een andere vondstpersoon in [parallel] worden uitgevoerd.
Nogmaals, we kunnen verkeerde voorspellingen hebben.
Met meer [tekst] hebben we meer mogelijkheden om het goed te maken.
Zoals de tijd van [gebeurtenis] hier waar AM ook correct wordt geanticipeerd.
Vervolgens kunnen we beginnen met het uitvoeren van de rest volgens het programma [afhankelijkheid] [structuur].
Door het overlappen van de uitvoering tijdlijn met de [uiting] tijdlijn, besparen we een grote hoeveelheid tijd.
Dus stelden we de [taak] van [online] [semantisch ontleden] voor.
Een onderliggende veronderstelling is dat de uitvoeringstijd de [model] [voorspelling] tijd domineert.
Dus we konden alleen tijd winnen door eerder te voorspellen.
Een andere veronderstelling is dat als de [voorspelling] en uitvoering gebeuren op de achtergrond, dat het niet zichtbaar is voor gebruikers.
Het is niet nodig om een consistente geschiedenis van het [parsen] bij te houden.
Dus, we repareren vanaf nul na elke [token].
Wij [stellen] met name een [benadering] in twee stappen voor.
Een voorgestelde stap die een [grafiek] voorspelt met volledige [structuur] en een geselecteerde stap die de [knooppunten] selecteert die op dit moment de moeite waard zijn om uit te voeren.
We hadden twee varianten van de voorgestelde [methode].
Eerste [benadering] combineert een [taalmodel] voltooiing met volledige [uiting] tot [grafiek] [parsen].
In het bijzonder wordt het voorvoegsel na Obama eerst ingevuld door middel van een verfijnd [BART] [taalmodel] en vervolgens vertaald naar een programma met volledige offline [parser].
De tweede [benadering] voorspelt direct het programma van [gebruiker] [uiting] voorvoegsels.
Dit wordt bereikt door [training] een enkele [online] [parser] te vertalen naar het doel [grafiek] van elk voorvoegsel.
Dit vergemakkelijkt het [model] om de juiste anticipatie te leren.
Hoe genereren we deze [grafieken] in meer detail?
We formuleren het [probleem] door [genereren] van een seriële versie van de [grafiek].
Elk knooppunt of elke rand wordt vertegenwoordigd door een actie.
Hier beginnen we bij het eerste knooppunt.
Het onderstaande [nummer] registreert de absolute index in de actiegeschiedenis.
Dan hebben we het tweede knooppunt.
En dan is er nog de grens tussen hen.
Het bevat de aanwijzer naar de index van het [eerdere] knooppunt en het randlabel.
Nul betekent hier het verbinden van het meest recente knooppunt met het knooppunt [gegenereerd] door de zeroth-actie en het volgende knooppunt naast de rand.
Dit proces gaat door totdat we de volledige [grafiek] genereren.
Het onderliggende [model] is gebaseerd op [transformer] met zelfaanwijzend mechanisme [vergelijkbaar] naar een [eerder] op overgang gebaseerde [parser].
Na [genereren] van een volledige [grafiek], hebben we de actieniveauwaarschijnlijkheden verkregen die overeenkomen met verschillende delen van de [grafiek].
Wij selecteren vertrouwenssubgrafen op basis van de uit te voeren [heuristische] drempelwaarde.
Later gaan we de drempel variëren om verschillende afwegingen te maken tussen de latentiereductie en de uitvoeringskosten.
[Voor de formele [evaluatie] van de [online] [methoden], [stellen voor] om de uiteindelijke latentiereductie of [FLR] te meten.
Hier is een samenvatting van hoe een offline [systeem] de uitvoeringstijdlijn voltooit.
In [online] [systemen] overlapt de uitvoering met de [uiting] tijdlijn, dus het eindigt eerder.
[FLR] wordt gedefinieerd als de reductietijd [vergeleken] met het offline [systeem], gemarkeerd door het einde van de uitvoering.
We voeren experimenten uit op twee [grote] [conversationeel] [semantische parsing] [datasets], [SMCalFlow] en [TreeDST].
Onze [grafiek] op basis van [parser] bij offline werken, [bereikt] state-of-the-art prestaties op het [parsen] op beide [datasets].
Het LM voltooit [model] ook [bereikt] niet-triviale [BLEU] winst [vergeleken] met de eenvoudige basislijn van knooppuntvoltooiing.
Laten we nu eens kijken naar de nauwkeurigheid van de [voorspelling] van ons voorvoegsel naar [grafiek] [parser].
We testen de match F1-score van [grafiek] tuples tussen de [generatie] en de go [grafiek] in validatie [gegevens] in y-as [voor] elke prefixlengte in x-as vertegenwoordigd door percentages.
Elk van deze curves vertegenwoordigt een ander [model] met het enige verschil in [trainingsgegevens].
De onderste curve is de offline [parser] en we mengen het voorvoegsel [data] in verschillende lengtes om het [model] over te zetten naar een [online] [parser].
[Bijvoorbeeld] het legenda-voorvoegsel tachtig procent plus betekent dat het [model] is getraind met voorvoegsel [data] met voorvoegsellengte groter dan tachtig procent van de volledige [uiting] lengte.
De linkerbovenhoek is het gewenste gebied.
Zoals we kunnen zien, doet de offline [parser] in zwarte curve het niet goed op het voorvoegsel [data].
Naarmate we meer voorvoegsels mengen in [training], tilt de curve links en boven op en presteert beter op alle voorvoegsels.
Echter, de volledige [uiting] van [parsen] prestaties wordt niet beïnvloed in de rechterbovenhoek punt.
Op basis van deze sterke resultaten, hoeveel latency verminderen we?
We meten de tijd door het [aantal] van [bron] [tokens] en simuleren verschillende functie-uitvoeringstijden.
De curven tonen de afweging tussen de [FLR] -metriek en de uitvoeringskosten, gemeten aan de hand van het [aantal] buitensporige functiekosten die niet correct zijn.
Dit wordt bereikt door de subgraafselectiedrempel te variëren.
Een hogere drempel selecteert minder foutfuncties, maar verkrijgt een kleinere [FLR], terwijl de lagere drempel agressiever programma 's selecteert en uitvoert.
We vergelijken de twee benaderingen die we [voorstellen] en een baseline die niets anders doet dan het offline [parser] [voor] [online] gebruik direct toepassen.
De regio linksboven heeft de beste [FLR] en kostenafweging.
We zien dat beide [methoden] de basislijn met een [grote] marge verslaan, en ze presteren meer op dezelfde manier op [TreeDST].
Hoewel de uitvoering van individuele functies sneller is, zijn er meestal meer uitvoeringen en een lagere latentiereductieruimte.
Wanneer afzonderlijke functies langzamer worden uitgevoerd, is er meer ruimte [voor] [FLR] verbetering.
Onze twee benaderingen zorgen voor betere prestaties in verschillende kostenregio 's.
Over het algemeen bereiken we een relatieve latentievermindering van dertig tot drieënzestig procent, afhankelijk van de uitvoeringstijd en de toegestane kosten.
Ten slotte hebben we een uitsplitsing van de gemiddelde latentiereductie in [tokens] [voor] elk type functieknooppunt wanneer de toegestane kosten drie uitvoeringen zijn.
Zoals we kunnen zien, zijn er over de hele linie pluspunten.
Er zijn ook enkele functies waarbij de rode balk veel langer is, zoals find manager en recipient, en waarbij we een indrukwekkende vertraging krijgen.
Dit zijn functies op laag niveau die niet veel [afhankelijkheid] van anderen hebben.
Concluderend stelden we [online] [semantische parsing] voor als nieuwe [taak] om te verkennen met de rigoureuze latentiereductiemetriek.
Met een sterk [grafiek] gebaseerd [semantisch] [parser], bereiken we relatief goede latency reductie hetzij door onze pijplijn [benadering] met LM voltooiing en een volledige [parser] of rechtstreeks via een aangeleerde [parser] op de voorvoegsels.
[Bovendien] kan onze [benadering] een algemeen kader vormen en worden toegepast op andere uitvoerbare [semantische] [representaties] in verschillende [domeinen].
Toekomstige werken zouden slimmer [voorspelling] en uitvoeringsintegratie [methode] kunnen onderzoeken.
Bedankt [voor] het luisteren.
Hallo.
Ik ga het hebben over ons werk op het gebied van het [genereren] van [retrieval] counterfactuals [vergroot] [voor] [het beantwoorden van vragen] [taken].
Dit is werk gedaan tijdens mijn stage bij Google [Research], waar ik werd begeleid door Matthew Lamm en Ian Tenney.
Om de [taak] te motiveren, laat ik beginnen met het definiëren van een [contrafeitelijke].
In dit werk definiëren we [contrafeitelijk] als een verstoring van de [input] [tekst] die op een betekenisvolle gecontroleerde manier verschilt van de originele [tekst].
En stelt ons in staat om te redeneren over de veranderingen in de uitkomst of het [taak] label.
[Bijvoorbeeld], het veranderen van de [woorden] fascinerend tot boeiend of naar verwachting geestdodend verandert het [sentiment] [voor] deze filmrecensie.
Op dezelfde manier verandert het toevoegen van de qualifier-vrouwen aan de [vraag] het [antwoord] op de [vraag] in het onderstaande voorbeeld.
Mensen zijn doorgaans robuust tegen dergelijke verstoringen [vergeleken] met [NLP] [modellen] getraind op de [taak].
Waarom is dat?
De [dataset] kan worden bemonsterd met systematische [bias] die leiden tot een eenvoudige beslissingsgrens die wordt geschonden door de [contrafeitelijke].
Zoals weergegeven in deze 2D [classificatie] [probleem].
Mijn werk heeft uitgewezen dat het toevoegen van [contrafeitelijke] voorbeelden aan de [trainingsgegevens] het [model] robuust kan maken tegen dergelijke verstoringen.
Dus, als counterfactuals waardevol zijn, hoe kunnen we ze genereren?
Deze [taak] is vooral moeilijk [voor] [NLP] omdat hier drie voorbeelden zijn van drie verschillende [NLP] [taken].
Zoals u kunt zien, moeten voorbeelden die de beslissingsgrens tussen uitkomsten schenden, zeer zorgvuldig worden gemaakt door enkele kenmerken van de [tekst] die hier worden onderstreept, te verstoren.
Dit kan worden gedaan door [menselijk] [annotatie], maar dit is duur en bevooroordeeld.
Sommige eerdere werkzaamheden hebben zich gericht op het gebruik van [syntaxis] bomen of [semantische roletikettering].
Maar de reeks verstoringen [gegenereerd] door deze technieken worden beperkt door het [semantische] kader.
Recenter werk heeft gemaskerde [taalmodellen] gebruikt om gemaskerde delen van de [tekst] in te vullen om labels te wijzigen.
Maar het vinden van welke delen van de [tekst] te verstoren kan een uitdaging zijn.
Er zijn meer uitdagingen voor [genereren] van contrafeiten [voor] specifiek voor [vraag beantwoorden].
Deze [taak] vereist achtergrond [kennis].
[Bijvoorbeeld] om het origineel te verstoren [vraag] is Indiana Jones Temple of Doom een prequel?
We moeten ons bewust zijn van de andere films in de franchise om tot een [vraag] te komen, zoals is Indiana Jones Raiders of the Lost Ark een prequel?
[Verder] kunnen willekeurige verstoringen leiden tot [vragen] die niet met het beschikbare bewijsmateriaal te beantwoorden zijn of valse premissen hebben.
[Bovendien] kunnen sommige [vraag] verstoringen leiden tot een significante [semantische] afwijking van de oorspronkelijke [input].
[Bijvoorbeeld] deze [vraag] is Indiana Jones die kinderslavernij beoefent in Temple of Doom?
We [stellen voor] een zeer eenvoudige maar effectieve techniek genaamd retrieve genereren filter of [RGF], om [contrafeitelijke] verstoringen van [vragen] aan te pakken, en heeft ook tot doel alle andere bovengenoemde uitdagingen aan te pakken.
De kernintuïtie achter [RGF] is dat de nodige achtergrond [informatie] die nodig is om verstoringen te genereren, aanwezig kan zijn in de bijna-ongevallen die worden veroorzaakt door een [vraag beantwoorden] [model].
[Bijvoorbeeld] het state-of-the-art [model] [REALM] produceert de volgende top k antwoorden op de [vraag] wie is de kapitein van de Richmond Football Club?
Hoewel het de oorspronkelijke referentiepassage en [antwoord] Trent Cotchin terugvindt als de beste keuze.
Het haalt ook extra passages en antwoorden op die kunnen worden gebruikt om [vraag] verstoring te begeleiden.
[Bijvoorbeeld] het herstelt nog twee antwoorden [overeenkomend] op de aanvoerders van de reserveploeg en de vrouwenteam van dezelfde club, en dit kan leiden tot interessante bewerkingen.
Samenvattend haalt [RGF] eerst top k meest relevante antwoorden en [contexten] op die niet overeenkomen met de referentie [antwoord] in [context].
Na deze stap, de [vraag generatie] [model] voorwaarden op deze alternatieve antwoorden op een [vraag] die overeenkomt met hen te genereren.
En ten slotte kunnen we de [gegenereerde] [vragen] filteren op basis van minimaliteit of op basis van het type [semantische] verstoring dat we willen introduceren.
Als we elke stap in meer detail bekijken [voor] [retrieval], gebruiken we een retrieve en lezen dan [model] zoals [REALM] dat als [input] de originele [vraag] neemt, en een [groot] [corpus] zoals [Wikipedia].
Het bestaat uit twee modules.
De retriever-module [zoekt] [gelijkenis] over een dichte index van passages om de k meest relevante passages voor de [vraag] op te halen.
En een reader module haalt dan een spanwijdte uit elke passage als een potentieel [antwoord].
[REALM] haalt de gouden doorgang op en [antwoord] in de meeste gevallen.
In dit werk zijn we echter meer geïnteresseerd in de antwoorden en [context] die het verderop ophaalt.
In de volgende stap, [vraaggeneratie], gebruiken we deze alternatieve antwoorden en [contexten] om nieuwe [vragen] te regenereren die overeenkomen met deze alternatieven.
[Vraaggeneratie] [model] is een vooraf opgeleide [tekst]-to-[tekst] [transformer] die is afgestemd op de NQ [gegevens] om een [vraag] [voor] een [antwoord] te genereren dat is gemarkeerd in [context].
Tijdens [interferentie] leveren we het [vraaggeneratie] [model], het alternatief [antwoord] en [context] dat we [opgehaald] hebben in de [eerdere] stap.
[Bijvoorbeeld] [voor] de [vraag] wie is de aanvoerder van de Richmond Football Club? [REALM] haalt passages op over het vrouwenteam van de club, aangevoerd door Jess Kennedy, en het [question generation] [model] genereert de [query] die het allereerste vrouwenteam van Richmond Football Club aanvoerde?
Die een specifieke (semantische) verstoring heeft.
Op een [vergelijkbare] manier krijgen we ook [vragen] zoals wie het [VFL] Reserve-team van Richmond heeft aangestuurd?
Of wie ontkende Graham vorig jaar in de grote finale?
Ten slotte filteren we een subset van de [gegenereerde] [vragen] op basis van enkele gewenste kenmerken.
Zoals [gemotiveerd] eerder, willen we ervoor zorgen dat de nieuwe [vraag] nog steeds [semantisch] dicht bij het origineel ligt.
[Voor] filtertechnieken die geen extra toezicht vereisen, behouden we eenvoudig nieuwe [vragen] met een kleine [token] label [bewerking] afstand van de oorspronkelijke [vraag].
[Bijvoorbeeld] we verwijderen de [vraag] die Graham vorig jaar ontkende in de grote finale?
Omdat het een langere [bewerking] afstand heeft van de oorspronkelijke [vraag].
In onze experimenten laten we zien dat deze eenvoudige [heuristisch] kan worden gebruikt om [trainingsgegevens] te vergroten en in de wachtrij te plaatsen.
We experimenteren ook met een filterstrategie die gebaseerd is op het type [semantische] verstoring.
Hiervoor gebruiken we een decompositiekader voor algemene doeleinden [query] genaamd [QED].
[QED] identificeert twee delen van de [vraag], een [predicaat] en een verwijzing.
Verwijzingen zijn [zelfstandig naamwoord] -zinnen in de [vraag] die overeenkomen met [entiteiten] in de [context].
Een [predicaat] is in wezen het resterende deel van de [vraag].
[Bijvoorbeeld], we zijn in staat om de [query] die Richmond 's allereerste vrouwenteam aanvoerder ontbinden in twee referenties: Richmond Football Club vrouwenteam en het [predicaat] die X aanvoerder.
Een [model] getraind op referentie [predicaat] [annotaties] [voor] NQ geeft ons deze [vraag] ontbinding.
Het ontleden van zowel het origineel als [gegenereerde] [vraag] op basis van [QED] stelt ons in staat om onze [gegenereerde] counterfactuals [voor] [evaluatie] te categoriseren.
Concreet krijgen we twee groepen [vragen].
Degenen die een referentieverandering ondergaan met behoud van [predicaten], en degenen die een [predicaat] verandering ondergaan en optioneel referenties toevoegen.
[Bijvoorbeeld], wie aanvoerder van Richmond 's [VFL] reserve team is een referentie verandering?
Terwijl, wie draagt [nummer] negen [voor] de club is een [predicaat] verandering.
We evalueren nu de effectiviteit van [RGF] verstoringen bij [aangevuld] tot [training data].
Om de doeltreffendheid van de [contrafeitelijke] [versterking] in het bijzonder effectief te evalueren, experimenteren wij dus met twee sterke [data versterking] [baselines].
De eerste baseline, random [antwoord] en [vraaggeneratie] genoemd, voegt [gegevens] toe die geen [relatie] hebben met de oorspronkelijke [vraag].
Dat wil zeggen, passages en antwoorden worden gewoon willekeurig gesampled uit [Wikipedia].
Deze basislijn voegt in principe meer [gegevens] toe die op NQ lijken.
Met de tweede baseline gold [antwoord] en [vraagstelling] werken we specifiek het [retrieval] gedeelte van onze [methode] bij.
Hier worden alternatieve antwoorden gewoon gekozen uit dezelfde passage die het gouden [antwoord] bevatte.
Hoe baseren de [baselines] en [RGF] ah [aanvulling] zich op [leesbegrip] waar het [model] toegang heeft tot [vraag] en [context]?
We experimenteren met zes van de [domein] [datasets] en presenteren hier resultaten, waarbij [data] de [trainingsdata] verdubbelt in [aanvulling].
We constateren dat zowel [data augmentation] [baselines] niet in staat zijn om ons [domein] [generalisatie] te verbeteren.
In feite lijkt een ensemble van zes [modellen] getraind op de originele [gegevens] de meest concurrerende basislijn te zijn.
In vergelijking met die basislijn vinden we dat [RGF] counterfactuals in staat zijn om de prestaties van [domein] te verbeteren met behoud van de prestaties van [domein].
Dit suggereert dat het invullen van de [redenering] hiaten van het [model] via [contrafeitelijke] [vergroting] effectiever is dan het toevoegen van meer [data] uit de [training] distributie.
[Verder] vinden we dat het gebruik van [retrieval] om alternatieve uitkomsten of antwoorden te bemonsteren belangrijk is [voor] effectief [CDA].
We experimenteren ook met een open [domein] [QA] -instelling waarbij het [model] alleen de [vraag] ziet en we evalueren opnieuw op vier van de [domein] [datasets].
We vinden dat baseline [modellen] niet zo effectief zijn [voor] buiten [domein] [generalisatie].
Echter, [data augmentation] met [RGF] toont meer significante verbeteringen.
We verbeteren zelfs in het [domein] NQ [dataset].
We veronderstelden dat de [contrafeitelijke] [data augmentation] het [model] helpt bij [leren] betere [query] coderingen [voor] zeer [vergelijkbare] [queries].
Ten slotte evalueren we ook het vermogen van het [model] om de consistentie in de lokale buurt van het origineel [vraag] te verbeteren.
Consistentie meet het aandeel van [vragen] dat correct wordt beantwoord door het [model], waarbij zowel het origineel als de [contrafeitelijke] [vraag] correct worden beantwoord.
Dit helpt ons expliciet om de [robuustheid]van het [model] te meten aan kleine verstoringen in de buurt van het origineel [input].
We experimenteren met vijf [datasets] die paren [vragen] bevatten die [semantisch] dicht bij elkaar liggen.
Afgezien van de drie [datasets] [AQA], [AmbigQA] en [QUOREF] -Contrast-set die al beschikbaar zijn, evalueren we ook op [RGF] counterfactuals die zijn gekoppeld aan originele NQ [vragen] op basis van de vraag of ze een [predicaat] -wijziging of referentiewijziging hebben ondergaan.
Deze subsets werden intern [geannoteerd] om ruis te elimineren en worden als hulpbron geleverd.
Alle [baselines] zijn niet in staat de consistentie significant te verbeteren, waarbij het ensemble [model] de consistentie met een kleine marge verbetert.
Echter, [RGF] [contrafeitelijke] [vergroting] heeft indrukwekkende winst in consistentie zowel op eerdere [datasets] en de twee subsets die we samengesteld [voor] referentie en [predicaat] verstoringen.
Merk op dat de [aangevuld] [RGF] [data] niet wordt beïnvloed door het type verstoring, alleen de [evaluatie] sets zijn.
In feite toont een [kwalitatieve] inspectie van de soorten counterfactuals [gegenereerd] aan dat de [gegenereerde] [vragen] verschillende verschillende verstoringen bevatten.
[Bijvoorbeeld] deze originele [vraag] over de bevolking van Walnut Grove, Minnesota is verstoord langs verschillende dimensies zoals stad, staat, land en langs verschillende [predicaten] zoals locatie, armoede, [aantal] scholen.
Audio van verstoringen zijn [context] specifiek.
[Bijvoorbeeld] [voor] deze andere [vraag] over het Wimbledon ah singles-toernooi, de verstoring is langs het type spel, het type toernooi of het spelresultaat.
Final takeaways; we pakken de [taak] van [contrafeitelijke] [data vergroting] en verstoringen [voor] [informatie] op zoek naar [vragen] en pakken de unieke uitdagingen aan via een omkering van de [generatie] [benadering], over genereren met behulp van near misses van het [model] en filteren op basis van verstoringstype of minimaliteit.
We vinden dat deze techniek geen extra toezicht vereist en de voorbeelden zijn [gelabeld] [voor] [aanvulling].
[Aanvulling] verbetert uit [domein] [generalisatie] en buurtconsistentie.
En we vinden dat [RGF] counterfactuals [semantisch] divers zijn zonder bias te introduceren tijdens [aanvulling].
Bedankt.