Hallo allemaal. Vandaag presenteer ik ons onderzoek Leren Deductief Redeneren: Wiskundig woordprobleem oplossen als complexe Relatie-extractie.
Ik ben Allan van ByteDance AI Lab, en dit is een gezamenlijk werk met Jierui Li van de Universiteit van Texas in Austin en Wei Lu van SUTD.
Eerst wil ik het hebben over onze motivatie voor redenering.
Dus hier laten we een voorbeeld zien waar multi-step redenering nuttig is.
Deze figuur komt dus uit de PaLM paper waar ze prompting uitvoeren om het netwerk probleem op te lossen in het few shot leren scenario.
Dus aan de linkerkant kunnen we zien of we enkele voorbeelden geven met alleen vraag en antwoorden, we kunnen misschien niet de juiste antwoorden krijgen.
Maar als we wat meer redenering beschrijving geven, is het model in staat om de redenering beschrijving te voorspellen en hier ook een correcte voorspelling te doen.
Het is dus goed om interpretabele meerstaps redenering als output te hebben.
En we denken ook dat wiskundig woordprobleem een eenvoudige toepassing is om dergelijke redeneer vaardigheden te evalueren.
Dus, hier in onze probleem -opstelling, gezien de vragen moeten we deze vraag oplossen en de numerieke antwoorden krijgen.
Dus in onze datasets krijgen we ook de wiskundige uitdrukking die ook naar de ah naar dit specifieke antwoord leidt.
Dus, bepaalde veronderstellingen ah zijn ook van toepassing zoals in eerder werk.
We gaan ervan uit dat de nauwkeurigheid van hoeveelheden bekend is.
En we beschouwen alleen basisoperatoren zoals optellen, aftrekken, vermenigvuldigen, delen en exponentieel.
Verder kunnen gecompliceerde operatoren eigenlijk worden ontbonden in deze basisexploitanten.
Dus, eerder werk in wiskundig woordprobleem het oplossen van ah kan eigenlijk ah worden gecategoriseerd in sequentie tot sequentie en sequentie tot boomstructuur model.
Traditioneel sequentie tot sequentie model converteert de expressie dus naar een specifieke sequentie voor generatie.
En het is vrij eenvoudig te implementeren en het kan generaliseren naar veel verschillende gecompliceerde probleem.
Maar de nadelen zijn dat de prestaties eigenlijk over het algemeen niet beter zijn dan het gestructureerde model en het gebrek aan interpreteerbaarheid voor voorspelling.
Maar eigenlijk is deze richting nog steeds vrij populair vanwege eh de transformer model.
Dus, in boomgebaseerde modellen, structuur wij deze uitdrukkingen feitelijk in de boomvorm en volgen wij een voorgeordende doorloop in boomgeneraties.
Dus hier blijven we de operatoren genereren tot we bij de bladeren komen, die de hoeveelheden zijn.
Dus hier is het goede ding dat het ons eigenlijk deze binaire boom structuur geeft, en het is um maar eigenlijk is het heel contra-intuïtief omdat we eerst de operator genereren en dan aan het einde genereren we de hoeveelheden.
En het tweede ding is dat het ook enkele repetitieve berekeningen bevat.
Dus als we hier naar deze uitdrukking kijken, wordt acht keer drie plus drie eigenlijk twee gegenereerde, maar in feite moeten we de resultaten hergebruiken.
In onze voorgestelde benadering willen wij die problemen stap voor stap en interpretabel oplossen.
Dus bijvoorbeeld hier in de tweede stap, kunnen we deze delers verkrijgen die zevenentwintig zijn.
En we kunnen ook terugverwijzen naar de originele vragen om de relevante inhoud te vinden.
En in deze stappen krijgen we de delers.
Dus, en dan bij deze derde stap krijgen we eigenlijk het quotiënt.
Goed. En na deze drie stappen kunnen we in feite de resultaten van de tweede stap hergebruiken, en dan de resultaten van de vierde stap krijgen, en tenslotte kunnen we de dividenden verkrijgen.
Hier genereren we dus eigenlijk de hele uitdrukking direct in plaats van een enkele gegenereerde operator of hoeveelheid.
Dit maakt het proces nauwkeuriger.
Dus, in ons deductieve systeem, beginnen we eerst met een aantal hoeveelheden gepresenteerd in de vragen en ook met een aantal constante als onze initiële staat ah initiële staat.
Dus, de uitdrukking wordt vertegenwoordigd door e i j o p.
Waar we operator uitvoeren van q_i tot q_j, en een dergelijke expressie is eigenlijk gericht.
Dus we hebben hier ook aftrekken met woorden om de tegenovergestelde richting weer te geven.
Dit is vrij vergelijkbaar aan relatie-extractie.
Dus in een formeel deductief systeem, in een tijdstap t, passen we de operator toe tussen het q_i en q_j paar, en dan verkrijgen we deze nieuwe expressie.
We voegen het toe aan de volgende staat om een nieuwe hoeveelheid te worden.
Deze dia 's visualiseren dus eigenlijk de evolutie van de toestand waarin we expressie blijven toevoegen aan de huidige toestand.
Dus in onze model implementaties gebruiken we eerst een voorgetrainde taal model dat BERTs of Robertas kan zijn en dan coderen we de zin en dan verkrijgen we deze hoeveelheid representaties.
Dus als we eenmaal de hoeveelheid representaties hebben, kunnen we beginnen met interferentie.
Hier tonen we een voorbeeld van q_1 om de representatie voor q_2 te verkrijgen gedeeld door q_2 en dan keer q_3.
Eerst krijgen we het ah-paar representatie, wat in feite gewoon de concatenation is tussen q_1 en q_2, en dan passen we een feedforward-netwerk toe dat door de operator wordt geparametriseerd.
En tenslotte krijgen we de uitdrukking representatie q_1 gedeeld door q_2.
interferentieMaar in feite, in de praktijk, in de interferentie fase, kunnen we in staat zijn om de verkeerde uitdrukking ook te krijgen.
Dus hier is alle mogelijke expressie gelijk aan drie keer het aantal van operatoren.
Dus het mooie hier is dat wij gemakkelijk beperkingen kunnen toevoegen om deze zoek-, zoek- ruimte te controleren.
Bijvoorbeeld, als deze expressie niet is toegestaan, kunnen we deze expressie eenvoudigweg verwijderen in onze zoek-ruimte.
Dus in de tweede stap doen we hetzelfde, maar het enige verschil is dat we ah het enige verschil is nog een hoeveelheid.
Dus deze hoeveelheid komt van de eerder berekende uitdrukking.
Dus uiteindelijk kunnen we deze laatste uitdrukking q_3 keer q_4 verkrijgen.
En we kunnen ook zien dat het aantal van alle mogelijke expressies verschilt van de eerdere stap.
Dus, ah zo 'n verschil maakt het moeilijk om beam search toe te passen omdat de kansverdeling tussen deze twee stappen onevenwichtig is.
Dus de training procedure is vergelijkbaar met training een sequentie tot sequentie model waarbij we het verlies optimaliseren bij elke stap.
En hier gebruiken we deze tau ook om aan te geven wanneer we dit generatie proces moeten beëindigen.
En hier is de ruimte verschillend van sequentie tot sequentie omdat de ruimte bij elke tijdstap anders is, terwijl in traditionele sequentie tot sequentie model dit het nummer van woordenschat is.
En het stelt ons ook in staat om bepaalde beperkingen op te leggen van eerdere kennis.
Dus we voeren experimenten uit op de veelgebruikte wiskundig woordprobleem datasets, MAWPS, Math23K,  MathQA en SVAMP.
En hier tonen we kort de resultaten vergeleken met de eerdere beste benaderingen.
Dus onze best presterende variant is Roberta-DeductiveReasoner.
En in feite gebruiken we geen beam search, in tegenstelling tot alle eerdere benaderingen gebruiken beam search.
Goed. Dus de beste benaderingen zijn vaak op bomen gebaseerd model.
Dus over het algemeen is onze redeneerder in staat om significant beter te presteren dan deze op bomen gebaseerde model.
Maar we kunnen zien dat de absolute aantallen op MathQA of SVAMP niet echt hoog zijn.
Dus we onderzoeken de resultaten verder op SVAMP.
En deze dataset is een uitdaging omdat de auteur probeerde handmatig ah iets toe te voegen om het NLP model te verwarren, zoals het toevoegen van irrelevante informatie en extra hoeveelheden.
Dus, in onze voorspelling vinden we dat sommige van de tussenliggende waarden eigenlijk negatief zijn.
Bijvoorbeeld in deze vragen vragen we hoeveel appels Jake heeft?
Maar we hebben wat extra informatie zoals zeventien minder foto 's, en Steven heeft acht foto' s, wat totaal irrelevant is.
Dus, ons model maakt een voorspelling als deze die negatieve waarden produceert.
En we observeren dat deze twee uitdrukkingen eigenlijk vergelijkbare scores hebben.
Dus we kunnen deze zoek-ruimte eigenlijk beperken door die resultaten te verwijderen die negatief zijn, zodat we de ah het antwoord correct kunnen maken.
Dus eh we vinden verder dat zo 'n beperking eigenlijk behoorlijk veel verbetert voor sommige modellen.
Bijvoorbeeld voor BERT, we verbeteren zeven punten en vervolgens voor het Roberta-basis model verbeterden we eigenlijk twee punten.
Dus beter taalmodel heeft betere taalbegrip vaardigheden, zodat het nummer hier hoger is voor Roberta en lager voor BERT.
En we proberen ook de moeilijkheid achter al deze datasets te analyseren.
We gaan ervan uit dat het aantal ongebruikte hoeveelheden hier als irrelevant informatie kan worden beschouwd.
Dus ah hier kunnen we zien dat we hebben het percentage monsters met ongebruikte hoeveelheden, en de SVAMP dataset heeft het grootste deel.
En hier laten we ook de algehele prestaties zien.
Voor die monsters zonder ongebruikte hoeveelheden, dus de totale prestaties zijn eigenlijk hoger dan de, de prestaties zijn eigenlijk hoger dan de totale prestaties.
Maar met die monsters die met ongebruikte hoeveelheid eigenlijk veel slechter zijn dan de, slechter dan de algehele prestaties.
Voor MAWPS hebben we niet echt ah te veel testgevallen, dus ik negeer dit deel gewoon.
Dus, tot slot willen we de interpreteerbaarheid laten zien door middel van een vraag verstoringsvoorbeeld.
Dus hier maakt ons model eigenlijk een verkeerde voorspelling bij de eerste stap.
Dus we kunnen deze uitdrukking eigenlijk correleren met de zin hier. Goed.
Dus we denken dat deze zin het model zou kunnen misleiden tot een onjuiste voorspelling.
Dus hier planten nog eens vijfendertig maakt het model maakt het model denken dat het een toevoeging operator moet zijn.
Dus proberen we de zin te herzien tot iets als het aantal perenbomen is vijfendertig minder dan de appelbomen.
Dus maken we het om nauwkeuriger semantiek over te brengen, zodat het model in staat is om um de voorspelling correct te maken.
interpretabelDus, deze studie laat zien hoe de interpretabele voorspellingen ons helpen het model gedrag te begrijpen.
Dus om ons werk af te ronden, dus eerst is ons model eigenlijk behoorlijk efficiënt.
En we zijn in staat om een interpretabel oplossingsprocedure te bieden.
En we kunnen gemakkelijk wat eerdere kennis opnemen als beperking die kan helpen de prestaties te verbeteren.
En het laatste ding is dat het onderliggende mechanisme niet alleen van toepassing is op netwerk probleem oplossen taken, maar ook op andere taken die meerdere stappen omvatten redeneren.
We hebben ook bepaalde beperkingen.
Ah, als we een groot aantal operatoren of constanten hebben, kan het geheugenverbruik behoorlijk hoog zijn.
En het tweede ding is dat, zoals gezegd, omdat de kansverdeling onevenwichtig is tussen verschillende tijdsstappen, dus het is ook behoorlijk uitdagend om beam search strategie toe te passen.
Dus dit is het einde van het gesprek, en vragen zijn welkom. Bedankt.
Hallo, mijn naam is Antoine en ik ben van de Universiteit Maastricht.
Ik zal een presentatie geven over mijn gemeenschappelijk werk met Jerry dat gaat over een nieuwe dataset voor het retrieval van wetsartikelen.
Juridische kwesties zijn een integraal onderdeel van het leven van veel mensen.
Maar de meeste burgers hebben weinig kennis over hun rechten en fundamentele juridische processen.
Als gevolg hiervan worden veel kwetsbare burgers die zich de dure hulp van een jurist niet kunnen veroorloven, onbeschermd of, erger nog, uitgebuit.
Alle werkzaamheden zijn gericht op het overbruggen van de kloof tussen mensen en de wet door het ontwikkelen van een effectief retrieval systeem voor statutaire artikelen.
Zo 'n systeem zou een gratis professionele juridische hulpdienst voor ongeschoolde mensen kunnen bieden.
Voordat we ingaan op de belangrijkste bijdrage van dit werk, laten we eerst het probleem van wettelijk artikel retrieval beschrijven.
Gegeven een eenvoudige vraag over een juridische kwestie zoals, wat riskeer ik als ik het beroepsgeheim schend?
Een model is vereist om alle relevante statutaire artikelen uit een groot geheel van wetgeving op te halen.
Deze information retrieval taak komt met zijn eigen reeks uitdagingen.
Ten eerste gaat het om twee soorten taal.
Gemeenschappelijke natuurlijke taal voor de vragen en complexe juridische taal voor de statuten.
Dit verschil in taal verdelingen maakt het moeilijker voor een systeem om relevante kandidaten op te halen, omdat het indirect een inherente interpretatie systeem vereist dat een natuurlijke vraag kan vertalen naar een juridische vraag die overeenkomt met de terminologie van statuten.
Trouwens, het wettelijk recht is geen stapel onafhankelijke artikelen die kunnen worden behandeld als een volledige bron van informatie op zichzelf, in tegenstelling tot nieuws of recepten, bijvoorbeeld.
In plaats daarvan is het een gestructureerde verzameling wettelijke bepalingen die alleen een hele betekenis hebben als ze in de algemene context worden beschouwd, dat wil zeggen, samen met de aanvullende informatie van de naburige artikelen, de velden en subvelden waartoe ze behoren, en hun plaats in de structuur van de wet.
Ten slotte zijn wettelijke artikelen geen kleine paragrafen, wat meestal de typische retrieval -eenheid is in de meeste retrieval -werken.
Hier zijn lange documenten die kunnen oplopen tot zesduizend woorden.
De recente voorschotten in NLP hebben grote belangstelling gewekt voor veel juridische taken, zoals juridisch oordeel voorspelling of geautomatiseerde contractbeoordeling.
Maar statutair artikel retrieval is grotendeels onaangetast gebleven door het ontbreken van groot en hoge kwaliteit gelabelde datasets.
In dit werk presenteren we een nieuwe Franse native citizen-centric dataset om te bestuderen of retrieval modellen de efficiëntie en betrouwbaarheid van een juridisch expert voor de taak van wettelijk artikel retrieval kunnen benaderen.
Ons Belgisch wettelijk artikel retrieval dataset BSARD bestaat uit meer dan duizend honderd juridische vragen van Belgische burgers.
Deze vragen behandelen een breed scala aan onderwerpen, van familie, huisvesting, geld, tot werk en sociale zekerheid.
Elk van hen is gelabeld door ervaren juristen met verwijzingen naar relevante artikelen uit een corpus van meer dan tweeëntwintigduizend zeshonderd juridische artikelen uit Belgische wetboeken.
Laten we het nu hebben over hoe we deze dataset hebben verzameld.
Eerst begonnen we met het samenstellen van een groot corpus van juridische artikelen.
We hebben tweeëndertig openbaar beschikbare Belgische codes overwogen en geëxtraheerd alle artikelen evenals de overeenkomende sectiekoppen.
Vervolgens verzamelden we juridische vragen met verwijzingen naar relevante statuten.
Daartoe werken wij samen met het Belgische advocatenkantoor dat elk jaar ongeveer vierduizend e-mails ontvangt van Belgische burgers die advies vragen voor een persoonlijke juridische kwestie.
We hadden het geluk om toegang te krijgen tot hun websites, waar hun team van ervaren juristen de meest voorkomende juridische problemen van Belgen aanpakt.
We hebben duizenden vragen geannoteerd verzameld met categorieën, subcategorieën en juridische verwijzingen naar relevante statuten.
Ten slotte hebben we de wettelijke referenties doorgegeven en de vragen eruit gefilterd waarvan de referenties geen artikelen waren in een van de wetboeken die we hebben overwogen.
De overige referenties werden gematcht en geconverteerd naar de overeenkomende artikel-id 's uit ons corpus.
Uiteindelijk kwamen we uit op duizend achtenzestig vragen, elk zorgvuldig gelabeld met de id 's van de relevante artikelen uit ons grote corpus van tweeëntwintigduizend zeshonderd drieëndertig statutaire artikelen.
Daarnaast komt elke vraag met de hoofdcategorie en een concatenation van subcategorieën.
En elk artikel komt met een concatenation van de volgende rubriek in de structuur van de wet.
Deze extra informatie wordt niet gebruikt in het huidige werk, maar kan van belang zijn voor toekomstig onderzoek naar juridisch informatie ophalen of juridisch tekstclassificatie.
Laten we eens kijken naar een kenmerk van onze dataset.
De vragen zijn tussen de vijf en vierenveertig woorden lang met een mediaan van veertien woorden.
De artikelen zijn veel langer met een mediaan lengte van zevenenzeventig woorden, met honderd tweeënveertig van hen meer dan duizend woorden.
De langste is tot vijfduizend zevenhonderd negentig woorden.
Zoals eerder vermeld, bestrijken de vragen een breed scala aan onderwerpen, waarvan ongeveer vijfentachtig procent over familie, huisvesting, geld of rechtvaardigheid gaat.
De overige vijftien procent betreft ofwel sociale zekerheid, buitenlanders of werk.
Het artikel is ook zeer divers omdat ze afkomstig zijn uit tweeëndertig verschillende Belgische codes die een groot aantal juridische onderwerpen bestrijken.
Hier is het totaal aantal artikelen verzameld uit elk van deze Belgische codes.
Van de tweeëntwintigduizend zeshonderddrieëndertig artikelen wordt slechts éénduizend zeshonderd twaalf als relevant aangeduid ten minste één vraag in de dataset.
En ongeveer tachtig procent van deze geciteerde artikelen zijn afkomstig uit het burgerlijk wetboek, gerechtelijk wetboek, strafwetboek of strafwetboek.
Ondertussen hebben achttien van de tweeëndertig codes minder dan vijf artikelen die als relevant worden vermeld voor ten minste één vraag.
Dat kan worden verklaard door het feit dat die codes minder gericht waren op individuen en hun zorgen.
Over het algemeen is het mediaan aantal van citaten voor deze geciteerde artikelen is twee, en minder dan vijfentwintig procent van hen worden meer dan vijf keer geciteerd.
Met behulp van alle datasets hebben we verschillende retrieval -benaderingen gebenchmarkt, waaronder lexicale en dichte architectuur.
Gegeven een query en een artikel kent een lexicaal model een score toe aan het query artikelpaar door de som te berekenen over de query termen van de waardes van elk van deze termen in dat artikel.
We experimenteren met de standaard TF-IDF en BM25 ranking functies.
Het belangrijkste probleem met deze benaderingen is dat ze alleen artikelen kunnen ophalen die trefwoorden bevatten die aanwezig zijn in de vraag.
Om deze beperking te overwinnen, experimenteren we met een neurale architectuur die semantische relaties tussen vragen en artikel kan vastleggen.
We gebruiken een bi-encoder model dat queries en artikelen in kaart brengt in dichte vector representaties en berekenen een relevantie score tussen een query artikelpaar door de gelijkenis van hun inbeddingen.
Deze inbeddingen zijn meestal het resultaat van een pooling-operatie op de output van een word embedding model.
Eerst bestuderen we de doeltreffendheid van Siamese bi-encoders in een zero shot evaluatie opstelling. De betekenis hiervan is dat er vooraf getraind woord inbeddingen modellen out-of-the-box worden toegepast zonder extra te finetunen.
We experimenteren met context onafhankelijke tekst encoder, namelijk word2vec en fastText, en context afhankelijke inbedding modellen, namelijk Roberta en meer specifiek CamemBERT wat een Frans Roberta model is.
Bovendien trainen we onze eigen CamemBERT op basis van model ah bi-encoders op onze dataset.
Merk op dat voor training, we experimenteren met de twee smaken van de bi-encoder architectuur.
Siamees, dat een uniek woord inbedding model gebruikt dat de vraag en het artikel samen in kaart brengt in gedeeld dichte vectorruimte, en twee-toren, dat twee onafhankelijke woord inbedding modellen gebruikt die de vraag en het artikel afzonderlijk coderen in verschillende inbedding ruimten.
We experimenteren met gemiddelde, max en CLS pooling evenals product en cosinus voor computing overeenkomsten.
Hier zijn de resultaten van onze baseline op de testsets.
Met de lexicaal-methoden hierboven, de Siamese bi-encoders geëvalueerd in een zero shot setup in het midden, en de verfijnde bi-encoders hieronder.
Over het algemeen presteert de afgestemde bi-encoder aanzienlijk beter dan alle andere baselines.
De twee-toren model verbetert ten opzichte van zijn Siamees varianten op recall op honderd, maar presteert op dezelfde manier op de andere statistieken.
Hoewel BM25 aanzienlijk slechter presteerde dan de getrainde bi-encoder, gaven de prestaties aan dat het nog steeds een sterke basislijn voor domein specifieke retrieval is.
Met betrekking tot de nul schot evaluatie van Siamese bi-encoder, vinden we dat direct met behulp van de inbeddingen van een vooraf getraind CamemBERT model zonder te optimaliseren voor de informatie ophalen taak geeft slechte resultaten, die in overeenstemming is met eerdere bevindingen.
Verder merken we op dat de word2vec gebaseerde bi-encoder aanzienlijk beter presteerde dan de fastText en BERT gebaseerde modellen, wat suggereert dat misschien vooraf getraind niveau van woordinbeddingen geschikter zijn voor de taak dan karakterniveau of subwoord niveau inbeddingen bij gebruik uit de doos.
Hoewel veelbelovend, suggereren deze resultaten voldoende mogelijkheden voor verbetering vergeleken met een bekwame juridische expert die uiteindelijk alle relevante artikelen kan ophalen bij elke vraag en dus perfecte scores kan behalen.
Laten we afsluiten door twee beperkingen van onze dataset te bespreken.
In de eerste plaats is het corpus van het artikel beperkt tot die verzameld uit de tweeëndertig beschouwde Belgische wetboeken, die niet de gehele Belgische wet bestrijken omdat artikelen uit decreten, richtlijnen en verordeningen ontbreken.
Tijdens de dataset constructie worden alle verwijzingen naar deze niet-verzamelde artikelen genegeerd, waardoor sommige vragen slechts een fractie van het initiële aantal van relevante artikelen bevatten.
Deze informatie impliceert dus dat het antwoord in de overige relevante artikelen onvolledig kan zijn, hoewel het nog steeds volledig passend is.
Ten tweede moeten we opmerken dat niet alle juridische vragen alleen met statuten kunnen worden beantwoord.
Bijvoorbeeld de vraag, kan ik mijn huurders uitzetten als ze te veel lawaai maken?
Heeft mogelijk geen gedetailleerd antwoord binnen het wettelijk recht dat een specifieke geluidsdrempel kwantificeert waarbij uitzetting is toegestaan.
In plaats daarvan moet de verhuurder waarschijnlijk meer vertrouwen op jurisprudentie en precedenten vinden vergelijkbaar met hun huidige situatie.
Bijvoorbeeld de huurders maakt twee partijen per week tot twee AM.
Vandaar dat sommige vraag beter geschikt zijn dan andere voor het statutaire artikel retrieval taak, en het domein van de minder geschikte moet nog worden bepaald.
We hopen dat ons werk interesse wekt in het ontwikkelen van praktische en betrouwbare wettelijke artikelen retrieval modellen.
Dat kan de toegang tot de rechter voor iedereen helpen verbeteren.
U kunt onze paper, dataset en code bekijken op de volgende links. Bedankt.
Hallo, we presenteren graag ons werk aan VALSE; een Taak -onafhankelijke benchmark bedoeld voor het testen van visie en taalmodellen met specifieke linguïstische verschijnselen.
Waarom hebben we de moeite genomen om deze benchmark op te zetten?
In de afgelopen jaren hebben we een explosie gezien van transformer gebaseerde visie en taalmodellen vooraf getraind op grote hoeveelheden afbeelding tekst paren.
Elk van deze modellen duwt state-of-the-art op visie en taal taken zoals visuele vraag beantwoorden, visueel gezond betekenis redeneren, afbeelding retrieval, zinsdeel verankering.
Dus kregen we een bericht, de nauwkeurigheid van deze taken en specifieke benchmarks nemen gestaag toe.
Maar weten we wat de modellen daadwerkelijk hebben geleerd?
Wat heeft een visie en taal transformer begrepen bij het toekennen van een hoge score voor deze afbeelding en deze zin om overeen te komen?
En de lage score (voor deze)?
Richten visie en taalmodellen zich op het juiste?
Of richten ze zich op bias zoals blijkt uit eerder werk?
Om meer licht op dit aspect te werpen, stellen we voor wij een meer taakagnostische richting voor en introduceren wij VALSE dat de gevoeligheid van visie en linguïstische test voor specifieke taalverschijnselen die zowel de taalals de visuele modaliteiten beïnvloeden.
Ons doel is het bestaan, meervoudigheid, tellen, relaties die ruimtelijk zijn, handelingen en entiteit coreferentie.
Maar hoe testen we of de visie en taalmodellen dit fenomeen hebben vastgelegd?
Door het verijdelen van een methode eerder toegepast voor visie en taalmodellen alleen voor zelfstandig naamwoord zinnen van Ravi Shekhar en medewerkers, en op tellen door ons in eerder werk.
Folie betekent in feite dat we het bijschrift van een afbeelding nemen en een folie produceren door het bijschrift zodanig te wijzigen dat het de afbeelding niet meer beschrijft.
En we doen deze zinsdeel -wijzigingen door ons te concentreren op zes specifieke stukken zoals bestaan, pluraliteit, tellen, relaties die ruimtelijk zijn, acties en entiteit coreferentie, waarbij elk stuk kan bestaan uit een of meer instrumenten, voor het geval we meer dan één interessante manier vonden om folie-exemplaren te maken.
Bijvoorbeeld in het geval van het actiestuk hebben we twee instrumenten, één waarin de actie werkwoord wordt gewijzigd met een andere actie, en één waarin acteurs worden verwisseld.
Tellen en coreferentie zijn ook stukken die meer dan één instrument hebben.
En we creëren deze folies door ervoor te zorgen dat ze het afbeelding niet beschrijven, dat ze grammaticaal zijn en anderszins geldig zinnen.
Dit is niet gemakkelijk te doen omdat een folie bijschrift minder waarschijnlijk is dan het oorspronkelijke bijschrift.
Bijvoorbeeld, hoewel het niet onmogelijk is, is het statistisch minder waarschijnlijk voor planten om een man te snijden dan een man om planten te snijden, en groot zicht en taalmodellen zouden dit kunnen oppikken.
Daarom, om geldige folies te verkrijgen, moeten we actie ondernemen.
Ten eerste maken wij gebruik van sterke taalmodellen om voorstellen te doen voor folies.
Ten tweede gebruiken we natuurlijke taalinferentie of korte NLI om folies uit te filteren die nog steeds de afbeelding zouden kunnen beschrijven, omdat we er bij het construeren van folies voor moeten zorgen dat ze de afbeelding niet beschrijven.
Om dit automatisch te testen, passen we natuurlijke taalinferentie toe met de volgende redenering.
We beschouwen een afbeelding als het uitgangspunt en het bijschrift als de bijbehorende hypothese.
Bovendien beschouwen we het bijschrift als het uitgangspunt, en de folie is de hypothese.
Als een NLI model voorspelt dat de folie in tegenspraak is met of neutraal is ten opzichte van het bijschrift, nemen we dit als een indicator van een geldige folie.
Als een NLI de folie voorspelt die het bijschrift met zich meebrengt, kan het geen goede folie zijn, omdat het door transitie een waarheidsgetrouwe beschrijving van de afbeelding zal geven, en we filteren deze folies eruit.
Maar deze procedure is niet perfect, het is slechts een indicator voor geldige folies.
Daarom, als een derde maatregel voor het genereren van geldige folies, gebruiken wij annotatoren die menselijk zijn om de data gebruikt in VALSE te valideren.
Dus, na het filteren en menselijke evaluatie, hebben we zoveel testgevallen als beschreven in deze tabel.
Merk op dat VALSE geen trainingsgegevens levert, maar alleen gegevens test.
Omdat het alleen een zero shot-testbenchmark is, is het ontworpen om gebruik te maken van een bestaand mogelijkheid van visie en taalmodellen na pre-training.
Het finetunen zou modellen alleen in staat stellen om artefacten of een statistisch bias in de data te benutten.
En we weten allemaal dat deze modellen graag vals spelen en snelkoppelingen maken.
En zoals we al zeiden, zijn we geïnteresseerd in het beoordelen van welke mogelijkheden de visie en taalmodellen hebben na pre-training.
We experimenteren met vijf visie- en taalmodellen op VALSE, namelijk met CLIP, LXMert, ViLBERT, ViLBERT twaalf in één, en VisualBERT.
Twee van onze belangrijkste evaluatie statistieken zijn de nauwkeurigheid van de modellen in classificeren afbeelding zin paren in bijschriften en folies.
Misschien relevanter voor deze video, zullen we onze meer tolerante metriek laten zien, de paarsgewijze nauwkeurigheid, die meet of de afbeelding zinuitlijning score groter is voor het juiste afbeelding tekst paar dan voor het gefoliede paar.
Voor meer statistieken en resultaten daarover, bekijk onze paper.
De resultaten met paarsgewijs nauwkeurigheid worden hier getoond en ze zijn consistent met de resultaten die we van de andere statistieken hebben gekregen, is dat de beste nul-shotprestaties worden bereikt door ViLBERT twaalf in één, gevolgd door ViLBERT, LXMert, CLIP en ten slotte VisualBERT.
Het is opmerkelijk hoe instrumenten die gericht zijn op de individuele objecten zoals het bestaan en zelfstandig naamwoord zinnen bijna worden opgelost door ViLBERT twaalf in één, waarbij wordt benadrukt dat modellen in staat zijn om benoemde objecten en hun aanwezigheid in afbeeldingen te identificeren.
Geen van de resterende stukken kan echter betrouwbaar worden opgelost in onze adversarial folie-instellingen.
We zien aan de meervoudigheid en telinstrumenten dat visie en taalmodellen moeite hebben om verwijzingen naar enkele versus meerdere objecten te onderscheiden, of ze in een afbeelding te tellen.
Het relatie stuk laat zien dat ze moeite hebben met het correct classificeren van een benoemd ruimtelijk relatie tussen objecten in een afbeelding.
Ze hebben ook moeite om acties te onderscheiden en hun deelnemers te identificeren, zelfs als ze worden ondersteund door plausibiliteit bias zoals we in het actiestuk zien.
Uit de coreferentie stuk blijkt dat het opsporen van meerdere verwijzingen naar hetzelfde object in een afbeelding met behulp van voornaamwoorden ook moeilijk is voor vision en taalmodellen.
Als een geestelijke controle, en omdat het een interessant experiment is, benchmarken we ook twee tekst slechts modellen, GPT één en GPT twee, om te beoordelen of VALSE oplosbaar is door deze unimodale modellen door het berekenen van de perplexiteit van de juiste en de foiled caption, geen afbeelding hier, en het voorspellen van de ingang met de laagste perplexiteit.
Als de perplexiteit hoger is voor de folie, beschouwen wij dit als een aanwijzing dat het verijdelde bijschrift kan lijden aan plausibiliteitsbias of ander linguïstisch bias.
En het is interessant om te zien dat in sommige gevallen de tekst alleen GPT modellen de plausibiliteit van de wereld beter hebben vastgelegd dan de visie en taalmodellen.
Dus om samen te vatten, VALSE is een benchmark die de lens van linguïstische constructies gebruikt om de gemeenschap te helpen het gezichtsvermogen en taalmodellen te verbeteren door hun visuele verankering capaciteiten hard te testen.
Onze experimenten tonen aan dat visie en taalmodellen objecten die benoemd zijn en hun aanwezigheid in afbeeldingen goed identificeren, zoals blijkt uit het bestaansstuk, maar moeite hebben om hun onderlinge afhankelijkheid en relaties in visuele scènes te gronden wanneer ze gedwongen worden om linguïstische indicatoren te respecteren.
We willen de gemeenschap echt aanmoedigen om VALSE voor het meten van vooruitgang naar taal verankering met visie en taalmodellen te gebruiken.
En nog meer, VALSE kan worden gebruikt als een indirecte beoordeling van datasets, omdat modellen voor en na training of finetunen kunnen worden geëvalueerd om te zien of een dataset modellen helpt bij het verbeteren van een van de aspecten getest door VALSE.
Als je geïnteresseerd bent, bekijk dan de VALSE data op GitHub, en als je vragen hebt, aarzel dan niet om contact met ons op te nemen.
Hallo, mijn naam is Kamezawa van de Universiteit van Tokio.
Ik zal een paper presenteren met de titel RNSum: Een grote-schaal dataset voor automatische release note generatie via Commit Logs samenvatting.
Ik zal het in deze volgorde uitleggen.
Eerst zal ik de automatische release note generatie introduceren waaraan we in dit onderzoek werken.
Een release note is een technisch document dat de wijzigingen samenvat die bij elke release van een softwareproduct worden verspreid.
De afbeelding toont een release note voor versie twee punt zes punt vier van de vuejs bibliotheek.
Release notes spelen een belangrijke rol in open source ontwikkeling, maar ze zijn tijdrovend voor te bereiden handmatig.
Daarom zou het erg handig zijn om automatisch release notes van hoge kwaliteit te kunnen genereren.
Ik zal twee eerdere onderzoeken op automatische release note generatie uitstellen.
De eerste is een systeem genaamd ARENA uitgebracht in veertienentwintig.
Er is een op regels gebaseerde benadering nodig, bijvoorbeeld met behulp van de change extractor om alle verschillen, bibliotheekwijzigingen en document wijzigingen uit de verschillen tussen releases te extraheren en uiteindelijk te combineren.
Het meest opvallende kenmerk van dit systeem is het probleem extractor in de rechterbovenhoek.
Die moet worden overgelaten aan Jira, de issue tracker systeem, en kan alleen worden toegepast op projecten die Jira gebruiken.
Met andere woorden, het kan niet worden gebruikt voor veel projecten op GitHub.
De tweede is Glyph, onlangs aangekondigd in tweeduizend twintig.
Het is beschikbaar op het internet en kan worden geïnstalleerd via pip.
Dit systeem heeft een eenvoudig leren gebaseerd tekst classificatie model en outputs een van de vijf labels zoals functies of bug fixes voor elk input commit bericht.
Deze afbeelding is een voorbeeldgebruik dat een correctief of bugfixelabel retourneert.
Glyph 's trainingsgegevens zijn vrij klein, ongeveer vijfduizend, en zullen worden getoond in de hieronder beschreven experimenten.
De prestaties van het tekstclassificatie model zijn niet hoog.
Ik presenteer twee gerelateerde onderzoeken, maar hun problemen zijn beperkte toepasbaarheid en schaarse gegevens middelen.
Onze paper lost deze twee problemen op en genereert automatisch hoge kwaliteit release notes.
Met een beperkte toepasbaarheid probleem, willen we voorstellen een klassegewijze samenvatting methode van hoge kwaliteit met alleen vastleggingsberichten als input.
Deze voorgestelde methode kan worden gebruikt voor alle repositories in Engels.
Voor het tweede probleem van schaarse gegevens bronnen hebben we onze RNSum dataset opgebouwd, bestaande uit ongeveer tweeëntachtigduizend stukjes gegevens door gegevens te verzamelen uit openbare GitHub-repositories met behulp van de GitHub API.
Vervolgens beschrijf ik onze dataset.
Hier is een voorbeeld van data.
De linkerkant is een commit bericht en de rechterkant is de release notes.
Release notes worden gelabeld als verbeteringen of fixes, etc.
We hebben een taak ingesteld die de commitberichten als input en outputs als gelabelde release notes neemt.
Dit kan worden beschouwd als een samenvatting taak.
We hebben vooraf vier labels gedefinieerd: functies, verbeteringen, bugfixes, verwijderingen van afschrijvingen en brekende wijzigingen.
Deze zijn vastgesteld op basis van eerder onderzoek en andere factoren.
De release note rechtsonder is geëxtraheerd uit de release note linksonder.
Op dit moment is het noodzakelijk om de vier labels die van tevoren zijn ingesteld te detecteren.
Maar de labels zijn niet altijd consistent met elke repository.
Bijvoorbeeld het verbeterlabel bevat verbeteringen, verbeteringen, optimalisaties, enzovoort.
Wij hebben een woordenschatlijst opgesteld met ongeveer dertig labels voor elk van deze notatievarianten.
Dit is om de release note class te detecteren, en verzamelt de tekst van de release die volgt als de release note zin voor de klasse.
Het volgende is een commit boodschap.
Commit-berichten zijn niet gebonden aan elke release.
Zoals getoond in de afbeelding hieronder, als de huidige release versie twee punt vijf tot negentien is, moeten we de eerdere release versie twee punt vijf tot achttien identificeren en een diff krijgen.
Dit is een beetje vervelend en het is niet genoeg om gewoon een lijst met releases te krijgen en naar het voor en na te kijken.
We hebben een heuristische matchingregel gemaakt om de eerdere en volgende versies te krijgen.
Dataset analyse.
Uiteindelijk werden zevenduizend tweehonderd repositories en tweeëntachtigduizend stukken data verzameld.
Ook is het gemiddelde aantal van release notes tokens drieënzestig, wat vrij hoog is voor een samenvatting taak.
Ook het aantal unieke tokens is met achtduizend achthonderd dertigduizend vrij groot.
Dit is te wijten aan de groot aantal van unieke klasse of methode namen gevonden in de repository.
Vervolgens zal ik de voorgestelde methode toelichten.
Het classwise extractieve dan abstracte samenvatting model bestaat uit twee neurale modules.
Een classifier met BERT of CodeBERT en een generator met BART.
Ten eerste gebruikt CEAS een classifier om elk commitbericht te classificeren in vijf release notes-klassen, die verbeteringen, bugfixes, afschrijvingen en een andere gebruiken.
De commitberichten die zijn geclassificeerd als overig worden verwijderd.
Vervolgens past CEAS de generator onafhankelijk toe op de vier gelabelde documenten en genereert hij releasenotes voor elke klasse.
In deze taak zijn de directe correspondenties tussen commitberichten en release notes niet bekend.
Daarom, om de classifier te trainen, hebben we enquêtes toegewezen aan elk input commit-bericht met behulp van de eerste tien tekens van elk commit-bericht.
We modelleerden de klassengewijze abstracte samenvatting benadering door twee verschillende methoden.
Het eerste model, dat we CAS-Single noemen, bestaat uit een enkel zes tot zes netwerk en genereert een enkele release note tekst geven een concatenation van input commit berichten.
De output teksten kan worden onderverdeeld in klassesegmenten op basis van speciale klassespecifieke eindpuntsymbolen.
De tweede methode, methode, die we CAS-Multi noemen, bestaat uit vier verschillende seq2seq netwerken, die elk overeenkomen met een van de vaste release note klassen.
Oké, laat me de experimenten uitleggen.
Vijf methoden werden vergeleken: CEAS, CAS-Single, CAS-Multi, Clustering en eerdere studie, Glyph.
Met betrekking tot evaluatie worden release notes in sommige gevallen in meerdere zinnen uitgevoerd.
Omdat het moeilijk is om het aantal van zinnen te berekenen zoals ze zijn, worden ze gecombineerd met spaties en behandeld als één lange zin.
De BLEU wordt bestraft wanneer het systeem een korte zin outputs.
Deze straf resulteert in een lagere BLEU -waarde in de hierna beschreven experimentresultaten.
Ten slotte berekenen we ook de specificiteit omdat ROUGE en BLEU niet kunnen worden berekend als de release notes leeg zijn.
Een hogere specificiteit betekent dat het model correct outputs een lege tekst in gevallen waarin de release notes veronderstellen leeg.
Hier volgen de resultaten.
Aangezien de dataset e-mailadressen, gehashte waarden, enz. bevat, hebben we ook de opgeruimde dataset geëvalueerd, die deze uitsluit.
CEAS en CAS behaalden ROUGE-L scoren meer dan tien punten hoger dan de baselines.
Met name op de clean test set steeg de scorekloof tussen de voorgestelde methode en de baselines naar meer dan twintig punten.
Deze resultaten geven aan dat CEAS en CAS aanzienlijk worden beïnvloed.
CEAS kreeg een betere ROUGE-L score dan CAS, wat suggereert dat het combineren van een classifier en een generator effectief is op training de classifier met behulp van pseudo- labels.
Een hoge dekking van CEAS kan waarschijnlijk worden bereikt omdat de classifier zich kan concentreren op het selecteren van relevante commit-berichten voor elke klas.
CAS-Multi had de neiging om hogere ROUGE-L op te leveren dan CAS-Single.
Suggereert dat het ook effectief is om onafhankelijk te ontwikkelen anders abstracte samenvatting modellen voor elke release note klasse.
Hier is een fout analyse.
CAS methoden hebben de neiging om kortere zinnen uit te voeren dan menselijke verwijzing zinnen.
In de figuur rechts heeft de verwijzing zin drie of vier zinnen, terwijl CAS er slechts één heeft.
De reden voor de terughoudendheid van dit model is dat in trainingsgegevens slechts drieëndertig procent van de zinnen aanwezig zijn in het functies -label en veertig procent in het verbeterlabel.
Verder, CAS methoden kunnen geen nauwkeurige release notes genereren zonder aanvullende informatie.
Het bovenste voorbeeld aan de rechterkant is een voorbeeld van een zeer rommelig commitbericht en de volledige zin kan niet worden gegenereerd zonder verwijzing naar de overeenkomende voortgang of kwestie.
Het onderstaande voorbeeld laat zien dat de twee commitberichten in de input gerelateerd zijn en gecombineerd moeten worden tot één zin, maar dit lukt niet.
Tot slot nog een conclusie.
We hebben een nieuwe dataset voor automatische release note generatie gebouwd.
Wij hebben ook een taak geformuleerd om commit-berichten in te voeren en samenvatten, zodat het van toepassing is op alle projecten die in het Engels zijn geschreven.
Onze experimenten tonen aan dat de voorgestelde methode minder lawaaierige release notes genereert bij een hogere dekking dan de baselines.
Bekijk onze dataset op GitHub.
Bedankt.
Hallo. Mijn naam is Asaf Harari.
En ik zal onze paper presenteren, Few-Shot Tabular Data Enrichment Using Fine-Tuned Transformers Architectuur.
Data wetenschappers analyseren data en richten zich vooral op het manipuleren van de data's met bestaand functies.
Maar soms zijn deze functies beperkt.
Functie generatie met behulp van een andere gegevens bron kan aanzienlijke informatie toevoegen.
Het doel van ons onderzoek is automatische verrijking in tabelvorm data met behulp van de vrije tekst van externe bronnen.
Stel dat we een tabel dataset en een dataset hebben.
Wij hebben een automatisch proces nodig met entiteitkoppeling en tekst analyse om nieuwe functies te extraheren uit de vrije tekst van de kennisbank.
Ons raamwerk FeSTE is precies dit automatische proces.
Dus laten we een voorbeeld zien in een dataset ingevoerd in FeSTE.
In dit voorbeeld is de dataset een universitaire dataset.
Wanneer het doel is om universiteiten te classificeren in laaggeplaatste universiteiten en hooggeplaatste universiteiten.
Als kennisbank gebruiken we Wikipedia.
De eerste fase van FeSTE is entity linking.
Wanneer elke entiteit, in dit voorbeeld de naam van de universiteit, gelinkt is aan een entiteit binnen de kennisbank.
En de tekst van de entiteiten van de kennisbank wordt geëxtraheerd en toegevoegd aan de dataset.
In dit voorbeeld is de tekst het abstract van de Wikipedia pagina.
Nu moeten we functies genereren of extraheren uit de opgehaald tekst.
Dus, we moeten de functies extractie fase inclusief tekst analyse hebben.
En dit is de belangrijkste nieuwigheid van deze paper en ik zal er in de volgende dia's dieper op ingaan.
Na de feature extractie -fase is er een feature generatie -fase wanneer we de geëxtraheerde functies gebruiken om een klein aantal nieuwe functies te genereren.
Genereer eerst functies in het aantal klassen van de originele dataset.
In dit voorbeeld heeft de oorspronkelijke dataset twee klassen.
Dus, FeSTE genereert twee nieuwe functies.
Maar als de dataset vijf klassen heeft, genereert FeSTE vijf nieuwe functies.
Elk kenmerk vertegenwoordigt de waarschijnlijkheid voor elke klasse.
Om de tekst te analyseren, gebruiken we de huidige state-of-the-art van tekst analyse, die op transformer gebaseerde taalmodellen zijn als BERT, GPT, XLNet en etc.
Het is echter niet waarschijnlijk dat we taalmodellen kunnen trainen met behulp van de input datasets.
Dus een naïeve benadering zal doel taak finetunen zijn.
Dus, in de functie extractie fase, kunnen we downloaden voorgetrainde taal modellen, finetunen van de taalmodel over de doel dataset.
In dit voorbeeld om het taalmodel te finetunen, om tekst in te delen in klassen, abstract in klassen, laag of hoog.
Ontvang de uitvoer van taalmodel, wat de waarschijnlijkheid is voor elke klasse en gebruik als nieuwe functies.
Het probleem met deze benadering is dat datasets mogelijk weinig verschillende entiteiten / teksten hebben.
In ons experiment bevat bijna de helft van de datasets minder dan vierhonderd monsters en de kleinste dataset bevat vijfendertig monsters in zijn, in een training set.
Dus om een taalmodel af te stemmen op ah zal deze dataset niet effectief zijn.
Maar we kunnen vooraf kennis gebruiken over vooraf geanalyseerde datasets.
Omdat FeSTE, we FeSTE toepassen op een meervoudige dataset, kunnen we de n min één datasets gebruiken om informatie te verzamelen over de n min één datasets, en deze informatie gebruiken wanneer we de nth dataset analyseren.
Wat wij, wat wij voorstellen is om toe te voegen, om een andere fase om te finetunen toe te voegen.
Een voorbereidende fase van multitasken finetunen.
Wanneer u het taalmodel afstemt op de n min één datasets.
En dan voeren we nog een finetuning fase uit die een target task finetuning is, wanneer je het fijn afstemt wanneer we het taalmodel finetunen over de nth target dataset.
De state-of-the-art in multitasken finetunen genaamd MTDNN.
In MTDNN handhaaft MTDNN ah koppen in het aantal van taken in de training set.
Dus, in dit voorbeeld zijn er vier taken in de training set, dus MTDNN onderhoudt vier hoofden zoals u kunt zien op de afbeelding.
En het bemonstert een willekeurige partij van ah uit de training set.
En als ze willekeurig batch behoort tot een, voor bijvoorbeeld enkele zin classificatie taak, het voert voorwaartse en achterwaartse paden door het eerste hoofd.
En als de willekeurige batch behoort tot paarsgewijze ranking taak, voert het voorwaartse en achterwaartse pad door de laatste kop.
In ons scenario variëren ah-tabellen datasets in het aantal klassen.
Er zijn dus veel taken.
MTDNN handhaafde aantal van klassen, hoofden, outputlagen.
En de extra, bovendien aanvullende MTDNN moet nieuwe hoofden initialiseren voor een nieuwe dataset met een nieuwe taak.
Onze benadering, genaamd taak herformulering finetunen is, in onze aanpak taak herformulering finetunen, in plaats van meerdere hoofden te behouden, herformuleren we elke dataset in een zin per classificatie probleem, wat twee klassen 'taken is.
Laten we een voorbeeld bekijken.
Hier is de input dataset die bestaat uit entiteiten, functies, tekst en klassen.
En we herformuleren de taak van een classificerende de tekst in laag of hoog om de tekst, de abstracte en de klasse in waar of onwaar te classificeren.
Of met andere woorden, we hebben het taalmodel getraind om een abstract en klasse ah te classificeren naar abstract en klasse ah, als het abstract tot de klasse behoort of niet.
Dus het label vector blijft in dit geval altijd ah wat altijd uit twee klassen bestaat.
En dit is het ah algoritme voor onze fijne, geherformuleerde finetunen benadering.
Laten we het volledige kader bekijken.
Dataset ingevoerd in FeSTE.
En dan voert FeSTE entiteit die fase uit.
Het ah het haalt de tekst uit de kennisbank, die in dit voorbeeld het abstract is van de Wikipedia pagina.
Vervolgens werd de taak geherformuleerd in een paarsgewijze zinsclassificatie taak.
Pas het taalmodel toe op de nieuwe taak en de uitvoerwaarschijnlijkheid voor elke klasse.
En nu dat het taalmodel al gefinetuned is over n min één dataset met behulp van een voorlopige multitasken finetunen.
Vervolgens gebruiken we de uitvoer vector van het taalmodel als een nieuw gegenereerde functie in het aantal klassen.
Om ons raamwerk te evalueren, gebruiken we ah zeventien tabelvormige classificatie datasets die variëren in grootte, functies, balans, domein en initiële prestaties.
Als kennisbank gebruiken we Wikipedia.
We ontwerpen ons experiment als leave one out ah evaluatie waarbij we FeSTe trainen over zestien datasets en toepassen op de zeventiende dataset.
We splitsen ook elke dataset in vier vouwen en passen vier vouwen kruisvalidatie toe.
Vervolgens genereren we de nieuwe functies en evalueren ze met behulp van vijf evaluatie classifiers.
We gebruiken in onze experimenten basis BERT basisarchitectuur.
Dit zijn de resultaten voor onze experimenten.
U ziet dat wij ons kader vergelijken met doel dataset finetunen, doel taak finetunen, en een MTDNN voorlopig finetunen.
En onze herformulering finetunen behaalt het beste resultaat, de beste prestaties.
Terwijl MTDNN twee procent verbetering bereikte ten opzichte van de doel dataset finetunen.
Onze benadering bereikte een verbetering van zes procent.
Wanneer we kijken naar de kleine ah dataset, kunnen we zien dat de prestaties van MTDNN afnemen en de verbetering van de prelim, de voorlopige multitasken finetunen fase afneemt tot één punt vijf procent.
Maar onze prestaties stegen tot elf procent vergeleken met de doel taak finetunen alleen.
Voor het optellen maakt FeSTE in onze experimenten een verrijking van enkele schoten uit vijfendertig monsters mogelijk.
Het maakt gebruik van één architectuur voor alle taken en datasets.
En het houdt het hoofd van ah van model.
Maar het voegt herformuleringsfase toe.
Het vergroot de treinset en het heeft een doel waarde nodig met semantisch betekenis zodat we het kunnen invoeren in het taalmodel en het kunnen gebruiken in het zinspaar classificatie probleem.
Bedankt.
