Hallo, hier ist Elena und ich werde unsere Arbeit vorstellen: Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and Approaches to Modeling.
Wir werden also behandeln, was lexikalisches Leihen ist, die Aufgabe, die wir vorgeschlagen haben, den Datensatz, den wir veröffentlicht haben, und einige Modelle, die wir erkundet haben.
Aber was ist lexikalische Kreditaufnahme und warum ist sie als NLP-Aufgabe wichtig?
Nun, lexikalisches Leihen ist im Grunde genommen die Aufnahme von Wörtern aus einer Sprache in eine andere Sprache.
Zum Beispiel verwenden wir auf Spanisch Wörter, die aus dem Englischen kommen.
Und hier haben Sie ein paar Beispiele, Wörter wie Podcast, App und Online-Crowdfunding. All dies sind englische Wörter, die wir manchmal auf Spanisch verwenden.
Lexikalische Anleihe ist eine Art von linguistischer Anleihe, die sich im Grunde in einem Sprachmuster anderer Sprachen reproduziert.
Und Kreditaufnahme und Codewechsel wurden manchmal verglichen und als ein Kontinuum beschrieben, wobei Codewechsel die Sache ist, die Zweisprachige tun, wenn sie zwei Sprachen gleichzeitig mischen.
Es gibt jedoch einige Unterschiede zwischen lexikalischer Kreditaufnahme und Code-Switching.
Wir werden uns auf die lexikalische Kreditaufnahme konzentrieren.
Code-Switching wird von Zweisprachigen durchgeführt, und per Definition sind die Code-Switches in keiner der verwendeten Sprachen integriert, während lexikalisches Leihen auch von Einsprachigen durchgeführt wird.
Die Darlehen entsprechen der Grammatik der Sprache des Empfängers.
Und Kredite können schließlich in die Sprache des Empfängers integriert werden.
Warum ist also die Kreditaufnahme ein interessantes Phänomen?
Nun, aus sprachlicher Sicht ist das Leihen eine Manifestation der Art und Weise, wie sich Sprachen verändern und wie sie interagieren.
Und auch lexikalische Anleihen sind eine Quelle neuer Worte.
Hier finden Sie einige Beispiele für lexikalische Anleihen, die als neue Wörter in die spanische Sprache übernommen wurden.
In Bezug auf NLP sind Kredite eine häufige Quelle für Wörter außerhalb des Vokabulars.
Tatsächlich hat sich die automatische Erkennung lexikalischer Kredite als nützlich für nachgelagerte NLP-Aufgaben wie Parsing, Text-to-Speech-Synthese oder maschinelle Übersetzung erwiesen.
Es gibt ein wachsendes Interesse am Einfluss des Englischen auf andere Sprachen ah, insbesondere ah im Zusammenhang mit englischen lexikalischen Krediten, Krediten, die manchmal als Anglizismen bezeichnet wurden.
Und hier haben Sie einige Beispiele für Arbeiten zur automatischen Erkennung von Krediten in einigen dieser Sprachen.
Die Aufgabe, die wir vorschlagen, ist es also, nicht assimilierte lexikalische Kredite in der spanischen Nachrichtenagentur zu erkennen.
Das bedeutet, dass wir daran interessiert sind, Wörter aus anderen Sprachen zu extrahieren, die in spanischen Zeitungen verwendet werden, aber nicht in die Empfängersprache integriert oder aufgenommen wurden.
Also noch nicht ins Spanische integriert.
Hier haben Sie ein Beispiel.
Dies ist ein Satz auf Spanisch: Las prendas bestsellers se estampan con motivos florales, animal print o retales tipo patchwork.
Ähm, und wie Sie sehen können, gibt es drei Bereiche mit Texten, die eigentlich englische Wörter wie Bestseller, Tierdruck und Patchwork sind.
Dies sind die Arten von Spannen, an deren Extraktion und Erkennung wir interessiert sind.
Es gab bereits ein früheres Wort über die Erkennung von Anglizismus, das aus einem CRF-Modell für die Erkennung von Anglizismus auf dem spanischen Newswire bestand.
Dieses Modell erzielte einen F1-Punktestand von 86.
Aber es gab einige Einschränkungen sowohl im Datensatz als auch im Modellierungsansatz.
Der Datensatz konzentrierte sich also ausschließlich auf eine Nachrichtenquelle, bestand nur aus Schlagzeilen.
Und es gab auch eine Überschneidung bei den Kreditaufnahmen, die im Trainingsset und im Testset erscheinen.
Dies verhinderte die Einschätzung, ob sich der Modellierungsansatz tatsächlich auf bisher nicht gesehene Kredite verallgemeinern könnte.
Was wir also anstreben, ist, einige dieser Einschränkungen in der Aufgabe anzugehen.
Zu Beginn haben wir also einen neuen Datensatz erstellt.
Ah, das Ziel eines neuen Datensatzes, der mit lexikalischen Leihgaben kommentiert wurde, und das Ziel war es, einen Testsatz zu erstellen, der so schwierig wie möglich war.
So würde es zu minimalen Überschneidungen bei Wörtern und Themen zwischen dem Trainingsset und dem Testset kommen.
Und als Ergebnis kommt das Testset aus Quellen und Daten, die wir im Trainingsset nicht sehen.
Hier können Sie sehen, dass es keine Überschneidungen in der Zeit gibt.
Es ist auch, das Test-Set ist auch sehr borgendicht.
Nur um Ihnen einige Zahlen zu geben, wenn das Trainingsset sechs Anleihen pro tausend Token enthält, enthielt das Testset zwanzig Anleihen pro tausend Token.
Das Test-Set enthielt so viele Wörter aus dem Vokabular wie möglich.
Tatsächlich sind zweiundneunzig Prozent der Kredite im Testsatz OOV.
Sie wurden also während des Trainings nicht gesehen.
Und der Korpus bestand im Grunde aus einer Sammlung von Texten, die aus verschiedenen Quellen spanischer Zeitungen stammten.
Und ah es wurde von Hand ah mit zwei Tags kommentiert.
Eine für englische lexikalische Kredite, die die Mehrheit der lexikalischen Kredite auf Spanisch ausmachen, und dann die Bezeichnung andere für Kredite aus anderen Sprachen.
Wir verwenden CONLL-Formate und BIO-CODIERUNG, um einzelne Token-Kredite wie App- oder Multi-Token-Kredite wie maschinelles Lernen zu codieren.
Das sind die Zahlen des Korpus.
Wie Sie sehen können, beläuft sie sich auf ungefähr dreihundert siebzigtausend Token.
Und hier haben Sie die Anzahl der Spannen, die als Englisch bezeichnet wurden, und die Spannen, die als andere Kredite bezeichnet wurden, und wie viele davon waren einzigartig.
Und hier haben Sie ein paar Beispiele für die Menge des Datensatzes.
Wie Sie zum Beispiel hier sehen können, haben wir ah im ersten Beispiel, wir haben die Ausleihe Batch Kochen, die ein Mehrwort Ausleihen ist.
Und wir haben es mit dem Bio-um-Codierer kommentiert.
Die BIOGRAFIE wurde also für spanische Wörter verwendet, also nicht für Wörter, die nicht ausgeliehen wurden.
Und hier in diesem zweiten Beispiel haben Sie Bank und Crash, die auch als Leihgaben aus dem Englischen bezeichnet werden.
Sobald wir also den Datensatz hatten, untersuchten wir mehrere Modelle für die Aufgabe, diese lexikalischen Kredite zu extrahieren und zu erkennen.
Das erste, das wir ausprobiert haben, war das bedingte Zufallsfeldmodell.
Ah, das war das Modell, das bei früheren Arbeiten verwendet worden war.
Und wir verwendeten die gleichen handgefertigten Funktionen von denen dieser Arbeit.
Wie Sie sehen können, sind dies die Funktionen.
Dies sind binäre Merkmale wie das Wort oder das Token in Großbuchstaben?
Ist es Titel Titelkoffer?
Ist es ein Anführungszeichen?
Dinge wie diese, die die Art von Funktionen sind, die man in einer benannten Entity-Erkennungsaufgabe erwarten würde.
Das sind die Ergebnisse, die wir erzielt haben.
Wir erhalten fünfundfünfzig F1-Punkte mit dem CRF-Modell mit handgefertigten Funktionen.
Das ist ein großer Unterschied ähm im Vergleich zu dem gemeldeten F1-Score von sechsundachtzig, was das Ergebnis war, das mit dem gleichen CRF-Modell, den gleichen Merkmalen, aber auf einem anderen Datensatz auch für die lexikalische Entleiherkennung in Spanien erhalten wurde.
Dies beweist also, dass der Datensatz, den wir erstellt haben, schwieriger ist und dass wir anspruchsvollere Modelle für diese Aufgaben erforschen mussten.
Also haben wir zwei auf Transformatoren basierende Modelle getestet.
Wir haben BETO verwendet, ein einsprachiges Bert-Modell, das sowohl für Spanisch als auch für mehrsprachige BERT ausgebildet wurde.
Beide Modelle verwenden wir über die Transformatorenbibliothek von HuggingFace.
Das sind die Ergebnisse, die wir erzielt haben.
Wie Sie sehen können, schneidet mehrsprachiges BERT sowohl auf dem Entwicklungsset als auch auf dem Testset und über alle Metriken hinweg besser ab als BETO.
Nur damit wir eine Idee zum Vergleich haben, das CRF-Modell erhielt zweiundachtzig.
Das CRF-Modell erhielt fünfundfünfzig Punkte und fünfundfünfzig F1, während das mehrsprachige BERT zweiundachtzig Punkte erhielt, was einen großen Unterschied darstellt.
Sobald wir also diese Ergebnisse hatten, stellten wir uns eine andere Frage, die lautet: Können wir ein BiLSTM-CRF-Modell finden, es mit verschiedenen Arten von Einbettungen füttern, Einbettungen, die verschiedene Arten von sprachlichen Informationen codieren und die Ergebnisse von transformatorbasierten Modellen übertreffen?
Um dies zu tun, führten wir einige Vorversuche durch, wir führten dies mit dem BiLSTM-CRF-Modell unter Verwendung der FLORE-Bibliothek durch.
Und wir haben mit verschiedenen Arten von Einbettungen wie transformatorbasierten, aber auch Fast-Text-, Charaktereinbettungen und so weiter experimentiert.
Was wir herausfanden, war, dass transformatorbasierte Einbettungen besser abschnitten als nicht kontextualisierte Einbettungen, dass die Kombination aus englischen Bert- und spanischen Beto-Einbettungen mehrsprachige BERT-EINBETTUNGEN übertraf.
Und dass BPE-Einbettungen ein besseres F1 und Zeicheneinbettungen eine bessere Erinnerung erzeugen.
Vor diesem Hintergrund waren dies die besten Ergebnisse, die wir erzielt haben.
Beide Modelle waren BiLSTM-CRF-Modelle mit Flare.
Einer wurde mit BETO- und BERT-EINBETTUNGEN und BPE gefüttert, der andere MIT Beto- und Bert-Einbettungen und BPE sowie Charaktereinbettungen.
Dieser letzte war derjenige, der die höchste F1-Punktzahl auf dem Testset erzielte, obwohl die höchste Punktzahl auf dem Entwicklungsset von demjenigen ohne Zeicheneinbettungen erhalten wurde.
Nur ah zu bedenken, dass das beste Ergebnis, das wir mit mehrsprachigen BERT erreicht haben, eine F1 von sechsundsiebzig auf dem Entwicklungs-Set und zweiundachtzig auf dem Test-Set.
Dies ist also eine Verbesserung im Vergleich zu diesen Ergebnissen.
Schließlich stellten wir uns eine weitere Frage, die lautete: Kann die lexikalische Entleiherkennung als Transferlernen anhand der Sprachidentifikation bei der Codeumschaltung eingerahmt werden?
Wir betreiben also das gleiche BiLSTM-CRF-Modell, das wir mit Flare ausgeführt hatten, aber anstatt diese unangepassten transformatorbasierten Beto- UND Bert-Einbettungen zu verwenden, haben wir Code-Switch-Einbettungen verwendet.
Was sind Code-Switch-Einbettungen?
Nun, dies sind Einbettungen, die fein abgestimmte Einbettungen auf Transformatorbasis sind, die für die Spracherkennung im spanisch-englischen Abschnitt des LinCE-Code-Switching-Datensatzes trainiert wurden.
LinCE ist ein Datensatz zur Codeumschaltung, der einen Abschnitt zur spanisch-englischen, spanisch-englischen Codeumschaltung enthält.
Also haben wir unseren BiLSTM-CRF mit Code-Switch-Einbettungen und optional Zeicheneinbettungen, BPE-Einbettungen und so weiter gefüttert.
Das beste Ergebnis, das wir erzielt haben, war vierundachtzig Punkte zweiundzwanzig, was das höchste aller Modelle ist, die wir am Testset ausprobiert haben.
Obwohl das beste Ergebnis F1 Punktzahl, die wir auf der Entwicklung Set, die neunundsiebzig war, war niedriger als das beste Ergebnis von der BiLSTM-CRF mit unangepassten Einbettungen gefüttert erhalten.
Also, einige Schlussfolgerungen aus unserer Arbeit.
Wir haben ah wir haben einen neuen Datensatz des spanischen Newswire produziert, der mit nicht assimilierten lexikalischen Krediten kommentiert ist.
Dieser Datensatz ist dichter und OOV-reicher als frühere Ressourcen.
Wir haben vier Arten von Modellen für die Erkennung von lexikalischen Krediten untersucht.
In Bezug auf die Fehleranalyse war die Erinnerung ein Schwachpunkt für alle Modelle.
Ah, wie Sie hier sehen können, beinhalten einige häufige falsche Negative Großbuchstaben, Wörter, die zum Beispiel sowohl in Englisch als auch in Spanisch existieren.
Interessanterweise scheinen BPE-Einbettungen auch den F1-Score zu verbessern.
Und die Zeicheneinbettung scheint die Erinnerung zu verbessern.
Was ah, es ist eine interessante Erkenntnis, die wir vielleicht über zukünftige Arbeit erforschen können.
Das ist alles, was ich habe.
Vielen Dank fürs Zuhören.
Mein Name ist Antoine.
Ich bin Doktorandin an der University of Massachusetts Amherst.
Ich präsentiere unsere Arbeit KinyaBERT: a Morphology-aware Kinyarwanda Language Model.
Heute werde ich über die Motivation für diese Forschung sprechen.
Dann werde ich die KinyaBERT-Modellarchitektur im Detail vorstellen.
Ich werde dann über unsere experimentellen Ergebnisse sprechen und dann mit einigen Schlussfolgerungen schließen.
Wir alle wissen, dass die Fortschritte bei der Verarbeitung natürlicher Sprachen in jüngster Zeit durch den Einsatz von vorab geschulten Sprachmodellen wie BERT ermöglicht wurden.
Es gibt jedoch noch eine Reihe von Einschränkungen.
Aufgrund der komplexen Morphologie, die von den meisten morphologisch reichen Sprachen ausgedrückt wird, kann der allgegenwärtige Byte-Paar-Codierungsalgorithmus, den ich verwendet habe, nicht die genauen Unterworteinheiten, d.h. die Morpheme, extrahieren, die für eine effektive Darstellung benötigt werden.
Zum Beispiel haben wir hier drei Wörter aus Kinyarwanda, die mehrere Morpheme enthalten, aber die BPE-Algorithmen können sie nicht extrahieren.
Dies liegt daran, dass einige morphologische Regeln unterschiedliche Oberflächenformen erzeugen, die die genauen lexikalischen Informationen verbergen, und BPE, das ausschließlich auf den Oberflächenformen basiert, keinen Zugang zu diesem lexikalischen Modell hat.
Die zweite Herausforderung besteht darin, dass selbst wenn man Zugang zu einem morphologischen Orakelanalysator hatte, das Ersetzen von BPE-Token durch Morpheme nicht ausreicht, um die morphologische Kompositionalität auszudrücken.
Eine dritte Lücke in der Forschung ist, dass neue vortrainierte Sprachmodelle am häufigsten auf Hochressourcensprachen bewertet werden.
Und wir müssen auch ihre Anwendbarkeit auf geringe Ressourcen und verschiedene Sprachen bewerten.
Daher präsentieren wir KinyaBERT, eine einfache, aber effektive Anpassung der Bert-Architektur, die morphologisch reiche Sprachen effektiver handhaben soll.
Wir bewerten KinyaBERT auf Kinyarwanda, einer ressourcenarmen morphologisch reichen Sprache, die von mehr als zwölf Millionen Menschen in Ost- und Zentralafrika gesprochen wird.
Die Eingabe in das Modell ist entweder ein Satz oder ein Dokument.
Zum Beispiel haben wir hier John twarahamubonye biradutangaza, was bedeutet, dass wir überrascht waren, John dort zu finden.
Wie Sie sehen können, enthalten Wörter aus Kinyarwanda mehrere Morpheme, die unterschiedliche Informationen enthalten.
Daher übergeben wir in unserem Modell diesen Satz oder ein Dokument an einen morphologischen Analysator.
Das erzeugt dann Morpheme, die in jedem der Wörter enthalten sind.
Die Morpheme bestehen in der Regel aus dem Stamm und null oder mehr Anhaftungen.
Die Affixe können Zeit, Aspekt, Subjekt oder Objekt in Verben angeben und beziehen sich häufiger auf die Bantu-Nomen-Klasse für Subjekte und Objekte.
Der morphologische Analysator erzeugt auch einen Teil des Sprach-Tags für jedes der Wörter.
Nach diesem Schritt erstellen wir Einbettungen für die Sprache - für den Teil der Sprach-Tags.
Einbettungen für die Aufsätze.
Und Einbettungen für den Stamm.
Dies sind die Morphologieebene, dies sind die Einbettungen der Morphologieebene.
Wir leiten diese Einbettungen dann durch einen Morphologie-Encoder, einen kleinen Transformator-Encoder, der unabhängig auf jedes Wort angewendet wird.
Die Ausgabe der sind die Vektoren, die mit der morphologischen Information bei jedem Wort kontextualisiert werden.
Nun führen wir eine Komposition durch, bei der die morphologischen Einbettungen, die einem Teil der Sprache und dem Stamm entsprechen, miteinander verkettet werden.
Wir konkatenieren sie weiter mit einer anderen Stammeinbettung auf Sätzebene.
Dann bilden wir eine Eingabe für den Hauptsatz oder Dokument-Encoder.
Die endgültige Ausgabe sind kontextualisierte Einbettungen, die für nachgelagerte NLP-Aufgaben verwendet werden können.
Für einen morphologischen Analysator verwenden wir Prinzipien der endlichen zweistufigen Morphologie mit benutzerdefinierter Implementierung, die auf die Kinyarwanda-Sprache zugeschnitten ist.
Wir modellieren effektiv die Morphologie aller Kinyarwanda-Wörter, einschließlich Verbale, Substantive, Demonstrativ- und Possessivpronomen, Ziffern und andere.
Wir verwenden einen unbeaufsichtigten Teil des Sprach-Tagging-Algorithmus.
Ein Modell erster Ordnung wird verwendet, um die Morphologiewahrscheinlichkeit zu berücksichtigen, im Wesentlichen die Wahrscheinlichkeit, die von dem morphologischen Analysator zugewiesen wird.
Wir berücksichtigen auch den Teil der Sprach-Tag-Priorität sowie die syntaktischen Vereinbarungen, die in den Eingabewörtern vorhanden sind.
Der Teil des Sprach-Taggers 1 verwendet eine bidirektionale Inferenz, die den häufiger verwendeten Viterbi-Algorithmus zur Decodierung verbessert.
Ein paar Bemerkungen hier zur Positionscodierung.
Erstens verwendet der Morphologie-Codierer keine Positionscodierung.
Dies liegt daran, dass jedes der Morpheme einen bekannten Schlitz im morphologischen Modell einnimmt.
Daher sind Positionsinformationen inhärent, wenn die Morpheme gegeben werden.
Zweitens verwendet der Satzcodierer die sogenannten ungebundenen relativen Positionseinbettungen, die kürzlich auf der ICLR-Konferenz veröffentlicht wurden.
Diese Positionseinbettungen entwirren im Wesentlichen die Positionskorrelationen von der Token-zu-Token-Aufmerksamkeitsberechnung.
Ähnlich wie bei BERT verwenden wir ein maskiertes Sprachmodell als Pre-Training-Ziel.
Im Wesentlichen müssen wir sowohl den Stamm als auch die Affixe vorhersagen, die mit den Wörtern verbunden sind.
Während des Pre-Trainings werden fünfzehn Prozent aller Wörter für die Vorhersage berücksichtigt, von denen achtzig Prozent maskiert, zehn Prozent mit zufälligen Wörtern getauscht und zehn Prozent unverändert bleiben.
Für die Affix-Vorhersage stehen wir vor einem Problem der Multi-Label-Klassifizierung.
Dazu gruppieren wir entweder fixe zu einer festen Anzahl von Sets zusammen und prognostizieren das Set als Klassenlabel.
Die andere Möglichkeit besteht darin, den Affix-Wahrscheinlichkeitsvektor vorherzusagen.
Wir bewerten beide Ansätze in unseren Experimenten.
Wir trainieren KinyaBERT mit etwa zweieinhalb Gigabyte Kinyarwanda-Text und vergleichen ihn mit drei Basismodellen.
Eines ist ein mehrsprachiges Modell namens XLM-R, das auf einer großen Textkorpora trainiert wird, die aus mehreren Sprachen besteht.
Die anderen beiden Basislinien werden auf demselben Kinyarwanda-Text unter Verwendung entweder des Byte-Paar-Codierungsalgorithmus oder der morphologischen Analyse ohne Verwendung der zweistufigen Transformator-Codiererarchitektur trainiert.
Alle Modelle werden in der Basisarchitektur konfiguriert, die etwa zwischen hundert und hundert und zehn Millionen Parametern liegt, wobei Kinyarwanda mit KinyaBERT die geringste Anzahl von Parametern verwendet.
Alle Modelle außer den mehrsprachigen sind für zweiunddreißigtausend Gradientenaktualisierungen mit einer Chargengröße von zweitausendfünfhundertsechzig Sequenzen in jeder Charge vorbereitet.
Wir bewerten die vorgefertigten Modelle anhand von drei Aufgaben.
Einer davon ist der Leim-Benchmark, der oft zur Bewertung der Wirksamkeit von vortrainierten Sprachmodellen verwendet wurde.
Wir erhalten unsere KLEBSTOFF-BENCHMARK-DATEN, indem wir die ursprünglichen Benchmark-Daten mit Google Translate in Kinyarwanda übersetzen.
Die zweite Aufgabe ist Kinyarwanda namens Entity Recognition Benchmark, ein hochwertiger Datensatz, der von ausgebildeten Muttersprachlern kommentiert wurde.
Die dritte ist eine Nachrichten-Kategorisierungsaufgabe, bei der wir Nachrichtenartikel von mehreren Websites abrufen und ihre Kategorisierungs-Tags sammeln, die von den Autoren zugewiesen wurden, und dann im Wesentlichen versuchen, die gleichen, die gleichen Kategorien vorherzusagen.
Und jetzt gehen wir zu den Ergebnissen.
Für den LEIM-BENCHMARK stellen wir fest, dass KinyaBERT die Basismodelle konsequent übertrifft.
Hier zeigen wir die durchschnittliche Performance für zehn Finetuning-Läufe.
Wir führen auch eine Benutzerbewertung der Übersetzungen durch, die von Google Translate erstellt werden.
Im Wesentlichen bewerteten Benutzer etwa sechstausend Beispiele, indem sie Bewertungen auf einer Skala von eins bis vier zuteilten und die Qualität der Übersetzungen beurteilten.
Das Ergebnis ist, dass viele Übersetzungen laut waren.
Aber alle Modelle mussten mit dem gleichen Übersetzungsrauschen fertig werden, und die relative Leistung zwischen den Modellen ist immer noch wichtig zu bemerken.
Für die benannte Entity-Erkennungsaufgabe stellen wir auch fest, dass KinyaBERT die beste Leistung mit der Regressionsvariante der Affix-Verteilung bietet.
Diese Ergebnisse sind auch Mittelwerte aus zehn Finetuning-Läufen.
Für die Aufgabe der Nachrichtenkategorisierung finden wir gemischte Ergebnisse.
Frühere Arbeiten zur Textklassifizierung für Kinyarwanda hatten ergeben, dass die einfache Schlüsselwort-Erkennung meist ausreicht, um diese spezifische Aufgabe zu lösen.
Daher ist der Gewinn durch die Verwendung von vortrainierten Sprachmodellen geringer.
Zu dieser speziellen Aufgabe der Nachrichtenkategorisierung.
Wir haben auch eine Ablationsstudie durchgeführt, um zu sehen, ob es alternative Strukturen gibt, die die Leistung verbessern.
Für den KLEBSTOFF-BENCHMARK stellen wir fest, dass die Verwendung von Affix-Sets konsequent bessere Leistungen erbringt, während das Regressionsziel der Affix-Wahrscheinlichkeit die beste Leistung bei der Erkennung benannter Einheiten liefert.
Auch wenn wir uns die niedrigen Werte für Finetuning ansehen, stellen wir fest, dass KinyaBERT in den meisten Fällen eine bessere Konvergenz hat.
Zusammenfassend hat diese Arbeit also gezeigt, wie effektiv es ist, morphologische Informationen explizit in vortrainierten Sprachmodellen zu verwenden.
Die vorgeschlagene zweistufige Transformator-Encoder-Architektur ermöglicht die Erfassung der morphologischen Komplexität der morphologischen Kompositionalität, was ein wichtiger Aspekt morphologisch reicher Sprachen ist.
Diese Ergebnisse sollten die weitere Erforschung morphologiebewusster Sprachmodelle motivieren.
Hallo, mein Name ist Michał Pietruszka und es ist mir eine Freude, Ihnen das Papier mit dem Titel Sparsifying Transformer Models with Trainable Representation Pooling zu präsentieren.
Eine Arbeit bei Applica AI in Zusammenarbeit mit Lukasz Borchmann und Lukasz Garncarek.
Lassen Sie mich mit den Problemen unserer Arbeitsziele beginnen.
Unsere Methode eignet sich gut für die Fälle, in denen lange Inputs berücksichtigt werden.
Es ist grob gesagt für die Aufgabenaufträge und Eingaben von über zweitausend Token gedacht und die Ziele sind kürzer als die bereitgestellten Eingaben.
Dies hat einige spezifische Anwendungen in NLP.
Zum Beispiel kann man sich vorstellen, dass bei einem langen Dokument die Notwendigkeit besteht, es zusammenzufassen, zu klassifizieren, die Frage darüber zu beantworten, Informationen oder einige Schlüsselphrasen zu extrahieren.
Lassen Sie mich an den Vanille-Transformator und unser und seine Frage der Aufmerksamkeits-Komplexität erinnern, die vom Quadrat der Eingangsleitung abhängt.
Im Vanille-Transformator müssen mit voller Aufmerksamkeitsverbindung die Beziehungen jedes Tokens zu jedem anderen Token berechnet werden.
Die rechnerische Komplexität der Aufmerksamkeit hängt von der Anzahl der Schichten l, der Sequenzlänge n, einer weiteren Sequenzlänge und der Dimensionalität der Darstellungen ab.
In ähnlicher Weise ist in der Kreuzaufmerksamkeit des Decoders auf dieses Bild auf der rechten Seite der einzige Unterschied hier darin zu sehen, dass die Ziel-Token in diesem Fall auf die Eingabe-Token achten.
Was auch in dieser Formel zu sehen ist.
Der BLEU-SCORE stellt Beziehungen dar, die berechnet werden müssen.
Bei voller Aufmerksamkeit müssen wir jede Beziehung innerhalb der Eingabesequenz berechnen.
Jetzt sehen wir, was passiert, wenn wir einen blockweisen Encoder haben, der die Token-Konnektivität einschränkt, so dass sie nur andere Token in der Nähe sehen können.
Der Text wird in Blöcken gelesen, was die Anzahl der Berechnungen auf der Codiererseite drastisch reduzieren kann, aber nicht die Queraufmerksamkeit des Decodierers verbessert, da jedes Eingangstoken ohnehin an den Decodierer übergeben wird.
Dieses Verfahren wird im Decoder 10 häufig als Fusion bezeichnet.
Die Verbesserung kann hier so interpretiert werden, dass eine der Abhängigkeiten von n in eine andere Konstante m geändert wird, die die Blockgröße darstellt.
Unsere wichtigste Beobachtung ist, dass die meisten Token für eine Vielzahl von Aufgaben irrelevant sind und fast vollständig ignoriert werden können. Dies ist beispielhaft auf der Folie dargestellt.
Nur Teile der Eingänge sind für den gewünschten Ausgang relevant.
Zum Beispiel.
Man kann einen Artikel lesen, der einmal die wichtigsten Teile mit einem Textmarker markiert, und dann eine Zusammenfassung auf der Grundlage dieses Teils nur von der mittleren Stufe aus erstellen.
Die Kosten für das Hervorheben und Entscheiden, ob das aktuelle Token für die Erstellung der Zusammenfassung unerlässlich ist, sind daher günstig und hängen nur von der Darstellung des Tokens ab.
Das Poolen der hervorgehobenen Token ist möglich.
Dank unserer Top k Betreiber und seine Kosten sind vernachlässigbar.
Die Kosten für die Erstellung einer Zusammenfassung aus einem verkürzten Input sind auch viel geringer als beim Vanille-Modell, wenn der gesamte Input berücksichtigt wird.
Aber hier ist eine Frage.
Wie wählt man wichtige Token und Backpropagate-Gradienten für diese Auswahl aus?
Das wesentliche zugrunde liegende Problem, das wir lösen, besteht darin, den trainierbaren Auswahlmechanismus vorzuschlagen.
Eine, die es ermöglichen kann, dass sich der Gradient während des Trainings wieder ausbreitet, so dass das Netzwerk lernen kann, die wichtigsten Token auszuwählen.
Genauer gesagt
Bei einigen Einbettungsunterstrichen, die aus einer einfachen linearen Schicht erhalten werden, besteht die Aufgabe darin, die Einbettungen mit der höchsten Punktzahl zurückzugeben. Zuerst wird die Sequenz permutiert und Paare so präpariert, dass der höhere Bewertungsvektor mit dem niedrigeren Bewertungsvektor genommen wird.
Als nächstes werden die Gewichte mit Hilfe von verstärktem Softmax über die Punktzahlen berechnet.
Nach jeder Turnierrunde werden neue Vektoren und Punkte als Linearkombination dieser Paare mit den erhaltenen Gewichten zusammengestellt.
Kurz gesagt, wir kombinieren sie linear, indem wir über ihre Punktzahlen ein Softmax durchführen.
Und während zwei Token kombiniert werden, kann etwas Lärm erzeugt werden.
Aber es erlaubt auch, die Gradienten zu allen Eingabeeinbettungen zu propagieren.
Kurz gesagt, ein trainierbares Top k, das wir vorschlagen, basiert auf der Durchführung eines Turniers wie einer weichen Auswahl bei jedem Schritt.
Und aus einer anderen Perspektive folgt die Repräsentationsbündelung der Encoderschicht.
Zuerst wird jede Darstellung bewertet und dann werden nur die mit den höchsten Bewertungen an die nächste Ebene übergeben.
Die Codierung kann wie in der Standardtransformatorarchitektur am Volllängeneingang durchgeführt werden.
Es ist jedoch möglich, Text in Blöcken fester Länge fester Länge zu verarbeiten und global die beste Darstellung auszuwählen.
Hier ist ein Beispiel für das nach dem Encoder eingeführte Repräsentationspooling.
Dies beeinflusste direkt die Ursache der Queraufmerksamkeit, die nicht von der Eingangslänge N abhängt, sondern von der Konstanten K, die die gepoolte Länge darstellt.
Diese Konstante gibt an, wie viele Darstellungen ausgewählt und an den Decoder übergeben werden.
Die Erstellung einer Zusammenfassung aus einem kürzeren Text ist deutlich günstiger als die bisherige Lösung.
Da die Sequenzlänge um einen großen Faktor verkürzt werden kann.
Zum Beispiel haben wir k von sechzehn oder sogar sechzig mal vier oder sogar sechzig viermal kleiner als der Wert von n in unseren Experimenten erfolgreich verwendet.
Bitte beachten Sie, dass die positiven Auswirkungen der blockweisen Codierung und der Selbstaufmerksamkeit aufrechterhalten werden.
Denken Sie daran, dass die Rechenkosten der Aufmerksamkeit vom Quadrat der Eingangslänge abhängen.
Durch eine Verringerung der Eingabe früher während des Codiervorgangs können die Kosten erheblich gesenkt werden.
Für das Pyramidion-Modell haben wir die Größe der Darstellung auf der Ausgabe jeder der ausgewählten Schichten eingegrenzt, was zu einer exponentiellen Reduzierung der Rechenkosten im Laufe der Codierung führt.
Wie Sie sehen können, sind die gesamten Rechenkosten eines vollen Encoders hier weniger als doppelt so hoch wie die Kosten der ersten Schicht in voller Größe.
Bei einer früheren Einführung des Pooling wird also die Summe aller violetten Quadrate auf eine Konstante begrenzt, die nicht von der Anzahl der Schichten l abhängt.
Aber auf die Konstante c, die durch die Platzierung der Pooling-Schichten innerhalb des Netzwerks beeinflusst werden kann.
Unsere Verbesserungen wurden mit achttausend Token langen Inputs verglichen.
Und die Abbildung zeigt, dass, wenn Pooling aktiviert ist, die beste Skalierbarkeit für die Tiefe des Netzwerks erreicht wird.
Hier kann man feststellen, dass das Training des Pyramidions von vierundzwanzig Schichten billiger sein kann als das Training eines zweischichtigen Vanille-Transformators auf so langen Eingängen.
Ganz zu schweigen davon, wie leicht der Vanille-Transformator für einen so langen Eingang aus dem Speicher geraten kann.
Der qualitative Qualitätsvergleich unseres Trendpyramidions mit einer anderen Baseline wird bei der Aufgabe zur Zusammenfassung langer Dokumente durchgeführt, oder angesichts des Körpers eines Artikels von arXiv oder PubMed besteht die Aufgabe darin, seine Zusammenfassung zu generieren.
So kann man blockweise sehen, was unsere Basislinie ist, die Leistung auf dem Niveau der neuesten Modelle, während das Pyramidion die Leistung dieser wettbewerbsfähigen Basislinie beibehält oder verbessert.
Gleichzeitig ist unser Modell achtzig Prozent schneller zu trainieren und mehr als vierhundertfünfzig Prozent schneller bei Schlussfolgerungen im Vergleich zur blockweisen Baseline.
Beide Modelle haben viel niedrigere Parameterzahlen und wurden für die gewählten Aufgaben von Grund auf neu trainiert.
Frühere Ansätze, um eine ähnliche Leistung zu erzielen, mussten mehr Parameter verwenden und vortrainierte Grundlagenmodelle und zusätzliche Sprachvorausbildungsziele nutzen, um eine ähnliche Leistung zu erzielen.
Wir laden Sie ein, unser vollständiges Papier zu lesen und unseren GitHub-Code zu verwenden.
Danke fürs Zuschauen.
Hallo, hier ist Jiawei Zhou von der Harvard University.
Ich freue mich sehr, unsere Arbeit an Online Semantic Parsing for Latency Reduction in Task-Oriented Dialogue vorstellen zu können.
Dies ist eine gemeinsame Arbeit mit Jason, Michael, Anthony und Sam von Microsoft Semantic Machines.
Im aufgabenorientierten Dialog interagiert ein Benutzer mit dem System, das Anfragen von Benutzeräußerungen in der Regel im Sprechen bearbeitet.
Vom Ende der Äußerung des Benutzers bis zur Reaktion des Systems kommt es oft zu einer spürbaren Verzögerung.
Unter der Haube wird die Benutzeräußerung in ein ausführbares Programm übersetzt.
Diese wird dann ausgeführt, damit das System richtig reagieren kann.
Da das Programm als semantischer Graph dargestellt wird, der die Berechnung umreißt, wobei Knoten einen Funktionsaufruf darstellt und seine Kinder die Argumente sind.
Die großen Knoten markieren momentane Operationen, aber die anderen sind langsam auszuführen.
Das einfache Beispiel, das wir hier zeigen, diese Programme können oft kompliziertere Graphen jenseits der Baumstrukturen sein.
In diesem Vortrag stellen wir die Frage: Können wir damit beginnen, das Programm zu generieren und auszuführen, bevor der Benutzer überhaupt die Äußerung beendet hat, damit die schnellere Antwort vom System erreicht werden kann?
Dies ist das Online-Prognose- und Entscheidungsproblem.
Es gibt viele andere in diesem Reich.
Beispiele hierfür sind Simultanübersetzungen, bei denen ein Live-Dolmetscher eine Sprache in eine andere Sprache in Echtzeit übersetzt, die automatische Vervollständigung von intelligenten Texten, um die Absicht des Benutzers zu erraten, und der Uber Pool, in den die Fahrer geschickt werden, um sie basierend auf der prognostizierten Nachfrage dorthin zu schicken, wo sie möglicherweise benötigt werden.
All diese Szenarien haben eines gemeinsam.
Das heißt, es ist vorteilhaft, Entscheidungen zu treffen, bevor man den gesamten Input sieht.
In unserem Fall werden wir uns mit dem semantischen Online-Parsing befassen, das eine Herausforderung darstellen könnte, da wir erraten müssen, was der Benutzer sagen könnte.
Und es ist auch ohne formale Bewertungsmetrik untererforscht.
Schauen wir uns zunächst an, wie ein gewöhnliches System funktioniert.
Es arbeitet offline, indem es nur am Ende der Äußerung des Benutzers mit dem Programm geparst wird.
Hier wird das Zeichendiagramm vorhergesagt, nachdem alle Informationen gesehen wurden.
Im Gegensatz dazu schlagen wir ein Online-System vor, das bei jeder Äußerung vergleicht.
Jedes Mal, wenn wir beispielsweise ein neues Token sehen, prognostizieren wir ein neues Diagramm.
Beachten Sie, dass Fehler auftreten können.
Auf der Poolparty mit Barack Obama bekamen wir einen Graphen mit den richtigen Knoten über die Person und das Eventthema, aber erraten Sie die falschen Timing-Informationen.
Dieser Prozess läuft so lange, bis wir die vollständige Äußerung des Benutzers erhalten.
Wie würde sich dies auf die Ausführungszeitleiste im Offline-System auswirken?
Am Ende erhalten wir den Programmgraphen, damit das System an dieser Stelle mit der Ausführung beginnen kann.
Denken Sie daran, dass die großen Knoten schnelle Operationen sind, so dass wir nur die Ausführungszeitachse der farbigen langsamen Funktionen berücksichtigen.
Erstens können diese beiden Personensuchfunktionen parallel ausgeführt werden, weiß hinterlegt aus dem rosa Kästchen, da sie keine Abhängigkeit von anderen Funktionen haben.
Als nächstes kann das Knotenerstellungsereignis ausgeführt werden, nachdem Ergebnisse von Knoten niedrigerer Ebene erhalten wurden, und dann ergibt die oberste Funktion, so dass das gesamte Programm beendet ist.
Der Ausführungsprozess ist streng und beschränkt sich auf die Programmabhängigkeitsstruktur, bei der einige Operationen nicht parallelisiert werden können, was zu einer spürbaren Verzögerung führt.
In unserem Online-System, wo wir im Laufe der Zeit vorhersagen, kann die Programmausführung früher beginnen.
Hier, beim Präfix nach Obama, sagen wir zuversichtlich voraus, dass die Person finden-Funktion im Programm sein sollte, aber der Rest kann Fehler enthalten, da sie ausgegraut sind.
Die Ausführung des Knotens kann sofort als Schritt gestartet werden.
Dann, mit mehr Token, prognostizieren wir einen völlig neuen Graphen, aber ein Teil davon wird bereits ausgeführt.
Also müssen wir nur den Rest der Knoten betrachten, von denen wir auch zuversichtlich sind.
Hier kann parallel eine weitere Findperson ausgeführt werden.
Auch hier könnten wir falsche Vorhersagen haben.
Mit mehr Text haben wir mehr Möglichkeiten, es richtig zu machen.
Zum Beispiel die Ereigniszeit hier, bei der AM auch richtig erwartet wird.
Dann können wir den Rest entsprechend der Programmabhängigkeitsstruktur ausführen.
Indem wir die Ausführungszeitachse mit der Äußerungszeitachse überlappen, sparen wir eine große Menge an Zeit.
Also schlugen wir die Aufgabe des semantischen Online-Parsings vor.
Eine zugrunde liegende Annahme ist, dass die Ausführungszeit die Modellvorhersagezeit dominiert.
Also konnten wir nur Zeit gewinnen, indem wir früher voraussagten.
Eine weitere Annahme ist, dass, wenn die Vorhersage und Ausführung im Hintergrund erfolgt, sie für Benutzer nicht sichtbar ist.
Es ist nicht notwendig, eine konsistente Parsing-Historie zu pflegen.
Also reparieren wir von Grund auf nach jedem Token.
Insbesondere schlagen wir einen zweistufigen Ansatz vor.
Ein vorgeschlagener Schritt, der einen Graphen mit vollständiger Struktur vorhersagt, und ein Auswahlschritt, der die Knoten auswählt, die es wert sind, zu diesem Zeitpunkt ausgeführt zu werden.
Wir hatten zwei Varianten der vorgeschlagenen Methode.
Der erste Ansatz kombiniert eine Sprachmodellvervollständigung mit vollständiger Äußerung zur Graphenanalyse.
Insbesondere wird das Präfix nach Obama zuerst durch ein fein abgestimmtes BART-SPRACHMODELL vervollständigt und dann in ein Programm mit vollem Offline-Parser übersetzt.
Der zweite Ansatz prognostiziert das Programm direkt aus Benutzeräußerungspräfixen.
Dies wird erreicht, indem ein einzelner Online-Parser trainiert wird, um aus jedem Präfix in das Zieldiagramm zu übersetzen.
Dies erleichtert dem Modell, die richtige Erwartung zu lernen.
Wie können wir diese Grafiken etwas detaillierter erstellen?
Wir formulieren das Problem, indem wir eine serielle Version des Graphen generieren.
Jeder Knoten oder jede Kante wird durch eine Aktion dargestellt.
Hier beginnen wir mit dem ersten Knoten.
Die folgende Zahl zeichnet den absoluten Index in der Aktionshistorie auf.
Dann haben wir den zweiten Knoten.
Als nächstes ist der Rand zwischen ihnen.
Es enthält den Zeiger auf den Index des vorherigen Knotens und das Edge-Label.
Null bedeutet hier, den letzten Knoten mit dem Knoten zu verbinden, der durch die nullte Aktion und die nächste Kante des nächsten Knotens erzeugt wird.
Dieser Prozess geht weiter, bis wir den vollständigen Graphen generieren.
Das zugrundeliegende Modell basiert auf einem Transformator mit Selbstausrichtungsmechanismus, ähnlich wie ein früherer auf Transition basierender Parser.
Nach der Erstellung eines vollständigen Diagramms haben wir die Wahrscheinlichkeiten der Aktionsebene erhalten, die verschiedenen Teilen des Diagramms entsprechen.
Wir wählen Konfidenz-Subgraphen basierend auf der auszuführenden Schwellwertheuristik aus.
Später werden wir den Schwellenwert variieren, um unterschiedliche Kompromisse zwischen der Latenzreduzierung und den Ausführungskosten zu erzielen.
Zur formalen Bewertung der Online-Methoden schlagen wir eine endgültige Latenzreduktion oder FLR-Metrik vor.
Hier ist eine Zusammenfassung, wie ein Offline-System die Ausführungszeitachse beendet.
In Online-Systemen überschneidet sich die Ausführung mit der Äußerungszeitachse, sodass sie früher endet.
FLR ist definiert als die Reduktionszeit im Vergleich zum Offline-System, die durch das Ende der Ausführung markiert ist.
Wir führen Experimente an zwei großen konversationssemantischen Parsing-Datensätzen durch, SMCalFlow und TreeDST.
Unser graphenbasierter Parser erreicht beim Offline-Betrieb die modernste Leistung beim Parsen beider Datensätze.
Das vollständige LM-Modell erzielt auch einen nicht trivialen Bleu-Gewinn im Vergleich zur einfachen Baseline der Knotenvervollständigung.
Schauen wir uns nun die Vorhersagegenauigkeit unseres Präfixes für den Graphenparser an.
Wir testen die Übereinstimmung F1-Bewertung von Diagrammtupeln zwischen der Generierung und dem Go-Diagramm in den Validierungsdaten in der y-Achse für jede Präfixlänge in der x-Achse, die durch Prozentsätze dargestellt wird.
Jede dieser Kurven stellt ein anderes Modell mit dem einzigen Unterschied in den Trainingsdaten dar.
Die untere Kurve ist der Offline-Parser, und wir mischen Präfixdaten in verschiedenen Längen ein, um das Modell auf einen Online-Parser zu übertragen.
Beispielsweise bedeutet das Legendenpräfix achtzig Prozent plus, dass das Modell mit Präfixdaten trainiert wird, deren Präfixlänge größer als achtzig Prozent der vollen Äußerungslänge ist.
Die obere linke Ecke ist der gewünschte Bereich.
Wie wir sehen können, funktioniert der Offline-Parser in der schwarzen Kurve auf den Präfixdaten nicht gut.
Da wir im Training mehr Präfixe mischen, hebt sich die Kurve nach oben und links und schneidet bei allen Präfixlängen besser ab.
Die volle Äußerungsanalyseleistung wird jedoch im oberen rechten Punkt nicht beeinträchtigt.
Basierend auf diesen starken Ergebnissen, wie viel Latenz reduzieren wir?
Wir messen die Zeit anhand der Anzahl der Quell-Token und simulieren verschiedene Funktionsausführungszeiten.
Die Kurven zeigen den Kompromiss zwischen der FLR-Metrik und den Ausführungskosten, gemessen an der Anzahl der übermäßigen Funktionskosten, die nicht korrekt sind.
Dies wird durch Variation der Teilgraphenauswahlschwelle erreicht.
Eine höhere Schwelle wählt weniger Fehlfunktionen aus, erhält aber eine kleinere FLR, während die niedrigere Schwelle aggressiver Programme auswählt und ausführt.
Wir vergleichen die beiden von uns vorgeschlagenen Ansätze und eine Baseline, die nichts anderes tut, als den Offline-Parser direkt für die Online-Nutzung anzuwenden.
Die obere linke Region hat den besten FLR- und Kostenausgleich.
Wir sehen, dass unsere beiden Methoden die Baseline mit einem großen Vorsprung übertreffen und sie bei TreeDST ähnlicher abschneiden.
Während die Ausführung einzelner Funktionen schneller ist, gibt es tendenziell mehr Ausführungsvorgänge und einen geringeren Latenzverringerungsraum.
Wenn die Ausführung einzelner Funktionen langsamer ist, gibt es mehr Raum für FLR-Verbesserungen.
Unsere beiden Ansätze erreichen eine bessere Leistung in verschiedenen Kosten-Kosten-Regionen.
Insgesamt erreichen wir je nach Ausführungszeit und zulässigen Kosten eine Reduzierung der relativen Latenz um dreiunddreißig bis sechzig Prozent.
Schließlich haben wir eine Aufschlüsselung der durchschnittlichen Latenzreduktion in Token für jeden Typ des Funktionsknotens, wenn die zulässigen Kosten drei Ausführungsvorgänge sind.
Wie wir sehen können, gibt es überall Gewinne.
Es gibt auch einige Funktionen, bei denen wir eine beeindruckende Latenzreduzierung erzielen, bei denen der rote Balken viel länger ist, wie z. B. Find Manager und Empfänger.
Dies sind Low-Level-Funktionen, die keine große Abhängigkeit von anderen haben.
Abschließend schlugen wir das semantische Online-Parsing als neue Aufgabe vor, die wir mit der strengen Latenzreduktionsmetrik untersuchen sollten.
Mit einem starken graphenbasierten semantischen Parser erreichen wir eine relativ gute Latenzreduktion entweder durch unseren Pipeline-Ansatz mit LM-Abschluss und einem vollständigen Parser oder direkt durch einen erlernten Parser auf den Präfixen.
Darüber hinaus kann unser Ansatz ein allgemeiner Rahmen sein und auf andere ausführbare semantische Darstellungen in verschiedenen Domänen angewendet werden.
Zukünftige Arbeiten könnten intelligentere Vorhersage- und Ausführungsintegrationsmethoden erforschen.
Danke fürs Zuhören.
Hi.
Ich werde unsere Arbeit zur Generierung von abruferweiterten Kontrafakten für Fragen beantwortende Aufgaben besprechen.
Dies ist die Arbeit, die ich während meines Praktikums bei Google Research gemacht habe, wo ich von Matthew Lamm und Ian Tenney betreut wurde.
Um die Aufgabe zu motivieren, möchte ich mit der Definition eines kontrafaktischen Ansatzes beginnen.
In dieser Arbeit definieren wir ein kontrafaktisches Element als Störung des eingegebenen Textes, die sich in irgendeiner bedeutungsvollen kontrollierten Weise vom ursprünglichen Text unterscheidet.
Und ermöglicht es uns, über die Änderungen im Ergebnis oder der Aufgabenbezeichnung nachzudenken.
Zum Beispiel ändert die Änderung der Worte faszinierend oder gedankenbetäubend die Stimmung für diese Filmkritik.
In ähnlicher Weise ändert das Hinzufügen der qualifizierten Frauen zur Frage die Antwort auf die Frage im folgenden Beispiel.
Menschen sind typischerweise robust gegenüber solchen Störungen im Vergleich zu NLP-Modellen, die auf die Aufgabe trainiert wurden.
Warum ist das so?
Der Datensatz kann mit systematischen Verzerrungen abgetastet werden, die zu einer einfachen Entscheidungsgrenze führen, die durch das kontrafaktische verletzt wird.
Wie in diesem 2D-Klassifizierungsproblem gezeigt.
Meine Arbeit hat herausgefunden, dass das Hinzufügen von kontrafaktischen Beispielen zu den Trainingsdaten das Modell robust gegenüber solchen Störungen machen kann.
Wenn also kontrafaktische Faktoren wertvoll sind, wie können wir sie erzeugen?
Diese Aufgabe ist für NLP besonders schwierig, da hier drei Beispiele aus drei verschiedenen NLP-Aufgaben aufgeführt sind.
Wie Sie sehen können, müssen Beispiele, die die Entscheidungsgrenze zwischen den Ergebnissen verletzen, sehr sorgfältig erstellt werden, indem einige Attribute des Textes, die hier unterstrichen werden, gestört werden.
Dies könnte durch menschliche Anmerkungen geschehen, aber dies ist teuer und voreingenommen.
Einige frühere Arbeiten konzentrierten sich auf die Verwendung von Syntaxbäumen oder semantischen Rollenbeschriftungen.
Aber die Reihe von Störungen, die durch diese Techniken erzeugt werden, sind durch den semantischen Rahmen begrenzt.
Neuere Arbeiten haben maskierte Sprachmodelle verwendet, um maskierte Teile des Textes auszufüllen, um Beschriftungen zu ändern.
Aber herauszufinden, welche Teile des Textes gestört werden sollen, kann eine Herausforderung sein.
Es gibt mehr Herausforderungen bei der Generierung von Kontrafakten für die gezielte Beantwortung von Fragen.
Diese Aufgabe erfordert Hintergrundwissen.
Zum Beispiel, um die ursprüngliche Frage zu stören, ist Indiana Jones Temple of Doom ein Prequel?
Wir müssen uns der anderen Filme im Franchise bewusst sein, um zu einer Frage zu kommen, wie ist Indiana Jones Raiders of the Lost Ark ein Prequel?
Darüber hinaus können zufällige Störungen zu Fragen führen, die mit den verfügbaren Beweisen nicht beantwortet werden können oder falsche Prämissen haben.
Darüber hinaus können einige Fragenstörungen zu erheblichen semantischen Abweichungen vom ursprünglichen Input führen.
Zum Beispiel praktiziert Indiana Jones Kindersklaverei im Temple of Doom?
Wir schlagen eine sehr einfache, aber effektive Technik namens Retrieve Generate Filter oder RGF vor, um kontrafaktische Störungen von Fragen anzugehen, und zielen auch darauf ab, alle anderen oben genannten Herausforderungen anzugehen.
Die Kernintuition hinter RGF ist, dass die notwendigen Hintergrundinformationen, die erforderlich sind, um Störungen zu erzeugen, in den Beinahe-Unfällen vorhanden sein können, die durch ein Frage-Antwort-Modell gemacht werden.
Zum Beispiel liefert DAS hochmoderne Modellreich die folgenden Top-k-Antworten auf die Frage, wer der Kapitän des Richmond Football Club ist?
Während er die ursprüngliche Referenzpassage wiederherstellt und Trent Cotchin als die erste Wahl ansieht.
Es werden auch zusätzliche Passagen und Antworten abgerufen, die verwendet werden können, um Fragen zu stören.
Zum Beispiel werden zwei weitere Antworten zurückgewonnen, die den Kapitänen der Reservemannschaft und der Frauenmannschaft des gleichen Vereins entsprechen, und dies kann zu interessanten Änderungen führen.
Zusammenfassend ruft RGF zunächst die wichtigsten k relevantesten Antworten und Kontexte ab, die im Kontext nicht mit der Referenzantwort übereinstimmen.
Im Anschluss an diesen Schritt setzt das Fragegenerierungsmodell diese alternativen Antworten voraus, um eine Frage zu generieren, die ihnen entspricht.
Und schließlich können wir die generierten Fragen nach Minimalität oder nach der Art der semantischen Störung filtern, die wir einführen möchten.
Wenn wir jeden Schritt genauer durchgehen, verwenden wir einen Abruf und dann ein Modell wie ein REALM, das die ursprüngliche Frage als Eingabe nimmt, und einen großen Korpus wie Wikipedia.
Es besteht aus zwei Modulen.
Das Abrufmodul führt eine Ähnlichkeitssuche über einen dichten Index von Passagen durch, um die k wichtigsten Passagen der Frage abzurufen.
Und ein Lesemodul extrahiert dann aus jeder Passage eine Spanne als potentielle Antwort.
REALM holt sich die Goldpassage und antwortet in den meisten Fällen.
In dieser Arbeit sind wir jedoch mehr an den Antworten und dem Kontext interessiert, den sie weiter unten abruft.
Im nächsten Schritt, der Fragengenerierung, verwenden wir diese alternativen Antworten und Kontexte, um neue Fragen zu generieren, die diesen Alternativen entsprechen.
Das Fragegenerierungsmodell ist ein vorab trainierter Text-zu-Text-Transformator, der auf die NQ-Daten abgestimmt ist, um eine Frage für eine Antwort zu generieren, die im Kontext markiert ist.
Während der Schlussfolgerung liefern wir das Fragengenerierungsmodell, die alternative Antwort und den Kontext, die wir im vorherigen Schritt abgerufen haben.
Wer ist zum Beispiel der Kapitän des Richmond Football Clubs? REALM holt sich Passagen über die Frauenmannschaft des Clubs, die von Jess Kennedy angeführt wird, und das Fragegenerationsmodell generiert die Frage, wer die erste Frauenmannschaft des Richmond Football Clubs angeführt hat?
Was eine spezifische semantische Störung hat.
In ähnlicher Weise erhalten wir auch Anfragen wie wer Richmonds VfL-Reserve-Team KOMMANDIERT hat?
Oder wer hat Graham letztes Jahr im großen Finale negiert?
Schließlich filtern wir eine Teilmenge der generierten Abfragen basierend auf einigen gewünschten Eigenschaften aus.
Wie zuvor motiviert, möchten wir sicherstellen, dass die neue Frage noch semantisch nahe am Original ist.
Für Filtertechniken, die keiner zusätzlichen Überwachung bedürfen, behalten wir einfach neue Fragen bei, die einen kleinen Bearbeitungsabstand des Tokens von der ursprünglichen Frage haben.
Zum Beispiel entfernen wir die Frage, wer Graham letztes Jahr im großen Finale negiert hat?
Weil es einen längeren Bearbeitungsabstand von der ursprünglichen Frage hat.
In unseren Experimenten zeigen wir, dass diese einfache Heuristik verwendet werden kann, um Trainingsdaten zu erweitern und in die Warteschlange zu stellen.
Wir experimentieren auch mit einer Filterstrategie, die auf der Art der semantischen Störung basiert.
Zu diesem Zweck verwenden wir ein allgemeines Abfragezerlegungs-Framework namens QED.
QED identifiziert zwei Teile der Frage, ein Prädikat und eine Referenz.
Referenzen sind Substantive in der Frage, die Entitäten im Kontext entsprechen.
Ein Prädikat ist im Grunde der verbleibende Teil der Frage.
Zum Beispiel sind wir in der Lage, die Abfrage, die Richmonds erstes Frauenteam überhaupt in zwei Referenzen zerlegt: Richmond Football Club Frauenteam und das Prädikat, die Kapitän X.
Ein Modell, das auf Referenz-Prädikat-Anmerkungen für NQ trainiert wurde, gibt uns diese Fragenzerlegung.
Die Zerlegung sowohl der ursprünglichen als auch der generierten Frage auf der Grundlage der QED ermöglicht es uns, unsere generierten Kontrafakten zur Bewertung zu kategorisieren.
Konkret erhalten wir zwei Gruppen von Fragen.
Diejenigen, die sich einer Referenzänderung unter Beibehaltung von Prädikaten unterziehen, und diejenigen, die sich einer Prädikatsänderung unterziehen und optional Referenzen hinzufügen.
Zum Beispiel, wer Kapitän Richmond's VFL Reserve-Team ist eine Referenzänderung?
Während, wer trägt Nummer neun für den Verein ist eine vortreffliche Änderung.
Wir bewerten nun die Wirksamkeit von RGF-Störungen, wenn sie um Trainingsdaten erweitert werden.
Um insbesondere die Wirksamkeit kontrafaktischer Erweiterungen effektiv zu bewerten, experimentieren wir mit zwei starken Datenvergrößerungs-Baselines.
Die erste Baseline, die als Zufallsgenerierung von Antworten und Fragen bezeichnet wird, fügt Daten hinzu, die keinen Bezug zur ursprünglichen Frage haben.
Das heißt, Passagen und Antworten werden einfach zufällig von Wikipedia abgetastet.
Diese Baseline fügt im Grunde mehr Daten hinzu, die wie NQ aussehen.
Mit der zweiten Gold-Antwort- und Fragengenerierung aktualisieren wir speziell den Wiederauffindungsteil unserer Methode.
Hier werden alternative Antworten nur aus der gleichen Passage ausgewählt, die auch die goldene Antwort enthielt.
Wie basieren die Baselines und die RGF ah-Erhöhung auf dem Leseverständnis, bei dem das Modell Zugriff auf Fragen und Kontext hat?
Wir experimentieren mit sechs Out-of-Domain-Datensätzen und präsentieren hier die Ergebnisse, wobei die Trainingsdaten in der Augmentation verdoppelt werden.
Wir stellen fest, dass beide Datenerweiterungs-Baselines nicht in der Lage sind, unsere Domänenallgemeinerung zu verbessern.
Tatsächlich scheint ein Ensemble von sechs Modellen, die mit den Originaldaten trainiert wurden, die wettbewerbsfähigste Ausgangsbasis zu sein.
Im Vergleich zu dieser Baseline stellen wir fest, dass RGF-Gegenfaktoren in der Lage sind, die Leistung außerhalb der Domäne zu verbessern, während die Leistung innerhalb der Domäne beibehalten wird.
Dies deutet darauf hin, dass das Ausfüllen der Argumentationslücken des Modells durch kontrafaktische Augmentation effektiver ist als das Hinzufügen von mehr Daten aus der Trainingsverteilung.
Darüber hinaus finden wir, dass die Verwendung von Retrieval, um alternative Ergebnisse oder Antworten zu beproben, für eine effektive CDA wichtig ist.
Wir experimentieren auch mit der Open-Domain-QS-Einstellung, bei der das Modell nur die Frage sieht, und wiederum bewerten wir anhand von vier Out-of-Domain-Datensätzen.
Wir stellen fest, dass Basismodelle für die Verallgemeinerung außerhalb der Domäne nicht so effektiv sind.
Die Datenerweiterung mit RGF zeigt jedoch signifikantere Verbesserungen.
Wir verbessern sogar den In-Domain-NQ-Datensatz.
Wir haben angenommen, dass die kontrafaktische Datenerweiterung dem Modell hilft, bessere Abfragekodierungen für sehr ähnliche Abfragen zu lernen.
Schließlich bewerten wir auch die Fähigkeit des Modells, die Konsistenz in der lokalen Nachbarschaft der ursprünglichen Frage zu verbessern.
Konsistenz misst den Anteil der vom Modell korrekt beantworteten Fragen, bei denen sowohl die ursprüngliche als auch die kontrafaktische Abfrage korrekt beantwortet werden.
Dies hilft uns explizit, die Robustheit des Modells gegenüber kleinen Störungen in der Nähe des ursprünglichen Inputs zu messen.
Wir experimentieren mit fünf Datensätzen, die Paare von Fragen enthalten, die semantisch nahe beieinander liegen.
Abgesehen von den drei Datensätzen AQA, AmbigQA und QUOREF-Contrast, die bereits verfügbar sind, bewerten wir auch RGF-Gegenfaktoren, die mit ursprünglichen NQ-Fragen gepaart sind, basierend darauf, ob sie eine Prädikatsänderung oder eine Referenzänderung durchlaufen haben.
Diese Teilmengen wurden intern kommentiert, um Geräusche zu eliminieren, und werden als Ressource bereitgestellt.
Alle Baselines sind nicht in der Lage, die Konsistenz signifikant zu verbessern, da das Ensemble-Modell die Konsistenz um einen kleinen Abstand verbessert.
Die kontrafaktische RGF-Augmentation hat jedoch beeindruckende Konsistenzgewinne sowohl bei früheren Datensätzen als auch bei den beiden Teilmengen, die wir für Referenz- und Prädikatsstörungen kuratiert haben.
Beachten Sie, dass die erweiterten RGF-Daten nicht durch den Störungstyp verfälscht werden, sondern nur durch die Bewertungssätze.
Tatsächlich zeigt eine qualitative Überprüfung der generierten Arten von Kontrafakten, dass die generierten Fragen mehrere verschiedene Störungen enthalten.
Zum Beispiel ist diese ursprüngliche Frage über die Bevölkerung von Walnut Grove, Minnesota entlang verschiedener Dimensionen wie Stadt, Staat, Land und entlang verschiedener Prädikate wie Lage, Armut, Anzahl der Schulen gestört.
Das Audio von Störungen ist kontextspezifisch.
Zum Beispiel, für diese andere Frage über das Wimbledon ah Singles Turnier, ist die Störung entlang Art des Spiels, Art des Turniers, oder das Spielergebnis.
Abschließende Erkenntnisse: Wir befassen uns mit der Aufgabe der kontrafaktischen Datenerweiterung und -störungen für Informationsabfragen und bewältigen ihre einzigartigen Herausforderungen durch eine Umkehrung des Erzeugungsansatzes, über die Erzeugung unter Verwendung von Beinaheunfällen des Modells und Filter basierend auf der Art der Störung oder der Minimalität.
Wir stellen fest, dass diese Technik keiner zusätzlichen Überwachung bedarf und die Beispiele zur Vergrößerung beschriftet sind.
Die Vergrößerung verbessert sich außerhalb der Domänenverallgemeinerung und der Konsistenz in der Nachbarschaft.
Und wir stellen fest, dass RGF-Gegenfaktoren semantisch vielfältig sind, ohne Bias während der Augmentation einzuführen.
Vielen Dank.
