Answer to Question 1-1
Word Embeddings, wie word2vec, berücksichtigen den Kontext, indem sie auf der Annahme basieren, dass Wörter, die in ähnlichen Kontexten vorkommen, ähnliche Bedeutungen haben. Das word2vec-Modell wird trainiert, indem es das aktuelle Wort aus dem Kontext der umliegenden Wörter vorhersagt oder umgekehrt. Es lernt dabei Vektorrepräsentationen für Wörter, die ähnlich sind in der Hinsicht, dass Wörter mit ähnlichen Kontexten nahe beieinander im Vektorraum liegen.

Term Frequency-Inverse Document Frequency (TF-IDF) berücksichtigt den Kontext in einer anderen Weise. Bei TF-IDF wird betrachtet, wie oft ein Wort in einem Dokument im Vergleich zu seiner Häufigkeit in einem Korpus von Dokumenten vorkommt. Die „Term Frequency“ mißt die Häufigkeit eines Wortes in einem einzelnen Dokument. Die „Inverse Document Frequency“ skaliert diese Häufigkeit basierend darauf, wie oft das Wort im gesamten Dokumentenkorpus vorkommt, wobei Wörter, die häufiger vorkommen, niedriger gewichtet werden. So werden Wörter, die in wenigen Dokumenten häufig vorkommen, als wichtiger angesehen.

Der Hauptunterschied zwischen den beiden Ansätzen besteht darin, dass Word Embeddings den semantischen Kontext von Worten in einem dichten, kontinuierlichen Vektorraum einfangen, während TF-IDF einen vektorbasierten Ansatz mit sparsen Vektoren verwendet, der die Wichtigkeit von Worten auf Basis ihrer Verteilung über einen Korpus erfasst und nicht direkt die semantische Nähe zwischen Wörtern betrachtet.





****************************************************************************************
****************************************************************************************




Answer to Question 1-2
Um den Satz "I love NLP a lot" mit dem gegebenen Byte-Pair-Encoding (BPE) zu segmentieren, müssen wir zuerst den Satz in einzelne Buchstaben segmentieren und dann die BPE-Codes anwenden, um mehrere Buchstaben schrittweise zu größeren Teilwörtern zu kombinieren. Wir nehmen an, dass alle Buchstaben des Alphabets und die zusätzlichen Codes "la", "le", "li", "lo" in der BPE-Codetabelle enthalten sind. Hier ist die Schritt-für-Schritt-Segmentierung:

1. Ursprüngliche Zeichenkette: "I love NLP a lot"
2. Anfangssegmentierung: "I l o v e N L P a l o t"
3. Anwendung der BPE-Codes:
   - Kombinieren von "l" und "o" zu "lo" (da "lo" in den BPE-Codes enthalten ist)
   - Kombinieren von "l" und "a" zu "la" (da "la" in den BPE-Codes enthalten ist)

Segmentierte Zeichenkette: "I lo ve N L P a la t"

Anmerkung: In diesem Fall gab die BPE-Codes nicht spezifisch an, wie Buchstaben wie "N", "L", "P" usw. zu kombinieren sind oder zu größeren Teilwörtern beitragen könnten. Daher bleiben sie in dieser Segmentierung als einzelne Zeichen stehen. Wenn die BPE-Codes detailliertere Vorschriften enthalten würden, könnten wir die Segmentierung entsprechend anpassen.





****************************************************************************************
****************************************************************************************




Answer to Question 1-3
a: Die Ausgabeprojektion eines Skip-Gram-Modells mit einem Vokabular von 10.000 Wörtern und einem 300-dimensionalen Wortvektor hat die Form 10.000 x 300. Diese Matrix repräsentiert die Gewichte zwischen der versteckten Schicht und der Ausgabeschicht, wobei jede Zeile der Matrix einem Wort im Vokabular und jeder Spalte einer Dimension im Wortvektor entspricht.

b: Dass Bart keinen Unterschied in den trainierten Wortvektoren feststellt, wenn er die Größe des Kontextfensters ändert, bedeutet nicht notwendigerweise, dass seine Trainingspipeline defekt ist. Die Größe des Kontextfensters kann die Ergebnisse des Trainings beeinflussen, aber es ist auch möglich, dass andere Faktoren wie die Qualität und die Menge der Trainingsdaten, die Hyperparameter des Modells (z.B. Lernrate, Anzahl der Epochen), die Initialisierung der Gewichte oder die Anwendung von Regularisierungstechniken einen größeren Einfluss haben. Es ist auch möglich, dass die Unterschiede in den Wortvektoren subtil sind und möglicherweise einer detaillierteren Analyse oder Evaluierung bedürfen, um wahrgenommen zu werden. Es wäre also voreilig, zu schlussfolgern, dass die Pipeline defekt ist, ohne eine gründlichere Untersuchung der verschiedenen Aspekte des Trainingsprozesses.





****************************************************************************************
****************************************************************************************




Answer to Question 1-4
a: Falsch. Die Verwendung von Teilwörtern kann bei morphologisch reichhaltigen Sprachen besser sein, da sie die Varianz innerhalb von Wortformen erfassen können, was bei ganzen Wörtern nicht immer möglich ist.

b: Richtig. Wir können ein Unigramm-Sprachmodell ableiten, indem wir die Wahrscheinlichkeit des Auftretens eines jeden Wortes im Verhältnis zur Gesamtzahl der Wörter im Korpus berechnen.

c: Falsch. One-Hot-Wortrepräsentationen ordnen jedem Wort einen eindeutigen Vektor zu, der keine Information über semantische Unterschiede enthält, da alle Wörter gleich weit voneinander entfernt sind.

d: Falsch. Bei der Latent Dirichlet Allocation (LDA) wird ein Dokument als eine Verteilung über Themen modelliert, nicht über Wörter. Die Themen wiederum werden als Verteilungen über Wörter modelliert.

e: Falsch. Die Term Frequency (TF) misst, wie oft ein Wort in einem Dokument vorkommt. Die Inverse Document Frequency (IDF) verringert die Bedeutung von Wörtern, die in vielen Dokumenten vorkommen.

f: Falsch. Bei der Verwendung von Hidden Markov Modellen (HMMs) für das Part-of-Speech-Tagging sind die verborgenen Zustände die Tags (z.B. Nomen, Verben, Adjektive), nicht die Wörter selbst. Die Wörter sind die beobachteten Erscheinungen.





****************************************************************************************
****************************************************************************************




Answer to Question 2-1
a: Ein möglicher Ansatz für ein Modell mit der geringsten Anzahl von Parametern und der kürzesten Trainingszeit könnte ein einfaches Feedforward-Neural-Network (FNN) mit nur einer versteckten Schicht sein. Die Eingabe dieses Modells wären die vortrainierten 300-dimensionalen Word Embeddings für jedes Wort des Satzes. Als Zwischenoperation könnte eine Durchschnittsbildung oder Summierung über alle Wortvektoren des Satzes durchgeführt werden, um einen einzigen 300-dimensionalen Vektor als Repräsentation des ganzen Satzes zu erhalten. Dieser Vektor würde dann durch eine Lineare Schicht (Gewichtsmatrix) mit der Größe 300x3 verarbeitet, um die Klassenzugehörigkeit zu den drei Klassen zu bestimmen. Die Ausgabe wäre ein 3-dimensionaler Vektor, der die Wahrscheinlichkeiten für jede Klasse angibt (happy, neutral, sad). Das Modell würde also 300 * 3 = 900 Gewichtsparameter und 3 Bias-Parameter haben, insgesamt also 903 Parameter.

b: Das Modell aus Teil a ist aus zwei Gründen nicht geeignet: 
1. Die Eingabe: Das vorige Modell nimmt 300-dimensionale Word Embeddings als Eingabe, während Audio-Äußerungen als 80-dimensionale Spektrogramme dargestellt werden. Es handelt sich um zwei völlig verschiedene Datenstrukturen und -typen.
2. Modellstruktur: Für Audio-Spektrogramme ist ein einfaches FNN möglicherweise nicht ausreichend, da die zeitlichen Muster und die komplexen Strukturen (wie Frequenzänderungen über die Zeit) wichtige Informationen für die Klassifizierung enthalten können, die von FNNs nicht effektiv genutzt werden können.

c: Ein verbessertes Modell könnte ein Convolutional Neural Network (CNN) sein, das besser dafür geeignet ist, lokale Muster und zeitliche Strukturen in den Spektrogrammen zu erkennen. Die Eingabe wären die 80-dimensionalen Spektrogramme. Als Zwischenoperation könnte das Modell mehrere Convolutional Layers enthalten, die die lokalen Merkmale des Spektrogramms extrahieren, gefolgt von Pooling Layers, die die Dimensionalität reduzieren und die repräsentativsten Merkmale hervorheben. Schließlich könnten die Merkmale durch eine oder mehrere Fully-Connected Layers laufen, die die Entscheidung für eine der drei Klassen treffen. Die Ausgabe wäre ebenfalls ein 3-dimensionaler Vektor, der die Klassenzugehörigkeit angibt. Die Parameterdimensionen würden von der Anzahl und Größe der verwendeten Convolutional und Fully-Connected Layers abhängen.





****************************************************************************************
****************************************************************************************




Answer to Question 2-2
a: Der vorgeschlagene Ansatz der Sequenzklassifikation, bei dem jede Äußerung einzeln betrachtet und ihrer Dialog-Act-Klasse zugeordnet wird, berücksichtigt nicht den Kontext des gesamten Dialogs. In dem gegebenen Beispiel könnte das Modell einen Fehler machen, wenn es die Äußerung des Arztes "For a week, right?" klassifizieren soll. Ohne den Kontext würde das Modell diese Äußerung möglicherweise als eine Symptom-Beschreibung klassifizieren, da es ähnlich klingt wie die vorangegangene Äußerung des Patienten, die tatsächlich eine Symptom-Beschreibung war. In Wirklichkeit wiederholt der Arzt jedoch nur die Information zur Bestätigung. Dies zeigt, dass der Kontext in Dialogen eine wesentliche Rolle spielt und Modelle, die jede Äußerung isoliert betrachten, anfällig für Fehler sind.

b: Ich würde die Aufgabe als ein Sequenz-Labeling-Problem modellieren. Der Hauptgrund dafür ist, dass wir für jede Äußerung in der Dialogsequenz eine entsprechende Label-Klasse vorhersagen wollen und nicht eine neue Sequenz von Worten oder Äußerungen generieren müssen, was bei einem Sequenzgenerierungsproblem der Fall wäre. Im Sequenz-Labeling müssen wir die beste Label-Sequenz vorhersagen, die zu den Eingabeäußerungen passt, was in unserem Fall das gewünschte Ziel ist.

c: Ein mögliches Modell für die Dialog-Act-Identifizierung basierend auf einer Sequenz-Labeling-Strategie könnte wie folgt aussehen:

- **Eingabe**: Die Eingabe besteht aus einer Matrix, in der jede Zeile der Embedding-Vektor einer Äußerung des Dialogs ist. Jede Zeile dieser Matrix entspricht einer Äußerung, und die Reihenfolge der Zeilen entspricht der Position der Äußerungen im Dialog.
  
- **Zwischenoperationen**: 
  - Zunächst könnte ein Recurrent Neural Network (RNN) wie ein Long Short-Term Memory (LSTM) oder ein Gated Recurrent Unit (GRU) verwendet werden, um die zeitliche Abhängigkeit zwischen den Äußerungen zu modellieren. 
  - Danach könnte eine Attention-Mechanismus eingeführt werden, um dem Modell zu ermöglichen, auf relevante Teile der Eingabesequenz zu achten und die Informationen besser zu integrieren.
  - Optional könnte eine Conditional Random Field (CRF)-Schicht hinzugefügt werden, um die Abhängigkeiten zwischen den Labels zu modellieren und die Vorhersagen zu verbessern.

- **Ausgabe**: Die Ausgabe wäre eine Sequenz von Labels, wobei jedes Label der Dialog-Act-Klasse einer entsprechenden Äußerung zugeordnet wird. Das Modell würde für jede Äußerung in der Eingabesequenz ein Label vorhersagen.





****************************************************************************************
****************************************************************************************




Answer to Question 3-1
a: Autoregressiv bedeutet in diesem Zusammenhang, dass jede Ausgabe (Decodierung) eines Elements (z.B. eines Wortes oder Tokens) während der Generierung eines Sequenzausgangs (z.B. eines Satzes) nicht nur von den Eingabeelementen (dem gegebenen Satz), sondern auch von den zuvor generierten Ausgabeelementen abhängig ist. Das heißt, die Vorhersage jedes folgenden Elements hängt von den bereits vorhergesagten Elementen ab.

b: Die Self-Attention des Transformer-Decoders muss während des Trainings teilweise ausgeblendet werden, um zu verhindern, dass das Modell Informationen aus der Zukunft ("future information") nutzt. Dieses Maskieren ist notwendig, da der Decoder sonst während des Trainings die Möglichkeit hätte, auf die korrekten Ausgaben zuzugreifen, bevor er sie selbst generiert hat. Das würde das Training verfälschen, weil das Modell lernen würde, die Ausgabe einfach aus den bereits vorhandenen Informationen abzulesen, statt sich auf die Eingabe und die bisher generierten Ausgaben zu stützen.

c: Das Maskieren in der Self-Attention-Gewichtsmatrix während des Trainings verhindert, dass das Modell auf spätere Teile des Ausgabe-Strings zugreift. Das Maskieren erfolgt oberhalb der Diagonalen in der Matrix, da ein Wort nur Informationen von vorherigen Wörtern, aber nicht von zukünftigen Wörtern erhalten sollte. Die maskierten Gewichte wären also:

- BoS, E, F, G
- BoS, x, x, x
- E, x, x, x
- F, x, x, x
- G, x, x, x

d: Die Sequenz "John loves Mary" und "Mary loves John" teilen die gleichen Wort-Embeddings und haben im Wesentlichen die gleichen Relationen zwischen den Wörtern, allerdings in unterschiedlicher Reihenfolge. Solange der Transformer-Decoder nur auf die Wortbedeutungen reagiert und keine Positionsinformationen berücksichtigt (also keine positionsspezifischen Embeddings verwendet), würden die Attention-Gewichte $\bm{\alpha}_{\texttt{Mary}}$ gleich sein. Das liegt daran, dass die semantischen Bezüge, die durch die Self-Attention gewichtet werden, unabhängig von der Position der Wörter im Satz sind und "Mary" in beiden Sätzen die gleichen semantischen Bezüge zu "John" und "loves" aufweist.





****************************************************************************************
****************************************************************************************




Answer to Question 3-2
a: Eine Lösung wäre, das Modell mit medizinischen Texten weiter zu trainieren oder ein Transferlernen zu nutzen, bei dem das Modell auf den medizinischen Bereich feinjustiert wird, um es mit dem Fachvokabular und den besonderen Sprachmustern des Bereichs vertraut zu machen. Eine weitere Lösung könnte der Einsatz eines subword tokenization Ansatzes sein, wie Byte Pair Encoding (BPE) oder SentencePiece, der es dem Modell ermöglicht, unbekannte Wörter in kleinere, bekannte Einheiten zu zerlegen und sie so besser zu verarbeiten.

b: ROUGE-n basiert auf der Überlappung von n-Grammen zwischen einer maschinell erstellten Zusammenfassung und einer Reihe von Referenzzusammenfassungen. Ein n-Gramm ist eine Sequenz von n aufeinanderfolgenden Wörtern aus einem Text. ROUGE-n misst also, wie viele solcher Sequenzen in beiden Texten gemeinsam vorkommen.

c: Das Modell erhält hohe ROUGE-2-Werte, weil die Metrik auf der Überlappung von Bigrammen (zwei aufeinanderfolgende Wörter) basiert und die wiederholte Phrase "amyloid angiopathy" viele Bigramme bildet, die sich in der generierten und der Referenzzusammenfassung überdecken. Eine Metrik, die dieses Problem vermeiden könnte, ist ROUGE-L, die auf der längsten gemeinsamen Subsequenz basiert und somit auch die Struktur und die Reihenfolge der Wörter berücksichtigt. Um die Anzahl der Wiederholungen bei der Generierung der Ausgabe zu reduzieren, könnte man eine dedizierte Mechanik einführen, die die Wahrscheinlichkeit von bereits generierten Wörtern oder Phrasen reduziert, sogenanntes "penalty based decoding". Weiterhin könnte man die Architektur des Modells anpassen, um die Kontextbeachtung über längere Textstrecken zu verbessern, oder explizite Nachbearbeitungsschritte einfügen, die redundante Phrasen erkennen und entfernen.





****************************************************************************************
****************************************************************************************




Answer to Question 3-3
a: Ein Vorteil der Verwendung von BERT mit CTC für maschinelle Übersetzung könnte sein, dass BERT bereits umfangreich auf Textdaten trainiert wurde und daher in der Lage ist, hochwertige Repräsentationen von Texteingaben zu erzeugen. Dies könnte potenziell die Übersetzungsqualität verbessern, da das Modell auf einem bereits fortgeschrittenen Verständnis von Sprachstrukturen basiert.

Ein Nachteil dieses Ansatzes könnte sein, dass BERT und CTC ursprünglich nicht für die Aufgaben der maschinellen Übersetzung entwickelt wurden. BERT wurde für Aufgaben wie Textklassifikation, Named Entity Recognition und ähnliche NLP-Aufgaben konzipiert, während CTC hauptsächlich in Spracherkennungssystemen verwendet wird. Diese Diskrepanz in der ursprünglichen Anwendung könnte zu Problemen bei der Adaption dieser Technologien auf die maschinelle Übersetzung führen.

b: Um die Leistung eines mit BERT und CTC trainierten Modells für maschinelle Übersetzung zu verbessern, könnte eine Option darin bestehen, zusätzliche Anpassungen und Trainingsphasen zu implementieren, in denen der BERT-Encoder speziell auf Übersetzungsaufgaben feinjustiert wird. Dies könnte durch das Training des Modells auf einem großen Korpus von qualitativ hochwertigen Übersetzungsdaten geschehen, wodurch spezifische Sprachstrukturen und terminologische Nuancen besser erlernt werden könnten. Des Weiteren könnte das Modell von einer zusätzlichen Decoding-Komponente profitieren, die speziell für die Generierung von übersetztem Text konzipiert ist. Diese Komponente könnte darauf trainiert werden, aus den von BERT erzeugten Repräsentationen sinnvolle und grammatikalisch korrekte Übersetzungen zu erstellen.





****************************************************************************************
****************************************************************************************




Answer to Question 3-4
a: Ein mögliches Modell für die Text-to-SQL-Aufgabe könnte ein sequenzbasiertes maschinelles Lernmodell sein. Man könnte ein Recurrent Neural Network (RNN) einsetzen, das in der Lage ist, die eingegebene Frage in natürlicher Sprache zu verarbeiten und die relevanten Informationen aus der Frage zu extrahieren, um die entsprechende SQL-Abfrage zu formen. Angesichts der Trainingssituation, die 30.000 Instanzen umfasst, würde man wahrscheinlich ein Trainingsverfahren verwenden, das auf überwachtem Lernen basiert, wobei jede Instanz einem Paar aus einer Frage in natürlicher Sprache und der zugehörigen SQL-Abfrage besteht. Das Modell würde lernen, den Zusammenhang zwischen der Sprache der Frage und der notwendigen Syntax und Struktur der SQL-Abfrage zu erkennen und zu replizieren.

b: Um das Modell anzupassen, sodass es mit unbeantwortbaren Fragen umgehen kann, könnte man eine zusätzliche Komponente im Modell einführen, die die Relevanz einer Frage beurteilt, bevor sie versucht, eine SQL-Abfrage zu bilden. Dies könnte eine Vorverarbeitungsstufe sein, in der die Frage analysiert wird, um festzustellen, ob sie relevante Informationen zur Tabelle und den Spalten enthält. Die Komponente könnte als Klassifikator fungieren, der entscheidet, ob eine Frage beantwortbar ist oder nicht. Ist eine Frage als nicht beantwortbar eingeordnet, würde das Modell keine SQL-Abfrage erzeugen. Stattdessen könnte es eine Nachricht zurückgeben, die angibt, dass die Frage nicht anhand der verfügbaren Tabelleninformationen beantwortet werden kann. Um diese Fähigkeit zu entwickeln, könnte das Modell mit sowohl beantwortbaren als auch unbeantwortbaren Fragen trainiert werden, und zwar so, dass der Klassifikator aus diesen Beispielen lernt.





****************************************************************************************
****************************************************************************************




Answer to Question 4-1
a: Der Vorteil dieses Ansatzes liegt darin, dass die ursprünglichen BERT-Parameter nicht verändert werden müssen, was das Risiko des Übertrainierens oder Divergierens minimiert. Stattdessen werden neue, kleinere Netzwerke (Adapter) hinzugefügt, die einfacher zu trainieren sind, da sie über weniger Parameter verfügen. Zusätzlich erlauben sie eine spezifische Anpassung an die Aufgabe (hier: Named Entity Recognition), ohne die allgemeine Sprachfähigkeit des BERT-Modells zu beeinträchtigen.

b: Die Adapter würden innerhalb der BertLayer-Module eingesetzt, und zwar nach jedem BertSelfOutput und BertOutput. Konkret heißt das, dass die Adapter nach (aber nicht innerhalb) der (output): BertSelfOutput und der (output): BertOutput Submodule hinzugefügt werden. Dabei würde die Datenfluss so modifiziert, dass die Ausgaben dieser Submodule zunächst in den Adapter eingehen, bevor sie zur nächsten Schicht weitergeleitet werden. Unterkomponenten wie (LayerNorm) würden weiterhin wie ursprünglich im BERT-Architekturmodell eingesetzt.

c: Um die erhöhten Parameter zu berechnen, muss man die Anzahl der Parameter in den Adapter-Netzwerken multiplizieren mit der Anzahl der Schichten, in denen sie eingefügt werden.
1. Adapter: 768 (ursprüngliche Dimension) x 256 (reduzierte Dimension) für die erste lineare Projektion
2. Adapter: 256 (reduzierte Dimension) x 768 (ursprüngliche Dimension) für die zweite lineare Projektion
Gesamtzahl der Parameter pro Adapter: (768 x 256) + (256 x 768)
Da es insgesamt 12 Schichten gibt, muss die Gesamtzahl der Adapterparameter multipliziert werden mit 12.

Berechnung:
Anzahl der Parameter pro Adapter = (768 x 256) + (256 x 768)
Anzahl der Parameter für alle Adapter = Anzahl der Parameter pro Adapter x 12 Schichten
Also: Gesamtzahl der zusätzlichen Parameter = (768 x 256) + (256 x 768) x 12





****************************************************************************************
****************************************************************************************




Answer to Question 4-2
Dense Passage Retrieval (DPR) ist ein wichtiges Modell im Bereich des Open-Domain Question-Answering. Hier sind Antworten auf die gestellten Unterfragen:

a) Unterschiede zwischen BERT-CLS-Token-Repräsentation und Pooling-Methoden:
- Das BERT-CLS-Token ist ein spezieller Token ([CLS]), der vor die Eingabe einer Sequenz bei BERT-Modellen gestellt wird und dazu dient, eine Repräsentation des ganzen Satzes oder Sequenz zu lernen, die für die Klassifikation verwendet werden kann. Nach der Vorverarbeitung durch das BERT-Modell wird der entsprechende [CLS]-Token-Vektor als Satzrepräsentation verwendet.
- Im Gegensatz dazu wird bei Pooling-Methoden wie Meanpool oder Maxpool kein spezieller Token verwendet; stattdessen werden die Vektoren aller Token der Sequenz aggregiert, um einen einzigen Satzvektor zu erzeugen. Beim Meanpooling wird der Durchschnitt aller Wortvektoren berechnet, während beim Maxpooling der größte Wert aus jedem Dimension der Wortvektoren genommen wird.

Vorteile des BERT-CLS-Token-Ansatzes:
- Der [CLS]-Token-Vektor ist das Ergebnis des Durchlaufens des gesamten Kontexts durch das BERT-Modell und berücksichtigt somit die komplexen Beziehungen zwischen den verschiedenen Worten im Kontext. Dies ermöglicht ein tieferes Verständnis der Bedeutung einer Sequenz oder eines Satzes.
- Der aus dem BERT-CLS-Token extrahierte Vektor nutzt das Pre-Training von BERT, wodurch das Modell bereits ein weitreichendes Verständnis über Sprache und Kontext gewonnen hat, was bei Pooling-Methoden nicht der Fall ist.
- Das BERT-Modell ist dafür optimiert, dass der [CLS]-Token für Klassifikationsaufgaben verwendet werden kann, was impliziert, dass der [CLS]-Token eine kondensierte und relevante Repräsentation des Inputs darstellt.

b) Der Einschluss von irrelevanten/negativen Paaren im Training:
- Die Einbeziehung von irrelevanten bzw. negativen Paaren beim Training eines DPR-Modells ermöglicht es, eine Unterscheidung zwischen relevanten und irrelevanten Textpassagen hinsichtlich einer gestellten Frage zu lernen. Es hilft dem Modell zu verstehen, welche Passagen keine sinnvollen Antworten enthalten.
- Wenn irrelevante/negative Paare weggelassen würden, würde das Modell möglicherweise nicht lernen, zwischen nützlichen und nicht nützlichen Informationen zu differenzieren. Es könnte zu einem Modell führen, das dazu neigt, Passagen zu bevorzugen, die möglicherweise einige Schlüsselwörter enthalten, aber in Wirklichkeit keine relevanten Informationen bieten.
- Negatives Sampling, also die Einbeziehung von negativen Beispielen, hilft auch dabei, eine Übergeneralisierung und damit verbundene falsche Positive zu vermeiden.
- Darüber hinaus verbessert das Training mit negativen Beispielen die Robustheit des Modells, da es auch mit Situationen konfrontiert wird, in denen es lernen muss, das Fehlen von Zusammenhängen zu erkennen. 

Aus diesen Gründen sind irrelevante bzw. negative Paare für das erfolgreiche Trainieren eines DPR-Modells entscheidend.





****************************************************************************************
****************************************************************************************




