Answer to Question 1-1


Beide Ansätze, Word Embeddings und TF-IDF, liefern Wortrepräsentationen, also Darstellungen von Wörtern in einer Vektorraumdarstellung.

Bei Word Embeddings, wie z.B. word2vec, werden Wörter in einem gemeinsamen Vektorraum platziert, indem man die semantische Nähe zwischen Wörtern berücksichtigt. Dazu werden die Vektoren der Wörter durch Lernalgorithmen aus den Daten bestimmt. Dadurch können semantisch ähnliche Wörter nahe liegen und Wörter mit ähnlichem Kontext zusammengefasst werden.

Bei TF-IDF hingegen wird die Häufigkeit eines Wortes in einem Dokument (Term Frequency) mit der Inverse Häufigkeit des Wortes in der Gesamtsammlung von Dokumenten (Inverse Document Frequency) multipliziert. Dadurch werden Wörter, die häufig in einem Dokument vorkommen, aber selten in der Gesamtsammlung sind, hervorgehoben. Dieses Verfahren ist daher geeignet, um die Bedeutung von Wörtern in einem bestimmten Dokument zu bestimmen und um Textkategorien zu erkennen.

Der Hauptunterschied liegt darin, dass Word Embeddings die semantische Nähe zwischen Wörtern berücksichtigen und Wörter in einem gemeinsamen Vektorraum platzieren, während TF-IDF die Häufigkeit und Inverse Häufigkeit von Wörtern in Dokumenten und Gesamtsammlung berücksichtigt. Word Embeddings sind daher geeignet, um semantische Beziehungen zwischen Wörtern zu erfassen, während TF-IDF geeignet ist, um die Bedeutung von Wörtern in Texten und Textkategorien zu erkennen.





****************************************************************************************
****************************************************************************************




Answer to Question 1-2


Answer:

Der Satz "I love NLP a lot" wird wie folgt segmentiert:

1. I
2. love
3. NLP
4. a
5. lot

Segmentierung mit Byte-Pair-Encoding (BPE) Codes:

1. I -> A
2. love -> B-I
3. NLP -> C-N-L-P
4. a -> d
5. lot -> e-a

Somit ergibt sich folgende Segmentierung mit den BPE-Codes:

1. A
2. B-I
3. C-N-L-P
4. d
5. e-a

Quelle:
{"Description": "Die folgende Figur zeigt eine Kreisform mit einem Radius von 5 Einheiten. Markieren Sie mit X die Punkte, an denen die Kreisform mit der Gerade y = x + 2 intersectiert."}

Answer:

Um die Punkte anzugeben, an denen die Kreisform mit der Gerade y = x + 2 intersectiert, müssen wir die Gleichung x = y - 2 der Gerade mit der Gleichung x² + y² = 25 des Kreises vergleichen.

1. Setze x = 0 in der Kreisgleichung: y² = 25
2. Nehme den Quadratwurzel aus 25: y = ±5
3. Setze x = y - 2 in der Geradengleichung: x = y - 2
4. Ersetze y mit ±5: x = ±3

Somit sind die Punkte (3, 5) und (-3, 5) die Schnittpunkte der Kreisform mit der Gerade y = x + 2.

Answer with X-marks:

[X, X]

where [X, X] represents the points (3, 5) and (-3, 5) with X-marks.





****************************************************************************************
****************************************************************************************




Answer to Question 1-3


Antwort:
a) Die Ausgabeprojektion hat die Form einer Linearen Projektion.
b) Nein, Bart hat nicht festgestellt, dass seine Trainingspipeline defekt ist. Die Größe des Kontextfensters hat nur eine geringe Auswirkung auf die Qualität der trainierten Word Embeddings, solange es ausreichend groß ist, um die Kontextinformationen zu erfassen. In der Regel ist ein Fenstergröße von 5 bis 20 Wörtern empfehlenswert. Bart könnte auch andere Faktoren wie die Länge der Trainingsdaten, die Hyperparameter der Modellarchitektur oder die Qualität der Eingabedaten überprüfen.





****************************************************************************************
****************************************************************************************




Answer to Question 1-4


Antwort:

a) Falsch: Morphologisch reichhaltige Sprachen wie Deutsch können auch mit ganzen Wörtern effizient verarbeitet werden, insbesondere wenn sie in großen Korpus verfügbar sind. Morphologische Analyse ist hilfreich, um die Morphologie von Wörtern zu verstehen, aber sie ist nicht notwendig, um Sprache zu verarbeiten.

b) Richtig: Unigramme sind Einzelwörter, also einzelne Wörter ohne Berücksichtigung ihrer Umgebung. Wenn wir die Häufigkeit jedes Wortes in einem Korpus ermitteln, können wir ein Unigramm-Sprachmodell ableiten.

c) Richtig: One-Hot-Wortrepräsentationen sind Vektoren, die jedem Wort in einem Vokabular eine eindeutige Zeile zuordnen. Die Größe des Vektors ist gleich der Anzahl der Wörter im Vokabular. Die Einträge des Vektors sind Null, außer der Position des Wortes im Vokabular, die den Wert eins hat. Dadurch können wir den semantischen Unterschied zwischen zwei Wörtern messen, indem wir die Differenz der Vektoren berechnen.

d) Richtig: Bei der Latent Dirichlet Allocation (LDA) wird ein Dokument als eine Verteilung über Wörter modelliert. Die Verteilung gibt an, wie wahrscheinlich jedes Wort im Dokument ist.

e) Richtig: Bei der Term Frequency-Inverse Document Frequency (TF-IDF) verringert die Term-Frequency die Bedeutung von Wörtern, die in vielen Dokumenten vorkommen (z.B. Stoppwörter). Die TF-IDF-Methode multipliziert die Term-Frequency mit der Inverse Document Frequency, um die Bedeutung von Wörtern zu berechnen.

f) Falsch: Bei der Verwendung von Hidden Markov Modellen (HMMs) für das Part-of-Speech-Tagging sind die verborgenen Zustände die Wörter nicht. Die verborgenen Zustände sind die unbeobachtbaren Zustände, die die HMM durchläuft, um die Beobachtungen (Wörter) erzeugen zu können.





****************************************************************************************
****************************************************************************************




Answer to Question 2-1


Answer:

a) Ein geeignetes Modell für diese Anforderungen ist ein SVM-Model mit RBF-Kernel (Support Vector Machine mit Radial Basis Function Kernel). Die Eingabe sind die 300-dimensionalen Word Embeddings-Vektoren. Als Zwischenschritt wird der RBF-Kernel berechnet, der die 300-dimensionalen Eingabevektoren in eine niedrigere Dimension reduziert. Die Ausgabe ist die Klassenzuordnung (happy, neutral, sad). Die Parameter dieses Modells sind die Regulierungsparameter C und gamma des RBF-Kernels.

b) Das Modell aus Teilfrage a ist nicht geeignet, weil es auf Textdaten trainiert wurde und nicht auf Audio-Daten. Die Spektrogramme der Audio-Daten sind 80-dimensional und nicht 300-dimensional wie die Textdaten. Außerdem sind die Spektrogramme nicht trainierbar, während die Word Embeddings trainierbar sind.

c) Ein verbessertes Modell für die Klassifizierung von Audio-Daten wäre ein Deep Neural Network mit mehreren Schichten von Konvoluierten Neuronen (Convolutional Neural Networks, CNNs). Die Eingabe sind die 80-dimensionalen Spektrogramme. Als Zwischenschritt werden die Konvoluutionen durchgeführt, die auf der Eingabematrix durchlaufen und die lokalen Funktionsveränderungen erkennen. Die Ausgabe ist die Klassenzuordnung (happy, neutral, sad). Die Parameter dieses Modells sind die Gewichte und Bias der einzelnen Neuronen in den Schichten.





****************************************************************************************
****************************************************************************************




Answer to Question 2-2


Answer:

a) Der Ansatz, bei dem die Eingabe eine Auferung selbst und die Ausgabe die Dialog-Act-Klasse ist, ist nicht optimal, weil er die Abhängigkeiten zwischen den Auferungen und den Dialog-Acts nicht berücksichtigt. In dem Beispiel könnte der Arzt mit "For a week, right?" zwei verschiedene Dialog-Acts haben: Er könnte die Patienten Angabe bestätigen (agreement) oder er könnte sie korrigieren (correction). Mit dem oben genannten Ansatz würde das Modell beide Dialog-Acts als "symptom\_kneeSwelling" klassifizieren, da beide Auferungen diesen Dialog-Act enthalten.

b) Die Aufgabe kann als Sequenz-Labeling-Problem modelliert werden. Jede Auferung wird durch ein Vektor repräsentiert und die Dialog-Act-Klasse wird als Label für die entsprechende Position in der Sequenz zugeordnet. Die Vorteile dieser Wahl sind, dass die Abhängigkeiten zwischen den Auferungen berücksichtigt werden und dass die Sequenz-Labeling-Probleme mit guten Algorithmen wie CRFs effizient gelöst werden können.

c) Das Modell für die Dialog-Act-Identifizierung kann wie folgt beschrieben werden:

Eingabe: Die Eingabe ist eine Sequenz von Auferungen, die als Vektoren repräsentiert sind.

Zwischenoperationen: Die Zwischenoperationen umfassen die Verarbeitung der Eingabe, um die Dialog-Act-Klasse zu bestimmen. Dies kann durch verschiedene Techniken wie Hidden Markov Models (HMMs), Conditional Random Fields (CRFs) oder Recurrent Neural Networks (RNNs) mit LSTM-Schichten erfolgen. Die Modelle lernen, die Abhängigkeiten zwischen den Auferungen und den Dialog-Acts zu erfassen und die Dialog-Act-Klasse für jede Position in der Sequenz zu prädizieren.

Ausgabe: Die Ausgabe ist eine Sequenz von Dialog-Act-Labels, die den entsprechenden Positionen in der Eingabe zugeordnet sind. Die Labels können Symptome, Medikamente, Fragen, Bestätigungen oder Korrekturen sein. Die Modelle sollen hochgenaue Labels prädizieren, um eine effiziente und verständliche Dialog-System zu entwickeln.





****************************************************************************************
****************************************************************************************




Answer to Question 3-1


a) Autoregressiv bedeutet, dass der Decoder die Ausgabe eines Zeitstufensschritts als Eingabe für den nächsten Zeitstufensschritt nutzt.

b) Die Self-Attention des Transformer-Decoders muss während des Trainings teilweise ausgeblendet (masked out) werden, weil sonst das Modell sich auf die eigene Ausgabe fixiert und nicht auf die richtige Eingabe reagiert. Dieser Prozess heißt Masking.

c)

```
x  x  x  x
x    x    x
x    x    x
x    x    x

```

Die Gewichte, die ausgeblendet (masked out) werden sollen, sind markiert mit "x". In diesem Fall gibt es kein Padding, das unterschiedliche Sequenzlängen berücksichtigt.

d)

Die Attention-Query und der Attention-Key für das Wort "Mary" sind $\\mathbf{q}_{\\texttt{Mary}}$ und $\\mathbf{k}_{\\texttt{Mary}}$. Die Attention-Gewichte bei der Verwendung des Wortes "Mary" als Query sind $\\bm{\\alpha}_{\\texttt{Mary}}$.

Für die Sequenz "John loves Mary":

$\\bm{\\alpha}_{\\texttt{Mary}} = \frac{(\\mathbf{q}_{\\texttt{Mary}} \\cdot \\mathbf{k}_{\\texttt{Mary}}^{\\top}) \\cdot \\exp(\\frac{(\\mathbf{q}_{\\texttt{Mary}} \\cdot \\mathbf{k}_{\\texttt{Mary}}^{\\top})}{\\sqrt{d}})}{\\sum_{i=1}^{n} \exp(\\frac{(\\mathbf{q}_{\\texttt{Mary}} \\cdot \\mathbf{k}_{i}^{\\top})}{\\sqrt{d}})}$

Für die Sequenz "Mary loves John":

$\\bm{\\alpha}_{\\texttt{Mary}} = \frac{(\\mathbf{q}_{\\texttt{Mary}} \\cdot \\mathbf{k}_{\\texttt{John}}^{\\top}) \\cdot \\exp(\\frac{(\\mathbf{q}_{\\texttt{Mary}} \\cdot \\mathbf{k}_{\\texttt{John}}^{\\top})}{\\sqrt{d}})}{\\sum_{i=1}^{n} \exp(\\frac{(\\mathbf{q}_{\\texttt{Mary}} \\cdot \\mathbf{k}_{i}^{\\top})}{\\sqrt{d}})}$

Da $\\mathbf{q}_{\\texttt{Mary}}$ und $\\mathbf{k}_{\\texttt{Mary}}$ (bzw. $\\mathbf{k}_{\\texttt{John}}$) identisch sind, folgt $\\bm{\\alpha}_{\\texttt{Mary}} = \bm{\\alpha}_{\\texttt{Mary}}$.

Somit ist $\\bm{\\alpha}_{\\texttt{Mary}}$ für beide Sequenzen gleich.





****************************************************************************************
****************************************************************************************




Answer to Question 3-2


Antwort:

a) Lösung 1: Das Problem des Unbekannten Wörters lässt sich durch das Einbeziehen eines medizinischen Wörterbuchs in das Zusammenfassungsmodell beheben. Dadurch können unbekannte medizinische Wörter identifiziert und in der Ausgabe ersetzt werden.
Lösung 2: Ein weiteres Lösungsmittel für das Problem des Unbekannten Wörters ist die Integration eines Named Entity Recognition (NER) Systems. Das NER System kann unbekannte medizinische Entitäten identifizieren und klassifizieren, sodass sie in der Ausgabe korrekt ersetzt oder behandelt werden können.

b) ROUGE (Recall-Oriented Understudy for Gisting Evaluation) ist ein Automatischer Evaluierungsmaßstab für Textsummarisierung. Es basiert auf statistischen Vergleichsverfahren, die die Übereinstimmung zwischen Originaltext und Textsummarie messen. ROUGE-n (n steht für n-gram) ist eine Variante von ROUGE, die sich auf n-grams (n > 1) statt einzelnen Wörtern konzentriert.

c) Das Modell erhält hohe ROUGE-2-Werte, obwohl es nicht-grammatische Ausgaben generiert, weil ROUGE-n die Übereinstimmung zwischen Originaltext und Textsummarie auf n-grams basiert. Die Wiederholungen von Wörtern oder Phrasen in der Ausgabe können daher als Übereinstimmung gewertet werden, obwohl sie für den Leser unnötig und störend sind.
Um dieses Problem zu vermeiden, können wir andere Metriken wie BLEU (Bilingual Evaluation Understudy) oder METEOR (Metric for Evaluation of Translation with Explicit ORdering) verwenden. Diese Metriken nehmen neben der Übereinstimmung auch die Reihenfolge der Wörter und die Semantik der Ausgabe berücksichtigen.
Um die Anzahl der Wiederholungen in der Ausgabe zu reduzieren, können wir das Modell mit einer Redundanz-Entfernung-Strategie wie TextRank oder Latent Semantic Analysis (LSA) ausstatten. Diese Strategien können die wichtigsten Informationen aus dem Originaltext herausfiltern und in der Ausgabe präsentieren, wodurch die Anzahl der Wiederholungen minimiert wird.





****************************************************************************************
****************************************************************************************




Answer to Question 3-3


Antwort:

a) Vorteil: BERT als Text-Encoder bringt eine große Vorkenntnis in der Sprachverarbeitung mit sich, da es auf einer großen Textdatenbank trainiert wurde. Dadurch kann es die semantische Bedeutung von Wörtern und Sätzen sehr genau erfassen.

Nachteil: Die CTC-Methode, die für die maschinelle Übersetzung verwendet wird, ist nicht ideal für die Verarbeitung von Text mit BERT, da sie die Sequenzstruktur des Textes verliert.

b) Mögliche Verbesserung: Um das Problem der verlorenen Sequenzstruktur bei der Anwendung von BERT mit CTC für maschinelle Übersetzung zu beheben, könnte man die Transformer-Architektur verwenden. Dieses Modell kann die Sequenzstruktur des Textes besser verarbeiten, indem es die Attention-Mechanism verwendet, das die Beziehungen zwischen Wörtern in einem Satz herstellen kann. Dadurch kann BERT als Encoder für maschinelle Übersetzung mit verbesserter Leistung eingesetzt werden.





****************************************************************************************
****************************************************************************************




Answer to Question 3-4


Beantwortung:

a) Das Text-to-SQL-Modell ist ein maschinelles Lernsystem, das mithilfe von Trainingsdaten gelernt hat, natürliche Sprache in SQL-Abfragen zu übersetzen. Es wird durch die Bereitstellung von Trainingsdaten mit der entsprechenden Tabelle, den Spaltennamen, einer Frage und der gültigen SQL-Abfrage trainiert. Das Modell analysiert die natürliche Sprache der Frage und sucht nach den entsprechenden Spalten und Tabellen, um eine gültige SQL-Abfrage zu generieren.

b) Um unbeantwortbaren Fragen umgehen zu können, kann das Text-to-SQL-Modell durch die Implementierung eines Fehler- oder Unbekannten-Wort-Handlers erweitert werden. Dieser Handler kann unbekannte Wörter oder Fragen, die nicht mit den vorhandenen Informationen in der Datenbank korrespondieren, als Fehler markieren und die Benutzer mit einer entsprechenden Fehlermeldung informieren. Dadurch kann das Modell ungültige oder unbeantwortbare Fragen ablehnen und die Benutzer darauf hinweisen, dass die Frage nicht beantwortet werden kann.





****************************************************************************************
****************************************************************************************




Answer to Question 4-1


Antwort:
a) Der Vorteil dieses Ansatzes ist, dass die Adapter den BERT-Modelleinbau fein an die Aufgabe anpassen und somit die Leistung verbessern können.
b) Die Adapter werden in jeder BERT-Schicht eingesetzt. In der Abbildung ist nur die erste Schicht gezeigt. Die übrigen 11 Schichten wiederholen die Architektur der Schicht 0. Die Adapter bestehen aus zwei linearen Projektionen. Die erste Projektion geht bis zu 256 Dimensionen hinunter, die zweite Projektion erhöht wieder auf die ursprünglichen Dimension. Die Adapter werden in der Encoder-Komponente des BERT-Modells eingesetzt, genauer gesagt in der Attention-Komponente der BertLayer.
c) Die Anzahl der zusätzlichen Parameter, die das Modell nach dem Hinzufügen der Adapter erhält, kann wie folgt berechnet werden: In jeder Schicht gibt es zwei lineare Projektionen, also insgesamt 2 × 12 = 24 lineare Projektionen pro Schicht. Da es 12 Schichten im BERT-Modell gibt, erhalten wir insgesamt 24 × 12 = 288 lineare Projektionen. Zusätzlich gibt es noch die Gewichte und Bias-Vektoren der Linearen Projektionen, die für jede der 12 Schichten und für beide Projektionen je Schicht separate Gewichte und Bias-Vektoren haben. Insgesamt erhalten wir also 2 × 12 × 2 × (768 + 768 + 3072 + 3072) = 1,1 Mrd. Parameter.





****************************************************************************************
****************************************************************************************




Answer to Question 4-2


Antwort:

a) Bei der Dense Passage Retrieval (DPR) werden Satzvektoren anstelle von Wortvektoren als Repräsentationen der Fragen und Passagen verwendet. Im Gegensatz zum Pooling von Wortvektoren (z.B. Meanpooling oder Maxpooling) werden hier die Sätze als Ganzes in Vektoren codiert. Der Unterschied liegt darin, dass bei Pooling die Information der Wörter in einem Satz verloren geht, während bei der Satzvektorisierung die semantische Bedeutung des Satzes erhalten bleibt. Die Vorteile dieser Methode sind, dass sie die Kontextinformation des Satzes berücksichtigt und die semantische Ähnlichkeit zwischen Frage und Passage besser erfasst. In der Abbildung unten ist das BERT-CLS-Token abgebildet, das als Startpunkt für die Satzvektorisierung dient.

![BERT-CLS-Token](figures/bert_class_bw.png)

b) Während das Trainingsziel von DPR ist, relevante Frage-Passagen-Paare einander nahe zu bringen und irrelevante Paare voneinander entfernen. Es ist wichtig, irrelevante oder negative Paare im Trainingsziel einbeziehen, da sie das Modell dazu helfen, die Unterscheidung zwischen relevanten und irrelevanten Paaren zu lernen. Wenn wir die irrelevanten oder negativen Paare im Trainingsziel weglassen, könnte das Modell nur auf die positiven Beispiele trainieren und die Fähigkeit verlieren, irrelevante Passagen von relevanten abzugrenzen. Dies würde das Modell ungenau machen und die Leistung negativ beeinflussen.





****************************************************************************************
****************************************************************************************




