Answer to Question 1-1








****************************************************************************************
****************************************************************************************




Answer to Question 1-2


Die Frage bezieht sich auf die Segmentierung eines Satzes mit Byte-Pair-Encoding (BPE) Codes. BPE ist ein Verfahren zur Segmentierung von Texten, bei dem Wörter in kleinere Einheiten zerlegt werden. Die Codes in der Frage sind die Wörter, die in den Satz eingefügt werden sollen.

Um den Satz "I love NLP a lot" mit den Codes zu segmentieren, müssen wir die Wörter "I", "love", "NLP", "a", "lot" in den Satz einfügen.

Die Segmentierung ergibt:

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP a lot"

"I love NLP





****************************************************************************************
****************************************************************************************




Answer to Question 1-3


a) Die Ausgabeprojektion hat die Form einer Matrix.

b) Ja, es ist möglich, dass die Trainingspipeline defekt ist. Es gibt viele Faktoren, die die Qualität der trainierten Wortvektoren beeinflussen können, wie zum Beispiel die Größe des Kontextfensters, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter, die Anzahl der Eingabe- und Ausgabewörter





****************************************************************************************
****************************************************************************************




Answer to Question 1-4


a) Falsch. Die Verwendung von Teilwörtern ist nicht besser als ganze Wörter. Beide können in bestimmten Fällen sinnvoll sein, aber es gibt keine allgemeine Regel, die eine Verwendung von Teilwörtern gegenüber ganzen Wörtern bevorzugt.

b) Richtig. Wenn wir die Häufigkeit jedes Wortes in einem Korpus haben, können wir ein Unigramm-Sprachmodell ableiten.

c) Richtig. One-Hot-Wortrepräsentationen können verwendet werden, um den semantischen Unterschied zwischen zwei Wörtern zu messen.

d) Richtig. Bei der Latent Dirichlet Allocation (LDA) wird ein Dokument als eine Verteilung über Wörter modelliert.

e) Richtig. Bei der Term Frequency-Inverse Document Frequency (TF-IDF) verringert die Term-Frequency die Bedeutung von Wörtern, die in vielen Dokumenten vorkommen (z.B. Stoppwörter).

f) Richtig. Bei der Verwendung von Hidden Markov Modellen (HMMs) führen die verborgenen Zustände die Wörter. 





****************************************************************************************
****************************************************************************************




Answer to Question 2-1


a) Ein Modell, das diese Anforderungen erfüllt, könnte ein einfaches Neuronales Netzwerk (NN) mit einer einzigen Schicht und drei Ausgaben sein. Die Eingabe wäre die 300-dimensionale Word Embedding-Vektoren, die Zwischenoperationen könnten eine Reihe von Linear- und Sigmoid-Schichten sein, die Ausgabe wäre die Klassifizierungsproba für jede Klasse. Die Parameterdimensionen würden sich auf die Gewichte der Schichten und die Biases der Ausgaben beschränken.

b) Das Modell aus der vorherigen Teilfrage ist nicht geeignet, weil es auf Text-Daten trainiert wurde und die Audio-Daten nicht verwendet werden. Zudem sind die Spektrogramme nicht trainierbar, was bedeutet, dass sie nicht als Eingabe für das Modell verwendet werden können.

c) Ein verbessertes Modell könnte ein K-Nearest-Neighbors-Modell (KNN) sein. Die Eingabe wäre die 80-dimensionale Spektrogramme, die Zwischenoperationen könnten die Berechnung der Abstände zwischen den Spektrogrammen und den Klassenzentren sein, die Ausgabe wäre die Klassifizierung der Spektrogramme. Die Parameterdimensionen würden sich auf die Anzahl der Klassen und die Anzahl der Nachbarn beschränken. 





****************************************************************************************
****************************************************************************************




Answer to Question 2-2


a) Der Ansatz des Chefs, die Eingabe selbst und die Ausgabe die Dialog-Act-Klasse zuzuordnen, ist nicht optimal, weil es schwierig ist, die Eingabe in eine einzige Klasse zu ordnen, wenn sie mehrere Dialog-Act-Klassen enthält. Ein Beispiel dafür ist der Dialog zwischen Arzt und Patient, bei dem der Patient mehrere Symptome angibt. Hier würde das Modell mit Sicherheit einen Fehler machen, indem es den Dialog-Act-Klasse zuordnet, die nicht alle Symptome enthält.

b) Die Aufgabe kann als Sequenz-Labeling-Problem modelliert werden, da es darum geht, jede Eingabe in eine Dialog-Act-Klasse zu ordnen. Eine Matrix der Dimension anzahl_der_Eingaben $\times$ anzahl_der_Dialog-Act-Klassen kann verwendet werden, um die Eingabe zu beschreiben. Die Ausgabe ist dann die Klasse, die die Eingabe am besten beschreibt.

c) Ein Modell für die Dialog-Act-Identifizierung könnte wie folgt aussehen:

Eingabe: Die Eingabe besteht aus einer Sequenz von Wörtern, die von der Person gesagt wurden.

Zwischenoperationen: Die Eingabe wird in eine Matrix der Dimension anzahl_der_Eingaben $\times$ anzahl_der_Dialog-Act-Klassen transformiert. Jede Zeile der Matrix entspricht einer Eingabe und jede Spalte einer Dialog-Act-Klasse.

Ausgabe: Die Ausgabe ist die Klasse, die die Eingabe am besten beschreibt.

Dieses Modell kann verwendet werden, um jede Eingabe in eine Dialog-Act-Klasse zu ordnen. 





****************************************************************************************
****************************************************************************************




Answer to Question 3-1


a) Autoregressiv bedeutet, dass der Transformer-Decoder die Ausgabe des vorherigen Schritts als Eingabe verwendet.

b) Die Self-Attention des Transformer-Decoders wird teilweise ausgeblendet (masked out), um das Vorhersagen von Sequenzen zu ermöglichen, die nicht vollständig bekannt sind.

c) Die Gewichte, die ausgeblendet werden sollen, sind die Gewichte, die auf die Positionen in der Sequenz, die nicht vollständig bekannt sind, ausgeblendet werden.

d) In den Sequenzen "John loves Mary" und "Mary loves John" ist $\\bm{\\alpha}_{\\texttt{Mary}}$ gleich, da beide Sequenzen die gleiche Wortfolge enthalten. 





****************************************************************************************
****************************************************************************************




Answer to Question 3-2


a)

Eine Lösung für dieses Problem könnte sein, das Modell auf eine größere Datenmenge auszubilden, um die unbekannten Wörter besser zu erkennen und zu generieren. Eine weitere Lösung könnte sein, das Modell auf eine höhere Komplexität auszubilden, um es in der Lage zu bringen, komplexe Sätze zu verstehen und zu generieren.

b)

ROUGE-n basiert auf der Vergleichbarkeit zwischen den Ausgaben des Modells und den Referenz-Texten. Es wird die Übereinstimmung zwischen den beiden berechnet und gibt eine Wertskala von 0 bis 1 zurück.

c)

Trotz der nicht-grammatischen Ausgabe erhält das Modell hohe ROUGE-2-Werte, weil es die wichtigsten Informationen korrekt wiedergibt. Eine andere Metrik, die wir verwenden können, um das Problem der Wiederholungen zu vermeiden, ist die Perplexität. Die Perplexität ist ein Maß für die Wahrscheinlichkeit der Ausgabe, wenn wir die Wörter in der Ausgabe als unabhängig voneinander betrachten. Wenn die Perplexität hoch ist, bedeutet das, dass die Ausgabe sehr wahrscheinlich ist und weniger Wiederholungen enthält. Um die Anzahl der Wiederholungen zu reduzieren, könnten wir das Modell auf eine höhere Komplexität ausbauen, um es in der Lage zu bringen, komplexe Sätze zu verstehen und zu generieren. Alternativ könnten wir auch die Ausgabe manuell korrigieren, um die Wiederholungen zu reduzieren. 





****************************************************************************************
****************************************************************************************




Answer to Question 3-3


Antwort auf die Frage:

Ein Vorteil dieses Ansatzes ist, dass BERT als Text-Enocder bereits eine gute Repräsentation für Texteingaben erzeugt, die für die maschinelle Übersetzung benötigt werden. Ein Nachteil ist, dass BERT nicht speziell für die maschinelle Übersetzung trainiert wurde und daher möglicherweise nicht die besten Ergebnisse erzielen kann.

Um das Modell zu verbessern, könnte man versuchen, BERT mit speziellen Übersetzungsdaten zu trainieren, um es spezifisch für die maschinelle Übersetzung zu adaptieren. Dies würde die Leistung des Modells erhöhen und es in der Lage bringen, bessere Ergebnisse bei der maschinellen Übersetzung zu erzielen. 





****************************************************************************************
****************************************************************************************




Answer to Question 3-4


Die Frage bezieht sich auf die Text-to-SQL-Aufgabe, bei der Fragen in natürlicher Sprache in SQL-Abfragen übersetzt werden sollen. Das Beispiel zeigt eine minimale Struktur einer SQL-Abfrage, die eine Liste aller deutschen Spieler in der Bundesliga ausgibt.

Um ein Text-to-SQL-Modell zu trainieren, benötigen wir eine große Anzahl von Trainingsinstanzen. Jede Trainingsinstanz enthält die folgenden Informationen: Name der Tabelle, Spaltennamen in der Tabelle, eine Frage zu einer Information in einer Tabelle, eine gültige SQL-Abfrage, die der Frage entspricht. Alle Fragen können anhand der Informationen in der Tabelle beantwortet werden.

Um das Modell anzupassen, um mit unbeantwortbaren Fragen umzugehen, könnten wir das Modell so trainieren, dass es die unbeantwortbare Frage als ungültig erkennt und keine SQL-Abfrage erzeugt. Wenn die Frage nicht auf eine vorhandene Tabelle oder Spalte bezogen ist, würde das Modell die Frage als ungültig erkennen und keine SQL-Abfrage erzeugen. 





****************************************************************************************
****************************************************************************************




Answer to Question 4-1


a) Der Vorteil dieses Ansatzes besteht darin, dass die Adapter die BERT-Parameter fein abstimmen und die Leistung des Modells verbessern.

b) Die Adapter werden in jeder Schicht des BERT-Modells eingefügt. Sie sind Teil der Schicht 0 und werden in den folgenden Schichten wiederholt.

c) Die Anzahl der zusätzlichen Parameter, die das Modell erhält, hängt von der Anzahl der Adapter und den Dimensionen der Projektionen ab. Es ist jedoch nicht möglich, die genaue Anzahl der Parameter zu berechnen, da diese von der Anzahl der Adapter und den Dimensionen der Projektionen abhängt. 





****************************************************************************************
****************************************************************************************




Answer to Question 4-2


a) Der DPR verwendet Satzrepr\u00e4sentationen aus dem BERT-CLS-Token, um Vektoren fester Gr\u00f6\u00dfe f\u00fcr die Fragen und Passagen zu erstellen. Dieser Ansatz unterscheidet sich von dem Pooling (z.B. Meanpool oder Maxpool) der Wortvektoren als Satzrepr\u00e4sentationen. Der BERT-CLS-Token ist ein spezieller Token, das den Satz als Ganzheit darstellt und nicht nur die einzelnen Wörter. Die Vorteile des BERT-CLS-Tokens sind, dass es die semantische Bedeutung des Satzes besser erfasst und somit eine bessere Abstraktion des Satzes liefert.

b) Wenn wir die irrelevanten/negativen Paare im Trainingsziel weglassen, können wir sicherstellen, dass wir nur relevante Frage-Passagen-Paare einbeziehen. Dies ist wichtig, um sicherzustellen, dass das Modell nur relevante Informationen verwendet und nicht unnötig auf irrelevante Informationen zurückgreift. Wenn wir die irrelevanten/negativen Paare im Trainingsziel weglassen, können wir sicherstellen, dass das Modell nur relevante Informationen verwendet und nicht unnötig auf irrelevante Informationen zurückgreift. 





****************************************************************************************
****************************************************************************************




