Answer to Question 1-1


a) Falsch. One-Hot-Wortrepräsentationen werden verwendet, um Synonyme zu finden, indem sie die Häufigkeit jedes Wortes in einem Text bereitstellen.

b) Falsch. Die deutsche Sprache ist morphologisch reicher als die englische Sprache.

c) Falsch. Die Syntax steht in der Hierarchie der Sprache auf einer höheren Ebene als die Semantik.

d) Falsch. Word2Vec wird anhand der lokalen Worthäufigkeitsmatrix trainiert.

e) Falsch. Wenn Byte-Pair-Encoding (BPE) für die Segmentierung von Teilwörtern angewendet wird, werden weniger häufige Wörter eher wortbasiert als teilwort-basiert.

f) Falsch. CRFs erlauben eine einfachere Integration von neuen Merkmalen (features) als HMMs. 





****************************************************************************************
****************************************************************************************




Answer to Question 1-2


Eine mögliche Antwort auf diese Frage lautet:

"Dichte Word Embeddings im NLP gegenüber sparsen Merkmalen bevorzugt werden, weil sie eine bessere Repräsentation der Sprache und der semantischen Bedeutung von Wörtern bieten. Dichte Word Embeddings können die semantische Bedeutung von Wörtern besser erfassen, da sie die Verbindungen zwischen Wörtern und Kontexten besser erfassen. Sparse Merkmale können dagegen nur einzelnes Merkmal pro Wort darstellen und können daher nicht die semantische Bedeutung von Wörtern so gut erfassen. Die bessere Repräsentation der Sprache und der semantischen Bedeutung von Wörtern ist wichtig, um bessere Ergebnisse in NLP-Anwendungen zu erzielen, wie zum Beispiel in der Sentiment Analysis oder in der Text-Klassifikation." 





****************************************************************************************
****************************************************************************************




Answer to Question 1-3


a) Um Repräsentationen für die Produkte zu erstellen, können Sie die Co-Purchase-Matrix verwenden, um die Häufigkeit der Kombinationen der Produkte zu ermitteln. Sie können dann die Produkte in Gruppen einteilen, die sich ähneln oder zusammengehören. Zum Beispiel könnten Sie Produkte, die oft zusammen gekauft werden, in eine Gruppe einfügen. Sie können auch die Produkte in Gruppen einteilen, die sich gegenseitig ergänzen oder ergänzen können.

b) Um Nutzern, die Interesse an einem der Produkte gezeigt haben, weitere Produkte zu empfehlen, können Sie die Produktrepräsentationen verwenden, um die Verbindungen zwischen den Produkten zu erkennen. Sie können dann die Produkte in einer Gruppe einfügen, die sich gegenseitig ergänzen oder ergänzen können. Zum Beispiel könnten Sie Produkte, die oft zusammen gekauft werden, in eine Gruppe einfügen. Sie können auch die Produkte in einer Gruppe einfügen, die sich gegenseitig ergänzen oder ergänzen können. Sie können dann die Produkte in der Gruppe empfehlen, die sich am besten mit den Produkten des Nutzers verbinden. 





****************************************************************************************
****************************************************************************************




Answer to Question 1-4


a) Eine Eigenschaft von CNNs, die f\u00fcr die Aufgabe der Spamerkennung von Vorteil ist, ist ihre Fähigkeit, lokale Strukturen in der Eingabe zu erkennen. CNNs sind daher in der Lage, bestimmte Merkmale in den Eingaben zu erkennen, die für die Spamerkennung relevant sind. RNNs hingegen sind nicht in der Lage, lokale Strukturen zu erkennen, da sie die gesamte Eingabe als Sequenz behandeln und nicht die einzelnen Elemente.

b) Ein CNN-basiertes Modell f\u00fcr die Spamerkennung könnte wie folgt aussehen:

* Eingabe: Die gesamte E-Mail wird in ein Bild konvertiert, das die E-Mail-Inhalte enthält.
* Zwischenoperationen: Das Bild wird durch eine Kernelfiltration (Convolutional Layer) verarbeitet, um Merkmale in den Eingaben zu erkennen. Diese Operation wird mehrfach durchgeführt, um die Merkmale zu verfeinern.
* Ausgabe: Die Feature-Map enthält die Merkmale, die für die Spamerkennung relevant sind. Diese werden dann durch eine Klassifizierungsschicht (Classification Layer) verwendet, um die E-Mail als Spam oder Nicht-Spam zu klassifizieren.

Die Gr\u00f6\u00dfe der Feature-Map hängt von der Gr\u00dfe der Eingabe und der Anzahl der Kernelfiltrationen ab.

c) Eine alternative Metrik, die Tom vorschlagen könnte, ist die Precision. Die Precision ist die Anzahl der richtig klassifizierten E-Mails geteilt durch die Anzahl der richtig klassifizierten E-Mails und die Anzahl der falschen Klassifizierungen. Die Precision gibt an, wie genau das Modell die Spam-E-Mails identifiziert. Eine hohe Precision bedeutet, dass das Modell wenige falsche Spam-E-Mails als Nicht-Spam klassifiziert. Eine weitere Metrik wäre die Recall-Rate, die die Anzahl der richtig identifizierten Spam-E-Mails geteilt durch die Anzahl der tatsächlichen Spam-E-Mails. Die Recall-Rate gibt an, wie viele Spam-E-Mails das Modell tatsächlich identifiziert. Eine hohe Recall-Rate bedeutet, dass das Modell viele Spam-E-Mails korrekt identifiziert. 





****************************************************************************************
****************************************************************************************




Answer to Question 1-5


a) Die Eingabe des Modells besteht aus den 10.000 Dokumenten, in denen Krankheitsbezeichnungen markiert sind. Die Zwischenoperationen bestehen aus der Verarbeitung der Dokumente, um die Krankheitsbezeichnungen zu identifizieren und zu markieren. Die Ausgabe des Modells sind die markierten Krankheitsbezeichnungen in den Dokumenten.

b) Eine Herausforderung dieses Ansatzes ist, dass GloVe nicht speziell auf die Extraktion von Krankheitsbezeichnungen in medizinischen Dokumenten optimiert ist. Um diese Herausforderung zu überwinden, könnten Sie das Modell mit speziellen Krankheitsbezeichnungen trainieren, um es spezifisch auf diese Aufgabe zu optimieren. Sie könnten auch die GloVe-Word Embeddings mit anderen, speziellen Word Embeddings kombinieren, um das Modell zu verbessern. 





****************************************************************************************
****************************************************************************************




Answer to Question 2-1


Die obige Regel f\u00fcr die beiden S\u00e4tze ergibt, dass das Modell "their" vorhersagen sollte, da die Wahrscheinlichkeit von "their" im ersten Satz höher ist als die Wahrscheinlichkeit von "there". Dies ist eine gute L\u00fösung, da es sich um eine korrekte Rechtschreibung handelt.

Das einfache Bigram-Modell könnte besser sein als das einfache Unigramm-Modell, da es die Wahrscheinlichkeit von Wörtern im Zusammenhang mit anderen Wörtern berücksichtigt. Dies kann helfen, die Wahrscheinlichkeit von Wörtern zu korrigieren, die in einem bestimmten Kontext vorkommen. Ein Beispiel dafür ist das Wort "their", das im ersten Satz in einem Kontext mit "He saw" vorkommt und daher eine höhere Wahrscheinlichkeit hat.

Das Bigram-Modell kann jedoch in der Praxis Probleme haben, da es auf die Wahrscheinlichkeit von Wörtern im Zusammenhang mit anderen Wörtern basiert. Wenn die Wahrscheinlichkeit von Wörtern im Kontext mit anderen Wörtern niedrig ist, kann das Modell falsche Ergebnisse liefern. Ein Beispiel dafür ist das Wort "there", das im zweiten Satz in einem Kontext mit "was" vorkommt und daher eine niedrigere Wahrscheinlichkeit hat. Das Modell könnte daher falsch "there" vorhersagen, obwohl es die korrekte Schreibweise ist. 





****************************************************************************************
****************************************************************************************




Answer to Question 2-2


a) Die Maske bei MLM unter der Annahme eines Maskierungsverhältnisses von 20% wird in der Abbildung "figures/Mask_under_MLM.pdf" an den Start-Token und an den End-Token angebracht.

b) MLM oder CLM erfordert mehr Iterationen über die Trainingsdaten, wenn andere Bedingungen unverändert bleiben, um die Modelle zu verbessern. Dies ist erforderlich, da die Modelle mehr Daten benötigen, um sich auf die Sprachmodellierung zu konzentrieren.

c) MLM erfordert nicht, dass die Eingabesequenzen wie bei CLM um eine Position nach rechts verschoben werden. Das Verschieben der Eingabe um eine Position nach rechts bedeutet, dass z.B. in Abbildung "figures/Mask_under_MLM.pdf" die Eingabe wie folgt aussehen würde: Start-Token, $w_1$, ..., $w_n$.

d) PrefixLM ist oft leistungsfühiger als CLM, wenn andere Bedingungen unverändert bleiben. Dies ist erforderlich, da PrefixLM die Modelle auf die Sprachmodellierung konzentrieren lässt, indem es die Eingabesequenzen um eine Position nach rechts verschoben. Dies führt zu einer besseren Verarbeitung der Daten und einer höheren Leistung der Modelle. 





****************************************************************************************
****************************************************************************************




Answer to Question 2-3


a) Ja, die kontextuellen Embeddings für die beiden "left" im Satz sind die gleichen. Das liegt daran, dass die BERT-Architektur ein Positional Encoding verwendet, das die Positionen der Wörter im Satz nicht berücksichtigt. Daher sind die Embeddings für "left" in jedem Fall die gleichen, unabhängig davon, in welcher Position das Wort "left" im Satz steht.

b) Ja, das Skalarprodukt (dot-product) Attention kann verwendet werden, um die Attention-Query mit der Attention-Key zu vergleichen. Das Skalarprodukt ergibt eine Skalarwert, der die Übereinstimmung zwischen Query und Key misst. Die höhere der Skalarwerte, desto höher die Gewichtung des Wortes im Satz.

c) Das Positional Encoding hat selbst keine trainierbaren Parameter und ist auf die in Gl. \\ref{eq:posEncoding} definierten Werte festgelegt. Es kann jedoch durch eine trainierbare Funktion ersetzt werden, die die Positionen der Wörter im Satz berücksichtigt. Eine Möglichkeit wäre, die Positionen der Wörter im Satz als Eingabe für eine trainierbare Funktion zu geben und die Funktion so zu trainieren, dass sie die Positionen der Wörter im Satz in die Lage versetzt, unterschiedlich zu behandeln. 





****************************************************************************************
****************************************************************************************




Answer to Question 2-4


a) Falsch. Greedy-Decoding erfordert weniger Speicherplatz als Beam-Search, da es nur eine Sequenz pro Zeichen ausgibt und keine parallelisierte Suche durchführt.

b) Falsch. Wir können ein Ensemble von Textgenerierungsmodellen mit verschiedenen Vokabularen erstellen, indem wir jedes Modell auf einem eigenen Datensatz trainieren und die Ausgaben kombinieren.

c) Falsch. Wenn wir bei der Dekodierung die Satzwahrscheinlichkeit nicht nach der Sequenzlänge normalisieren, werden kürzere Sequenzen bevorzugt, da sie eine höhere Wahrscheinlichkeit haben.

d) Falsch. Ein höherer Wert von k führt zu einer höheren Variabilität der erzeugten Ausgabe, da es mehr mögliche Ausgaben gibt, die von den Modellen erzeugt werden können. 





****************************************************************************************
****************************************************************************************




Answer to Question 2-5


Die Frage bezieht sich auf die Bewertung von Übersetzungen. Es wird untersucht, wie sich der Wortlaut auf die Bewertung von BLEU und COMET auswirkt. BLEU und COMET sind Algorithmen, die die Qualität von Übersetzungen messen.

In diesem Fall wird die Frage diskutiert, ob der Wortlaut in der deutschen Referenzübersetzung besser bewertet wird als in den beiden anderen Systemen. Es wird angenommen, dass der Wortlaut in der deutschen Referenzübersetzung besser ist, da er spezifischer ist und die Frage besser verstehbar macht.

Es wird auch diskutiert, wie sich der unterschiedliche Wortlaut auf die Bewertung von BLEU und COMET auswirkt. Es wird angenommen, dass der Wortlaut in der deutschen Referenzübersetzung besser bewertet wird als in den beiden anderen Systemen.

Es ist jedoch zu beachten, dass die Bewertung von BLEU und COMET auf mehreren Faktoren basiert, wie zum Beispiel der Übersetzungsgüte, der Sprachähnlichkeit und der Kontext. Der Wortlaut ist nur ein Teil der Bewertung und kann nicht die einzige Kriterien sein. 





****************************************************************************************
****************************************************************************************




Answer to Question 3-1


a) Die Ansätze sind in der Reihenfolge nach der Anzahl der trainierten Parameter in der aufgabenspezifischen Anpassungsphase geordnet:

1. Direct Prompting
2. In-Context Learning
3. (Promptless) Finetuning

Die Anzahl der trainierten Parameter in der aufgabenspezifischen Anpassungsphase ist die höchste bei (Promptless) Finetuning, da es hierbei um eine vollständige Anpassung des Modells an die Aufgabe geht. In-Context Learning und Direct Prompting sind dagegen Ansätze, bei denen das Modell nicht vollständig an die Aufgabe angepasst wird, sondern lediglich einige Parameter angepasst werden.

b) Die Ansätze sind in der Reihenfolge nach der f\u00für die Inferenz (Decoding) benötigten Speichermenge geordnet:

1. Direct Prompting
2. In-Context Learning
3. (Promptless) Finetuning

Die Anzahl der trainierten Parameter in der aufgabenspezifischen Anpassungsphase ist die höchste bei (Promptless) Finetuning, da es hierbei um eine vollständige Anpassung des Modells an die Aufgabe geht. In-Context Learning und Direct Prompting sind dagegen Ansätze, bei denen das Modell nicht vollständig an die Aufgabe angepasst wird, sondern lediglich einige Parameter angepasst werden.

c) Wenn es um eine bestimmte Aufgabe geht, die 8 Eingabe-Ausgabe-Paare enthält, würde ich (Promptless) Finetuning wählen. Dies ist die beste Möglichkeit, das Modell an die Aufgabe anzupassen, da es hierbei um eine vollständige Anpassung des Modells an die Aufgabe geht. In-Context Learning und Direct Prompting sind dagegen Ansätze, bei denen das Modell nicht vollständig an die Aufgabe angepasst wird, sondern lediglich einige Parameter angepasst werden. 





****************************************************************************************
****************************************************************************************




Answer to Question 3-2


a) In der Finetuning-Phase werden die Parameter der Adapter trainiert. Jeder Adapter besteht aus zwei linearen Projektionen mit ReLU dazwischen. Die lineare Projektion projiziert bis auf 256 Dimensionen. Es gibt also 12 Adapter, jedes mit 2 linearen Projektionen und einem ReLU, was 72 lineare Projektionen und 12 ReLUs ergibt. Da jede lineare Projektion 256 Parameter hat, gibt es insgesamt 18.432 Parameter, die in der Finetuning-Phase trainiert werden.

b) Im Prompt-Tuning werden die Parameter des Prompts trainiert. Es gibt 50 Tokens reserviert, was 50 lineare Projektionen und 50 ReLUs ergibt. Da jede lineare Projektion 256 Parameter hat, gibt es insgesamt 12.800 Parameter, die in der Finetuning-Phase trainiert werden.

c) Der Speicherplatz des Modells mit Prompt-Tuning ist größer als der des Modells mit Adapters, obwohl es insgesamt weniger Parameter hat. Dies kann darauf zurückzuführen, dass die linearen Projektionen im Prompt-Tuning größere Dimensionen haben als die Adapter im Adapter-Tuning.

d) Der Hauptunterschied zwischen Prompt-Tuning und Prefix-Tuning besteht darin, dass im Prompt-Tuning der Prompt trainiert wird, während im Prefix-Tuning der Prefix trainiert wird. Ein Vorteil des Prompt-Tuning ist, dass es die Möglichkeit gibt, den Prompt direkt zu trainieren, was zu einer besseren Feinabstimmung führen kann. Ein Nachteil des Prompt-Tuning ist, dass es mehr Parameter trainiert, was zu einer höheren Computational Complexität führt. 





****************************************************************************************
****************************************************************************************




Answer to Question 3-3


a) Um das vortrainierte Modell zu anpassen, um Informationen aus dem Objekterkennungsmodell zu nutzen, könnten wir ein neues Layer hinzufügen, das die Ausgabe des Objekterkennungsmodells verwendet. Dieses Layer könnte die Liste der Objekte in eine Form umwandeln, die das \u00dcbersetzungsmodell verarbeiten kann. Wenn die Objektbezeichnung nicht im Vokabular des trainierten \u00dcbersetzungsmodells enthalten ist, könnten wir das Modell so anpassen, dass es die Objektbezeichnung als neue Wörter in das Vokabular einfügt.

b) Um zu analysieren, ob das Modell die Informationen aus dem Objekterkennungsmodell nutzt, könnten wir das Modell mit einem anderen Modell vergleichen, das nur den Texteingabesatz zur \u00dcbersetzung verwendet. Wenn das Modell die Informationen aus dem Objekterkennungsmodell nutzt, sollte es bessere Ergebnisse liefern.

c) Um das vortrainierte \u00dcbersetzungsmodell zu anpassen, um zusätzlich das kodierte Bild zu verwenden, könnten wir ein neues Layer hinzufügen, das die Ausgabe des Bildkodierers verwendet. Dieses Layer könnte die 1024-dimensionale Vektoren in eine Form umwandeln, die das \u00dcbersetzungsmodell verarbeiten kann. Wenn die Gr\u00f6\u00dfe des kodierten Bildes nicht mit der Embedding-Dimension des \u00dcbersetzungsmodells übereinstimmt, könnten wir das Modell so anpassen, dass es die Bildinformationen in eine Form umwandelt, die mit der Embedding-Dimension des Modells übereinstimmt. 





****************************************************************************************
****************************************************************************************




Answer to Question 3-4


a) Die Retrieval-Augmented Generation (RAG) unterscheidet sich von der traditionellen Generierung durch den Einsatz von Retrieval-Techniken, die es ermöglichen, Informationen aus großen Datenbanken oder Textdatenbanken zu holen und diese in die Generierung einzubringen. Dadurch kann RAG die Wahrheitsgehalt von Large Language Models verbessern, indem es sicherstellen kann, dass die Generierung auf aktuellen und relevanten Informationen basiert.

b) Ja, Halluzinationen bei der maschinellen Übersetzung können leichter zu erkennen sein als bei der allgemeinen Texterstellung mit Large Language Models. Dies ist wegen der höheren Anzahl an Informationen und der höheren Komplexität der Texte bei der Übersetzung der Fall.

c) Das Problem der Modellhalluzination kann durch die Verwendung von Speicherbeschränkungen bei der Training von Large Language Models entstehen, da lange Dokumente oft abgeschnitten werden und somit nicht vollständig trainiert werden können. Dies kann zu Problemen führen, da die Modelle dann nicht in der Lage sind, die vollständige Informationen zu verarbeiten und Halluzinationen produzieren können. Um das Problem zu lösen, kann man die Modelle auf eine höhere Anzahl von Dokumenten trainieren oder die Speicherbeschränkungen erhöhen, um längere Dokumente zu trainieren. 





****************************************************************************************
****************************************************************************************




