Answer to Question 1-1


Antwort:

a) Falsch: One-Hot-Wortrepräsentationen dienen zur Darstellung eines Wortes als Vektor mit einer Einheit in der Position des jeweiligen Wortes und Nullen an allen anderen Stellen. Synonyme haben unterschiedliche Wörter und somit unterschiedliche One-Hot-Vektoren.

b) Richtig: Die englische Sprache hat eine reichere Morphologie als die deutsche Sprache, was bedeutet, dass die englische Sprache mehr Morpheme (lautliche und semantische Einheiten) hat als die deutsche Sprache.

c) Richtig: Die Syntax (Satzbau) steht in der Hierarchie der Sprache auf einer niedrigeren Ebene als die Semantik (Bedeutung). Die Syntax beschreibt, wie Wörter in Sätzen zusammengesetzt sind, während die Semantik die Bedeutung der Sätze und der Wörter beschreibt.

d) Falsch: Word2Vec wird anhand der lokalen Worthäufigkeitsmatrix trainiert, nicht der globalen.

e) Richtig: Wenn Byte-Pair-Encoding (BPE) für die Segmentierung von Teilwörtern angewendet wird, werden weniger häufige Wörter eher teilwort- als wortbasiert behandelt, da sie häufiger als Teilwörter auftreten als als vollständige Wörter.

f) Richtig: Im Vergleich zu Hidden Markov Modellen (HMMs) erlauben Conditional Random Fields (CRFs) eine einfachere Integration neuer Merkmale (Features), da CRFs die Abhängigkeiten zwischen Merkmalen explizit modellieren können, während HMMs die Abhängigkeiten zwischen Merkmalen implizit durch die Hidden Markov Model vermuten müssen.





****************************************************************************************
****************************************************************************************




Answer to Question 1-2


Antwort:

Word Embeddings, wie sie beispielsweise durch das Trainieren von Neuronalen Netzen mit großen Datenmengen wie Word2Vec oder GloVe erzeugt werden, bieten im Vergleich zu sparsen Merkmalen (sparse features) mehrere Vorteile im Bereich der Natürlichen Sprachverarbeitung (NLP). Hier zwei Gründe:

1. **Semantische und syntaktische Verwandtschaft**: Word Embeddings erlauben es, semantisch und syntaktisch verwandte Wörter nahe beieinander in der Vektorraumdarstellung zu positionieren. Dies ist nicht der Fall bei sparsen Merkmalen, die einzelne Funktionen oder Merkmale für jedes Wort repräsentieren.

2. **Komplexe Beziehungen**: Word Embeddings können komplexe Beziehungen zwischen Wörtern, wie z.B. Metaphern, Sinnschwund oder Polysemie, besser erfassen und darstellen als sparsen Merkmale. Dies ist besonders wichtig, da die Sprache oft komplexe und mehrdeutige Strukturen aufweist.

Zusätzlich bieten Word Embeddings die Möglichkeit, mit Hilfe von mathematischen Operationen wie Addition und Subtraktion semantisch verwandte Wörter zu finden und zu vergleichen. Dies ist nicht möglich, wenn man nur sparse Merkmale zur Verfügung hat.

Zusätzliche Information:

- Word2Vec: ein Algorithmus zur Erzeugung von Word Embeddings, der auf der Basis von Neuronalen Netzen mit zwei Schichten (Hidden Markov Modell und Skip-Gram-Modell) trainiert wird.
- GloVe: ein Algorithmus zur Erzeugung von Word Embeddings, der auf der Basis von Koherenzmatrix-Analyse und Neuronalen Netzen mit zwei Schichten (Global Word-Context und Local Context Window) trainiert wird.
- Semantische Verwandtschaft: die Beziehung zwischen Wörtern, die ähnliche Bedeutungen haben.
- Syntaktische Verwandtschaft: die Beziehung zwischen Wörtern, die in ähnlicher grammatischer Funktion innerhalb einer Satzstruktur stehen.
- Metaphern: eine Figur der Sprache, bei der ein Wort oder eine Gruppe von Wörtern auf ein anderes Wort oder eine Gruppe von Wörtern übertragen wird.
- Sinnschwund: die Veränderung des Sinns eines Wortes, wenn es in einem anderen Kontext verwendet wird.
- Polysemie: die Fähigkeit eines Wortes, mehrere Bedeutungen zu haben.





****************************************************************************************
****************************************************************************************




Answer to Question 1-3


Antwort:

a) Um Produktrepräsentationen abzuleiten, können wir folgende Operationen an der Co-Purchase-Matrix durchführen:
1. Normalisierung: Jeder Wert in der Matrix wird durch die Summe aller Elemente in der gleichen Zeile oder Spalte geteilt, um die Größe der Matrix nicht zu beeinflussen.
2. Transponierung: Die Spalten und Zeilen der Matrix tauschen ihre Rollen.
3. Berechnung der Korrelation: Die Korrelation zwischen jeder Paar von Produkten wird berechnet, indem die durchschnittliche Produktzahlen der jeweiligen Zeile bzw. Spalte subtrahiert und die Quadratsumme der Abweichungen berechnet wird. Anschließend wird die Quotient der beiden Ergebnisse berechnet.
4. Auswahl der positiven Korrelationen: Nur die Paare von Produkten mit positiver Korrelation werden als ähnlich betrachtet.

b) Um Nutzern, die Interesse an einem der Produkte gezeigt haben, ähnliche Produkte empfehlen zu können, können wir folgende Schritte durchführen:
1. Identifizieren der Produkte, für die der Nutzer eine bestimmte Interesse gezeigt hat.
2. Bestimmen der ähnlichen Produkte für jedes identifizierte Produkt, indem wir die Co-Purchase-Matrix verwenden und die Paare von Produkten mit positiver Korrelation suchen.
3. Empfehlen der ähnlichen Produkte an den Nutzer.

Beispiel:
Sagen wir, der Nutzer hat ein Interesse an Produkt $x_3$. Dann suchen wir in der Co-Purchase-Matrix nach den Paaren mit positiver Korrelation zu $x_3$. Wenn $x_3$ positiv korreliert mit $x_5$, dann empfehlen wir $x_5$ dem Nutzer.





****************************************************************************************
****************************************************************************************




Answer to Question 1-4


Antwort:

a) Eine Eigenschaft von CNNs, die für die Aufgabe der Spamerkennung von Vorteil ist, ist ihre Fähigkeit, lokale Merkmale zu erkennen und zu verarbeiten. Im Gegensatz zu RNNs, die die gesamte Eingabesequenz als Kontext betrachten, können CNNs lokale Merkmale in der Eingabe erkennen und sie in separaten Feature-Maps verarbeiten. Dadurch können sie bessere Merkmale für die Spamerkennung extrahieren.

b) Ein CNN-basiertes Modell für die Spamerkennung könnte wie folgt aufgebaut sein: Die Eingabe ist die E-Mail in Form eines Bildes, das durch eine Pixel-Wert-Matrix dargestellt wird. Die Eingabe wird zunächst mit einer Präprozessierungsstufe behandelt, um die E-Mail-Bilder in eine geeignete Form zu bringen. Dann werden mehrere Konvoluutionsebenen mit jeweils unterschiedlichen Filtern durchlaufen. Die Filtern erkennen lokale Merkmale in der Eingabe und erzeugen Feature-Maps. Die Feature-Maps werden durch Max-Pooling-Operationen reduziert, um die Invarianz gegenüber Verschiebungen der Merkmale zu gewährleisten. Die letzte Konvoluutionsebene erzeugt eine Feature-Map mit einer hohen Dimensionalität, die als Eingabe für eine vollständige Verarbeitungskette (Fully Connected Layer) mit einer Ausgabezahl von zwei (Spam/Ham) verwendet wird. Die Ausgabe ist die Wahrscheinlichkeit, dass die E-Mail ein Spam-Mail ist.

Die Größe der Feature-Map hängt von der Größe der Eingabe-Bilder und den Größen der Filtern ab.

c) Bei der Bewertung des Modells ist die Klassifizierungsgenauigkeit (accuracy) nicht geeignet, weil sie bei der großen Menge an Ham-Mails, die nicht Spam sind, immer nahezu 100 Prozent liegt. Stattdessen würden wir die False-Positive-Rate (FPR) und die False-Negative-Rate (FNR) empfehlen. Die FPR gibt an, wie häufig Ham-Mails als Spam klassifiziert werden, und die FNR gibt an, wie häufig Spam-Mails als Ham klassifiziert werden. Diese Metriken geben eine bessere Aussagekraft über die Leistung des Modells bei der Unterscheidung von Ham und Spam.





****************************************************************************************
****************************************************************************************




Answer to Question 1-5


Tom hat mich beeindruckt mit seinen NLP-Kenntnissen und hat mich eingeladen, in seinem Startup mitzuarbeiten. Dieser Startup spezialisiert sich auf die Extraktion von Krankheitsbezeichnungen in medizinischen Dokumenten. Er hat 10.000 solcher Dokumente erworben, in denen Krankheitsbezeichnungen markiert sind.

a) Tom hat die Geschäftsidee, aber nicht genügend technisches Wissen. Er bittet mich, ein Modell für diese Aufgabe vorzuschlagen. Seine einzige Bedingung ist, dass das Modell nicht RNN-basiert sein soll.

Meine Vorschlag für das Modell ist eine Variante des Support Vector Machines (SVM), die als Sequenzenklassifier bekannt ist. Das SVM-Modell wird folgendermaßen trainiert:

1. Die medizinischen Dokumente werden in Tokenisierungsschritte zerlegt. Jedes Token wird mit einem Vektor aus einem vorausgegebener Vektorraum (z.B. Word2Vec) initialisiert.
2. Die Token werden in N-gramme (z.B. Bigramme oder Trigramme) aggregiert. Jedes N-gramm wird ebenfalls mit einem Vektor aus dem Vektorraum initialisiert.
3. Die Vektoren der Tokens und N-gramme werden in eine Matrix A gesetzt. Die Zeilen der Matrix A entsprechen den Vektoren der Tokens und N-gramme, die Spalten entsprechen den Krankheitsbezeichnungen.
4. Die Matrix A wird mit einem Kernel multipliziert, um die Daten in eine höhere Dimension zu bringen.
5. Die Klassifikation erfolgt durch die Lösung eines Quadraturprogramms.

Die Ausgabe des Modells ist die Krankheitsbezeichnung, die am besten mit den Vektoren der Tokens und N-gramme korrespondiert.

b) Tom war sehr begeistert von den vortrainierten Word Embeddings und schlug vor, GloVe zu verwenden, um die Word Embeddings des von mir vorgeschlagenen Modells zu initialisieren.

Eine Herausforderung dieses Ansatzes ist, dass die medizinischen Dokumente sehr spezifische und domain-spezifische Sprache enthalten. Die Word Embeddings von GloVe sind allgemein trainiert und könnten nicht alle medizinischen Bezeichnungen erfassen. Um dieses Problem zu lösen, könnte man folgende Maßnahmen ergreifen:

1. Spezielle Word Embeddings für medizinische Bezeichnungen trainieren.
2. Synonyme und Verwandte Bezeichnungen erkennen und mit den entsprechenden Word Embeddings assoziieren.
3. Medizinische Bezeichnungen, die nicht in den Word Embeddings enthalten sind, mit anderen Techniken wie z.B. N-gramme oder CRFs zu identifizieren und mit entsprechenden Word Embeddings zu assoziieren.





****************************************************************************************
****************************************************************************************




Answer to Question 2-1


Antwort:

a) Bei dem einfachen Unigramm-Modell wird die Wahrscheinlichkeit einer Wortfolge durch die Wahrscheinlichkeiten der einzelnen Wörter bestimmt. Somit ergibt die Regel für Satz (1) "their" und für Satz (2) "there" die folgenden Wahrscheinlichkeiten:

Satz 1: p("He saw their football in the park") = p("He saw") * p("their") * p("football") * p("in") * p("the") * p("park")
= count("He saw") / N * count("their") / N * count("football") / N * count("in") / N * count("the") / N * count("park") / N

Satz 2: p("He saw their was a football") = p("He saw") * p("their") * p("was") * p("a") * p("football")
= count("He saw") / N * count("their") / N * count("was") / N * count("a") / N * count("football") / N

Da count("their") < count("was"), ergibt sich für Satz 2 die falsche Wahrscheinlichkeit und somit die falsche Korrektur. Dieses Modell ist nicht geeignet, da es nicht die Kontextinformation berücksichtigt.

b) Das Bigram-Modell berücksichtigt die Kontextinformation, indem es die Wahrscheinlichkeit zweier benachbarter Wörter miteinander verknüpft. Somit ergibt sich für Satz (1) die Wahrscheinlichkeit:

p("He saw their football in the park") = p("He saw their") * p("their football in the park" | "their football") * p("football in the park" | "football") * p("in the park" | "in") * p("the park" | "the")
= count("He saw their") / N * count("their football in the park" | "their football") / (count("their football") - count("their football in the park")) * count("football in the park" | "football") / (count("football") - count("football in the park")) * count("in the park" | "in") / (count("in") - count("in the park")) * count("the park" | "the") / (count("the") - count("the park"))

Für Satz (2) ergibt sich die Wahrscheinlichkeit:

p("He saw their was a football") = p("He saw their") * p("their was a football" | "their") * p("was a football" | "was") * p("a football" | "a")
= count("He saw their") / N * count("their was a football" | "their") / (count("their") - count("their was a football")) * count("was a football" | "was") / (count("was") - count("was a football")) * count("a football" | "a") / (count("a") - count("a football"))

Da count("their was a football") < count("their football in the park"), ergibt sich für Satz (2) die richtige Wahrscheinlichkeit und somit die richtige Korrektur. Dieses Modell ist besser als das Unigramm-Modell, da es die Kontextinformation berücksichtigt.

Allerdings kann das Bigram-Modell Probleme in der Praxis haben, da es eine große Anzahl an Bigrams erfordert, um eine genaue Wahrscheinlichkeit zu berechnen. Außerdem kann es Probleme mit Raritätswörtern geben, da diese in der Datenmenge selten vorkommen und somit nur wenige Beispiele zur Verfügung stehen. In solchen Fäll





****************************************************************************************
****************************************************************************************




Answer to Question 2-2


Antwort:

a) In der Abbildung "figures/Mask_under_MLM.pdf" kann die Maske bei MLM unter der Annahme eines Maskierungsverhältnisses von 20% an jeder Stelle angebracht werden, wo ein Wort aus der Eingabesequenz ist. Die genaue Position ist frei wählbar.

b) Ja, MLM und CLM benötigen im Allgemeinen mehr Iterationen über die Trainingsdaten, wenn andere Bedingungen unverändert bleiben. Das liegt daran, dass bei MLM und CLM die Modelle komplexer sind und mehr Schritte erforderlich sind, um die Maskierung oder die Kausalität korrekt zu modellieren.

c) Bei MLM ist das Verschieben der Eingabe um eine Position nach rechts nicht erforderlich, weil die Maskierung nicht an Positionen, sondern an Wörtern basiert. Das heißt, die Maske wird auf ein Wort in der Eingabesequenz angewendet, unabhängig von seiner Position.

d) PrefixLM ist oft leistungsfähiger als CLM, weil es einfacher zu trainieren ist. Bei PrefixLM wird das Modell nur für die Vorhersage eines Worts in der Eingabesequenz verantwortlich, während CLM das Modell für die Vorhersage eines Worts in der Eingabesequenz und die Vorhersage des nächsten Worts in der Eingabesequenz verantwortlich macht. Dadurch sind die Anforderungen an das Modell bei PrefixLM geringer, was zu einer höheren Leistung führt.

In der Abbildung "figures/Illustration_of_language_model_training.png" wird gezeigt, wie bei Sprachmodellierung die Trainingsdaten in eine Eingabesequenz und eine Zielsequenz aufgeteilt werden. Die Eingabesequenz wird dem Modell als Kontext bereitgestellt, und das Modell muss die Zielsequenz vorhersagen. In diesem Beispiel wird gezeigt, wie das Modell die Zielsequenz "the cat sat on the mat" vorhersagen muss, wenn es die Eingabesequenz "the cat sat on the " als Kontext erhält.





****************************************************************************************
****************************************************************************************




Answer to Question 2-3


Antwort:

a) Ja, die kontextuellen Embeddings für die beiden "left" im Satz sind identisch, weil das BERT-Modell ohne Positional Encoding arbeitet. Das bedeutet, dass das Modell die Reihenfolge der Wörter im Satz nicht berücksichtigt. Die Self-Attention Mechanism im Transformer-Modell hilft, die Bedeutung von Wörtern in einem Satz zueinander in Beziehung zu bringen. Die Query, Key und Value der Self-Attention sind alle aus dem gleichen Embedding des Wortes "left" abgeleitet, deshalb sind die kontextuellen Embeddings identisch.

b) Ja, das Skalarprodukt (dot-product) Attention kann verwendet werden, weil die Dimension der Attention-Query und der Attention-Key übereinstimmen müssen, damit das Skalarprodukt definiert ist. In diesem Fall haben beide die gleiche Dimension von 512.

c) Das Positional Encoding hilft dem Modell, unterschiedliche Positionen von Tokens im Satz zu erkennen, obwohl es keine trainierbaren Parameter hat. Es verwendet die Sinus- und Kosinus-Funktionen mit verschiedenen Frequenzen, die von der Position und der Merkmalsdimension abhängen. Dadurch werden die Embeddings der Tokens an verschiedenen Positionen leicht verschieden, sodass das Modell die Reihenfolge der Wörter im Satz berücksichtigen kann. Um ein trainierbares Positional Encoding zu erhalten, könnte man die Frequenzen der Sinus- und Kosinus-Funktionen als trainierbare Parameter einführen und diese während des Lernprozesses optimieren. Dies würde dem Modell die Fähigkeit geben, die Positionen der Tokens im Satz adaptiv zu verarbeiten.





****************************************************************************************
****************************************************************************************




Answer to Question 2-4


Antwort:

a) Falsch. Beam-Search und Greedy-Decoding unterscheiden sich in ihrer Struktur und Algorithmus. Beam-Search verwendet eine Beam-Width, um eine begrenzte Anzahl an Sequenzen zu erhalten und zu evaluieren, während Greedy-Decoding immer die nächstbeste Sequenz wählt. Letztendlich führt dies zu unterschiedlichen Ergebnissen, aber nicht zu unterschiedlichen Speicherplatzbedarfen.

b) Richtig. Wenn wir ein Ensemble von Textgenerierungsmodellen mit verschiedenen Vokabularen erstellen wollen, müssen wir jedes Modell separat trainieren und kodieren. Dies erfordert mehr Speicherplatz als das Training und Kodieren eines einzelnen Modells.

c) Richtig. Wenn wir die Satzwahrscheinlichkeit nicht nach der Sequenzlänge normalisieren, werden kürzere Sequenzen mit höheren Wahrscheinlichkeiten bevorzugt, da sie eine höhere Gesamtsatzwahrscheinlichkeit aufweisen können. Dies kann zu unrealistischen oder unvollständigen Sequenzen führen.

d) Richtig. Top-k-Sampling reduziert die Ausgabe auf die k besten Sequenzen, was eine höhere Variabilität der erzeugten Ausgabe bewirkt. Der Wert von k kann also einen Einfluss auf die Ausgabe haben.





****************************************************************************************
****************************************************************************************




Answer to Question 2-5


Antwort:

Die Unterschiede im Wortlaut zwischen den beiden Systemen 1 und 2 in diesem Beispiel sind geringfügig und sollten nicht signifikant auf die Bewertungsscores wie BLEU oder COMET auswirken. Die Hauptunterschiede zwischen den beiden Systemen liegen in der Reihenfolge der Wörter und der Art der Verbindung der Wörter.

BLEU (Bilingual Evaluation Understudy) und COMET (Consensus-based Open Multilingual Evaluation Initiative) sind zwei häufig verwendete Automatische Übersetzungswertungssysteme. Sie messen die Qualität der Maschinübersetzung anhand der Übereinstimmung mit einer Referenzübersetzung. Die Wortlautunterschiede zwischen den Systemen 1 und 2 im obigen Beispiel sind nicht ausreichend groß, um die Bewertungsscores signifikant zu beeinflussen.

BLEU und COMET fokussieren hauptsächlich auf die Nähe der Übersetzung zum Referenztext in Bezug auf Wörter, Phrasen und Sätze. Der Wortlautunterschied zwischen den beiden Systemen im Beispiel ist gering, da beide Systeme die gleichen Wörter verwenden, lediglich die Reihenfolge und die Art der Verbindung unterscheiden sich.

In der Praxis können sich Unterschiede im Wortlaut auf die Bewertungsscores auswirken, wenn sie die semantische Bedeutung der Sätze verändern. In solchen Fällen ist es wichtig, die semantische Äquivalenz der Sätze zu berücksichtigen, um die Bewertungsscores zu korrigieren.

In diesem Beispiel sind die semantischen Bedeutungen der Sätze von System 1 und System 2 identisch, sodass die Wortlautunterschiede nicht signifikant auf die Bewertungsscores auswirken.





****************************************************************************************
****************************************************************************************




Answer to Question 3-1


Answer:

a) Die Ansätze nach der Anzahl der trainierten Parameter in der aufgabenspezifischen Anpassungsphase ordnen sich wie folgt:
1. Direct Prompting: In diesem Ansatz werden keine zusätzlichen Parameter trainiert. Die Modelle werden lediglich mit einem Prompt versehen, der die Aufgabe beschreibt.
2. (Promptless) Finetuning: Hierbei werden die Modelle mit den vorhandenen Parametern auf die Aufgabe angepasst. Neue Parameter werden nicht trainiert.
3. In-Context Learning: In diesem Ansatz werden neue Parameter trainiert, indem das Modell mit Beispielen für die Aufgabe zusammengearbeitet.

b) Die Ansätze nach der Speichermenge, die für die Inferenz (Decoding) benötigt werden, ordnen sich wie folgt:
1. Direct Prompting: In diesem Ansatz benötigen die Modelle nur die Größe des Prompts, um die Aufgabe zu lösen.
2. (Promptless) Finetuning: Hierbei benötigen die Modelle die Größe der vorhandenen Parametermasse, um die Aufgabe zu lösen.
3. In-Context Learning: In diesem Ansatz benötigen die Modelle die Größe der Parametermasse, die für die Aufgabe trainiert wurde, um die Aufgabe zu lösen.

c) Für eine bestimmte Aufgabe mit 8 Eingabe-Ausgabe-Paaren wäre der Ansatz der In-Context Learning am geeignetesten. Dieser Ansatz ermöglicht dem Modell, die Aufgabe durch Beispiele zu verstehen und zu lösen. Die anderen Ansätze, Direct Prompting und (Promptless) Finetuning, könnten auch funktionieren, aber sie könnten mehr Aufwand erfordern oder weniger genau sein.





****************************************************************************************
****************************************************************************************




Answer to Question 3-2


Antwort:

a) Bei Finetuning mit Adaptern nach jeder Schicht werden zwei lineare Projektionen mit ReLU dazwischen hinzugefügt. Jede lineare Projektion projiziert die Größe der Eingabe um die Hälfte auf 256 Dimensionen. Da jede Schicht zwei lineare Projektionen hat, ergibt sich für jede Schicht ein neues Set an Parametern. Da das Modell 12 Schichten hat, werden insgesamt 12 Schichten × 2 Projektionen × (2 × 1024) Parametern trainiert.

b) Bei Prompt-Tuning sind 50 Tokens reserviert, die während des Finetuning-Prozesses trainiert werden. Jeder Token-Embedding hat eine Größe von 1024 Dimensionen. Daher werden insgesamt 50 Tokens × 1024 Dimensionen = 51.200 Parameter trainiert.

c) Das Modell mit Prompt-Tuning hat insgesamt weniger Parameter als das Modell mit Adapters, da es keine Adapter-Parameter hat. Es scheint, dass der Speicherplatz-Defizit beim Decoding auf andere Faktoren zurückzuführen ist, wie z.B. auf die Größe der Eingabe oder die Größe der Ausgabe.

d) Der Hauptunterschied zwischen Prompt-Tuning und Prefix-Tuning liegt in der Art und Weise, wie die Eingabe während des Finetuning-Prozesses trainiert wird. Bei Prompt-Tuning wird der Prompt als fixiertes Teil der Eingabe betrachtet, während der Rest der Eingabe variabel ist. Bei Prefix-Tuning wird der Prefix als fixiertes Teil der Eingabe betrachtet, während der Rest der Eingabe variabel ist.

Vorteil von Prompt-Tuning: Es erlaubt eine feinere Abstimmung des Modells auf spezifische Aufgaben, indem es den Prompt trainiert, der das Modell auf die Aufgabe zugeschnitten ist.

Nachteil von Prompt-Tuning: Es erfordert mehr Daten und Recursion-Ressourcen, da es mehr Tokens trainiert.





****************************************************************************************
****************************************************************************************




Answer to Question 3-3


Antwort:

a) Um das vortrainierte Modell um Informationen aus dem Objekterkennungsmodell zu erweitern, können wir ein sogenanntes Attention-Mechanismus einführen. Dabei handelt es sich um eine Art von Mechanismus, der das Modell auf bestimmte Teile des Inputs (z.B. Objekte aus dem Objekterkennungsmodell) fokussieren lässt. Dazu werden die Objekte aus dem Objekterkennungsmodell als zusätzliche Quellen für die maschinelle Übersetzung hinzugefügt. Die Eingabe des Modells besteht nun aus zwei Teilen: dem Texteingabesatz und der Liste der Objekte mit ihren Bezeichnungen. Die Ausgabe des Modells ist die maschinell übersetzte Beschreibung des Bildes. Wenn die Objektbezeichnung nicht im Vokabular des trainierten Übersetzungsmodells enthalten ist, können wir sie entweder durch eine allgemeine Bezeichnung (z.B. "Gegenstand X") ersetzen oder wir können das Wort in der Beschreibung des Bildes selbst einfügen, um die Übersetzung zu erleichtern.

b) Um zu analysieren, ob das Modell die Informationen aus dem Objekterkennungsmodell nutzt, können wir die Ausgabe des Modells mit und ohne die Informationen aus dem Objekterkennungsmodell vergleichen. Dazu können wir das Modell zweimal anwenden: einmal mit und einmal ohne die Objekte aus dem Objekterkennungsmodell als zusätzliche Inputs. Wenn die Ausgabe mit den Objekten deutlich besser ist als ohne, kann man schließen, dass das Modell die Informationen aus dem Objekterkennungsmodell nutzt.

c) Um das vortrainierte Übersetzungsmodell um zusätzliche Bildinformationen zu erweitern, können wir das kodierte Bild als zusätzlichen Input hinzufügen. Dazu wird das kodierte Bild als 1024-dimensionaler Vektor in die Eingabe des Modells eingefügt. Die Ausgabe des Modells ist die maschinell übersetzte Beschreibung des Bildes. Wenn die Größe des kodierten Bildvektors nicht mit der Embedding-Dimension des Übersetzungsmodells übereinstimmt, kann man das Bildvektor entweder durch Truncation oder durch eine lineare Projektion auf die Embedding-Dimension reduzieren.





****************************************************************************************
****************************************************************************************




Answer to Question 3-4


Antwort:

a) Die Retrieval-Augmented Generation (RAG) unterscheidet sich von der traditionellen Generierung durch die Kombination von Textgenerierung und Retrieval-Prozessen. RAG nutzt Informationen aus externen Quellen, die während des Textgenerierungsprozesses abgerufen und in den Kontext des Generierungsprozesses integriert werden. Dadurch kann RAG die Wahrheitsgehalt von Large Language Models verbessern, indem es die Modelle mit Fakten aus der Realwelt korrigiert und ergänzt.

b) Halluzinationen bei der maschinellen Übersetzung sind schwerer zu erkennen als bei der allgemeinen Texterstellung mit Large Language Models, weil sie in der Regel in der ursprünglichen Sprache des Textes vorkommen und nur bei der Übersetzung sichtbar werden. In der Texterstellung mit Large Language Models sind Halluzinationen oft direkt im Text enthalten und leichter zu erkennen.

c) Das Training von Large Language Models auf lange Dokumente wird oft aufgrund von Speicherbeschränkungen abgeschnitten. Dies kann zu Problemen mit der Modellhalluzination führen, da das Modell auf die unvollständigen Dokumente trainiert wird und möglicherweise Fehler oder Falschinformationen enthält. Das Problem kann durch das Trainieren des Modells auf kompletten Dokumenten oder durch die Verwendung von Speicheroptimierungsverfahren wie Compression oder Chunking gelöst werden.





****************************************************************************************
****************************************************************************************




