Answer to Question 1-1


a) Falsch. One-Hot-Wortrepräsentationen können nicht verwendet werden, um Synonyme zu finden, da sie nur die Anwesenheit oder Abwesenheit eines Wortes in einem Vokabular anzeigen und keine Beziehungen zwischen Wörtern berücksichtigen.

b) Falsch. Die deutsche Sprache ist morphologisch reicher als die englische, da sie mehr Fälle und flektierte Formen hat.

c) Richtig. Die Syntax bezieht sich auf die Struktur und Anordnung von Wörtern in einem Satz, während die Semantik sich auf die Bedeutung der Wörter und Sätze bezieht. Die Syntax steht in der Hierarchie der Sprache auf einer niedrigeren Ebene als die Semantik, da sie die Bausteine für die Bedeutung bereitstellt.

d) Falsch. Word2Vec wird nicht anhand der globalen Worthäufigkeitsmatrix trainiert, sondern anhand von Kontextwörtern in einem Textkorpus.

e) Richtig. Wenn Byte-Pair-Encoding (BPE) für die Segmentierung von Teilwörtern angewendet wird, werden weniger häufige Wörter eher teilwort- als wortbasiert segmentiert, da BPE versucht, häufige Subwort-Einheiten zu identifizieren und diese als Bausteine für die Segmentierung zu verwenden.

f) Richtig. Im Vergleich zu HMMs erlauben CRFs eine einfachere Integration von neuen Merkmalen, da CRFs eine probabilistische Modellierung der gesamten Sequenz verwenden und nicht wie HMMs eine separate Modellierung für jedes Wort in der Sequenz.





****************************************************************************************
****************************************************************************************




Answer to Question 1-2


Zwei Gründe, warum dense Word Embeddings im NLP gegenüber sparse features bevorzugt werden, sind:

1. Dense Word Embeddings sind kontinuierlich und glatt, was bedeutet, dass sie mathematischen Operationen wie Addition, Subtraktion und Multiplikation zugänglich sind. Diese Eigenschaft ermöglicht es, komplexe semantische Beziehungen zwischen Wörtern zu erfassen und zu modellieren, was bei sparse features nicht möglich ist.

2. Dense Word Embeddings sind in der Lage, die Beziehungen zwischen Wörtern mit ähnlicher Bedeutung zu erfassen und zu repräsentieren, was zu besseren Ergebnissen in vielen NLP-Aufgaben führt. Im Gegensatz dazu sind sparse features oft binär und repräsentieren nur die Anwesenheit oder Abwesenheit eines bestimmten Merkmals, was zu einer eingeschränkteren Fähigkeit führt, die Beziehungen zwischen Wörtern zu erfassen.





****************************************************************************************
****************************************************************************************




Answer to Question 1-3


Die Antwort auf die Frage a) lautet:

Um ähnliche Ideen wie beim Lernen von Wortrepräsentationen zu verwenden, können wir die Co-Purchase-Matrix als eine Matrix von Kopplungsstärken zwischen Produkten betrachten. Wir können dann die Produktrepräsentationen durch eine Matrixfaktorisierung ableiten, wie z.B. die Singulärwertzerlegung (SVD) oder die nichtnegative Matrixfaktorisierung (NMF).

Im Fall der SVD faktorisieren wir die Co-Purchase-Matrix $M$ in drei Matrizen $M = U \Sigma V^T$, wobei $U$ und $V$ orthogonale Matrizen sind und $\Sigma$ eine Diagonalmatrix mit den Singulärwerten ist. Die Spalten von $U$ und $V$ können als niedrigdimensionale Repräsentationen der Produkte und der Produktkategorien interpretiert werden.

Im Fall der NMF faktorisieren wir die Co-Purchase-Matrix $M$ in zwei Matrizen $M = W H$, wobei $W$ und $H$ beide nichtnegative Matrizen sind. Die Spalten von $W$ können als niedrigdimensionale Repräsentationen der Produkte interpretiert werden, während die Spalten von $H$ als Gewichtungen der Produktkategorien interpretiert werden.

Die Antwort auf die Frage b) lautet:

Um Nutzern, die Interesse an einem der Produkte gezeigt haben, ähnliche Produkte zu empfehlen, können wir die Cosinus-Ähnlichkeit zwischen den Produktrepräsentationen berechnen. Die Cosinus-Ähnlichkeit zwischen zwei Vektoren $u$ und $v$ ist definiert als $\cos(u, v) = \frac{u \cdot v}{||u|| ||v||}$. Wir können die Cosinus-Ähnlichkeit zwischen allen Paaren von Produktrepräsentationen berechnen und dann die $k$ Produkte mit der höchsten Ähnlichkeit zum ursprünglichen Produkt empfehlen.

Zum Beispiel, wenn das ursprüngliche Produkt die Repräsentation $p$ hat, würden wir die Cosinus-Ähnlichkeit zwischen $p$ und allen anderen Produktrepräsentationen $q$ berechnen und dann die $k$ Produkte mit den höchsten Werten $\cos(p, q)$ empfehlen.





****************************************************************************************
****************************************************************************************




Answer to Question 1-4


a) Eine Eigenschaft von CNNs, die für die Aufgabe der Spamerkennung von Vorteil ist, ist, dass sie lokale Muster in den Eingabedaten erkennen können, während RNNs eher auf globalen Mustern beruhen. Insbesondere bei längeren Eingabesequenzen können CNNs lokale Merkmale wie die Verwendung von Spam-Schlüsselwörtern in einem bestimmten Abschnitt der E-Mail erkennen, während RNNs diese Informationen möglicherweise nicht effektiv verarbeiten können.

b) Ein CNN-basiertes Modell für die Spamerkennung könnte wie folgt aussehen:

* Eingabe: Die Eingabe ist eine E-Mail, die als Matrix von Zeichen dargestellt wird. Die Größe der Eingabematrix hängt von der Länge der E-Mail und der Größe des Zeichensatzes ab.
* Zwischenoperationen: Das Modell besteht aus mehreren Konvolutions- und Pooling-Schichten, die auf der Eingabematrix operieren. Die Konvolutionsschichten erkennen lokale Muster in der Eingabe, während die Poolingschichten die Größe der Feature-Maps reduzieren. Die Anzahl der Filter in jeder Konvolutionsschicht und die Größe der Filter sollten sorgfältig ausgewählt werden, um die Leistung des Modells zu optimieren.
* Ausgabe: Die Ausgabe des Modells ist eine Klassifizierung der E-Mail als Spam oder kein Spam. Die Ausgabe kann durch eine Dichteschicht erzeugt werden, die auf der letzten Feature-Map operiert.
* Größe der Feature-Maps: Die Größe der Feature-Maps hängt von der Größe der Eingabematrix, der Anzahl der Filter in jeder Konvolutionsschicht und der Größe der Pooling-Operationen ab. Die Größe der Feature-Maps nimmt in der Regel nach jeder Pooling-Operation ab.

c) Eine alternative Metrik zur Genauigkeit (accuracy) könnte der F1-Score sein. Der F1-Score ist die harmonische Mittelwert aus Präzision und Erinnerung und berücksichtigt daher sowohl falsch-positive als auch falsch-negative Klassifizierungen. Im Fall der Spamerkennung ist es wichtig, sowohl falsch-positive als auch falsch-negative Klassifizierungen zu minimieren, da eine falsch-positive Klassifizierung zu unerwünschten Spam-Nachrichten führt, während eine falsch-negative Klassifizierung zu verpassten Spam-Nachrichten führt. Der F1-Score ist daher eine geeignete Metrik, um die Leistung des Modells zu bewerten.





****************************************************************************************
****************************************************************************************




Answer to Question 1-5


a) Das Modell, das ich vorschlagen würde, ist ein Transformermodell. Die Eingabe des Modells wären die medizinischen Dokumente, die als Text vorliegen. Die Zwischenoperationen würden darin bestehen, die Texte in ein Format zu bringen, das der Transformer-Architektur entspricht. Dazu gehört das Tokenisieren der Texte, das Mappen der Tokens auf ihre entsprechenden Word Embeddings und das Hinzufügen von Positionsvektoren, um die Reihenfolge der Tokens im Text zu kodieren. Die Ausgabe des Modells wäre eine Liste von Tags, die jeder Token im Text zugeordnet wird. Diese Tags würden die Krankheitsbezeichnungen in den Texten markieren.

b) Eine Herausforderung bei der Verwendung von vortrainierten Word Embeddings wie GloVe besteht darin, dass sie möglicherweise nicht spezifisch für die Domäne der medizinischen Dokumente sind. Dies könnte dazu führen, dass die Word Embeddings nicht die richtigen semantischen Beziehungen zwischen den Wörtern in den Texten kodieren. Eine Möglichkeit, dieses Problem zu lösen, wäre, die vortrainierten Word Embeddings weiterzuentwickeln, indem man sie mit Texten aus der medizinischen Domäne trainiert. Dadurch könnte man sicherstellen, dass die Word Embeddings die richtigen semantischen Beziehungen zwischen den Wörtern in den medizinischen Dokumenten kodieren.





****************************************************************************************
****************************************************************************************




Answer to Question 2-1


a) Für das einfache Unigramm-Modell ergibt die obige Regel für den ersten Satz "their", da count("their")=50 und count("there")=110 ist. Für den zweiten Satz ergibt die Regel "there", da count("there")=110 und count("their")=50 ist.

Dies ist keine gute Lösung, da das Unigramm-Modell keine Informationen über die Kontextwörter berücksichtigt. Zum Beispiel wird "there" im zweiten Satz fälschlicherweise vorgeschlagen, obwohl das Wort "was" ein besseres Indiz für "there" wäre.

b) Ein Bigramm-Modell könnte besser sein als das Unigramm-Modell, da es Kontextwörter berücksichtigt. Zum Beispiel könnte das Bigramm-Modell "there" im zweiten Satz weniger wahrscheinlich machen, da das Wort "was" häufiger mit "there" als mit "their" auftritt.

Ein potenzielles Problem des Bigramm-Modells in der Praxis ist, dass es seltene Bigramme nicht gut vorhersagen kann, da es nicht genügend Datenpunkte hat. Zum Beispiel könnte das Bigramm-Modell "their" im ersten Satz weniger wahrscheinlich machen, da das Bigramm "saw their" seltener ist als "saw there".





****************************************************************************************
****************************************************************************************




Answer to Question 2-2


a) In der Abbildung "figures/Mask_under_MLM.pdf" würde die Maske bei MLM unter der Annahme eines Maskierungsverhältnisses (masking ratio) von 20% auf eine zufällig ausgewählte Position angewendet werden. Zum Beispiel könnte die Maske an der Stelle des vierten Wortes "words" platziert werden, so dass die Eingabe "Start-Token, words, are, ..., ." lautet.

b) MLM benötigt wahrscheinlich mehr Iterationen über die Trainingsdaten als CLM, um ein ähnliches Leistungsniveau zu erreichen. Der Grund dafür ist, dass MLM eine zufällige Untermenge der Eingabesequenz maskiert und die Sprachmodellierung darauf trainiert, die maskierten Wörter vorherzusagen. Daher ist die Aufgabe für MLM schwieriger als für CLM, da es mehr Unsicherheit in der Eingabe gibt.

c) MLM erfordert nicht, dass die Eingabesequenzen wie bei CLM um eine Position nach rechts verschoben werden, da MLM die maskierten Wörter vorhersagt, indem es die Kontexte links und rechts der Maske betrachtet. Im Gegensatz dazu betrachtet CLM nur den Kontext links der aktuellen Position, um die nächste Wortvorhersage zu treffen. Daher ist es für MLM nicht notwendig, die Eingabe um eine Position nach rechts zu verschieben.

d) PrefixLM ist oft leistungsfähiger als CLM, weil es die Autoregressivität des Sprachmodellierungsproblems besser ausnutzt. Bei PrefixLM wird die Eingabesequenz in zwei Teile geteilt: das Präfix und den nachfolgenden Kontext. Das Modell wird dann trainiert, den nachfolgenden Kontext basierend auf dem Präfix vorherzusagen. Diese Aufgabe ist für das Modell einfacher als bei CLM, da es mehr Kontextinformationen hat, um die Vorhersage zu treffen. Die zusätzliche Information in Abbildung "figures/Illustration_of_language_model_training.png" zeigt, wie PrefixLM die Autoregressivität des Sprachmodellierungsproblems ausnutzt, indem es den Präfix und den nachfolgenden Kontext trennt.





****************************************************************************************
****************************************************************************************




Answer to Question 2-3


Die Antworten auf die Fragen lauten wie folgt:

a) Nein, die kontextuellen Embeddings für die beiden "left" im Satz werden nicht die gleichen sein. Der Grund dafür ist, dass die Self-Attention im BERT-Modell die Beziehungen zwischen den Wörtern im Satz berücksichtigt. In diesem Fall sind die Wörter "my" und "left" im ersten "left" enthalten, während im zweiten "left" die Wörter "in" und "my" enthalten sind. Daher werden die kontextuellen Embeddings für die beiden "left" unterschiedlich sein.

Die Self-Attention besteht aus Query, Key und Value. Die Query fragt nach Informationen, der Key liefert die Informationen und das Value ist die Antwort. In diesem Fall werden die Query und der Key für das erste "left" anders sein als für das zweite "left", da die Kontexte um die Wörter herum unterschiedlich sind.

b) Nein, das Skalarprodukt (dot-product) Attention kann nicht verwendet werden, da die Dimensionen von Attention-Query und Attention-Key nicht übereinstimmen. Das Skalarprodukt Attention erfordert, dass die Dimensionen von Query und Key gleich sind.

c) Das Positional Encoding ermöglicht es dem Modell, verschiedene Positionen unterschiedlich zu behandeln, indem es die Sinus- und Cosinus-Funktionen verwendet, um die Positionen in den Embeddings zu kodieren. Die Frequenz der Sinus- und Cosinus-Funktionen hängt von der Merkmalsdimension ab, was bedeutet, dass jede Merkmalsdimension eine andere Frequenz hat.

Um ein trainierbares Positional Encoding zu erhalten, könnte man beispielsweise eine zusätzliche Schicht hinzufügen, die das Positional Encoding modifiziert und lernt, wie es die Positionen im Embedding kodieren soll. Diese Schicht könnte beispielsweise ein einfaches lineares Modell sein, das das Positional Encoding als Eingabe nimmt und eine modifizierte Version als Ausgabe liefert. Die Parameter dieser Schicht könnten dann während des Trainingsprozesses angepasst werden, um das Positional Encoding zu optimieren.





****************************************************************************************
****************************************************************************************




Answer to Question 2-4


a) Falsch. Greedy-Decoding erfordert weniger Speicherplatz als Beam-Search, da es nur die wahrscheinlichste Erweiterung für jeden Schritt berechnet und speichert, während Beam-Search eine bestimmte Anzahl von Kandidaten für jeden Schritt speichert.

b) Richtig. Beim Decoding können wir nicht direkt ein Ensemble von Textgenerierungsmodellen mit verschiedenen Vokabularen erstellen, da die Vokabulare nicht kompatibel sind und die Wahrscheinlichkeiten der verschiedenen Modelle nicht verglichen werden können.

c) Richtig. Wenn wir bei der Dekodierung die Satzwahrscheinlichkeit nicht nach der Sequenzlänge normalisieren, werden kürzere Sequenzen bevorzugt, da die Wahrscheinlichkeit für kürzere Sequenzen im Vergleich zu längeren Sequenzen höher ist.

d) Richtig. Beim Top-k-Sampling führt ein höherer Wert von k zu einer höheren Variabilität der erzeugten Ausgabe, da mehr Kandidaten in jedem Schritt berücksichtigt werden, was die Wahrscheinlichkeit von selteneren Wörtern erhöht.





****************************************************************************************
****************************************************************************************




Answer to Question 2-5


Die Frage vergleicht zwei Übersetzungen der englischen Phrase "What would you like to drink?" ins Deutsche, die von zwei verschiedenen Systemen erstellt wurden. Die erste Übersetzung ist "Was möchten Sie trinken?" und die zweite ist "Was möchtest du trinken?". Die Referenzübersetzung ist ebenfalls "Was möchten Sie trinken?".

Die beiden Übersetzungen sind beide grammatikalisch korrekt und sagen im Wesentlichen das gleiche aus. Der Unterschied liegt in der Verwendung der Anredeformen "Sie" und "du". Die erste Übersetzung verwendet die förmliche Anredeform "Sie", während die zweite Übersetzung die informelle Anredeform "du" verwendet.

Die Frage fragt nun, ob sich dieser Unterschied in der Verwendung der Anredeformen stärker auf die BLEU- oder COMET-Bewertungen auswirkt und warum.

BLEU (Bilingual Evaluation Understudy) ist ein häufig verwendetes Metrik zur Bewertung der Qualität maschineller Übersetzungen. Es misst die Übereinstimmung der maschinellen Übersetzung mit einer Referenzübersetzung und gibt eine Punktzahl zwischen 0 und 100. Je höher die Punktzahl, desto besser die Übereinstimmung.

COMET (Cross-lingual Optimization Metric for Evaluation of Translation) ist eine neuere Metrik zur Bewertung maschineller Übersetzungen. Im Gegensatz zu BLEU, das sich auf die Übereinstimmung auf Wortebene konzentriert, berücksichtigt COMET auch semantische und syntaktische Aspekte der Übersetzung.

In diesem Fall ist die Übersetzung von System 1 ("Was möchten Sie trinken?") identisch mit der Referenzübersetzung und würde daher wahrscheinlich eine höhere BLEU-Bewertung erhalten als die Übersetzung von System 2 ("Was möchtest du trinken?"), die zwar grammatikalisch korrekt ist, aber eine andere Anredeform verwendet.

Bezüglich COMET ist es schwieriger vorherzusagen, wie sich der Unterschied in der Anredeform auf die Bewertung auswirken wird. Da COMET auch semantische und syntaktische Aspekte der Übersetzung berücksichtigt, könnte es sein, dass die Übersetzung von System 2 aufgrund der Verwendung der informelleren Anredeform als weniger formell und daher als weniger gut bewertet wird. Andererseits könnte es auch sein, dass COMET die Verwendung der informelleren Anredeform als eine akzeptable Variation der Referenzübersetzung ansieht und die Übersetzung von System 2 daher immer noch eine hohe Bewertung erhält.

Zusammenfassend lässt sich sagen, dass der Unterschied in der Verwendung der Anredeformen in diesem Fall wahrscheinlich einen größeren Einfluss auf die BLEU-Bewertung als auf die COMET-Bewertung haben wird. Die BLEU-Bewertung wird wahrscheinlich höher sein für die Übersetzung von System 1, die identisch mit der Referenzübersetzung ist, während die COMET-Bewertung möglicherweise immer noch hoch ist für die Übersetzung von System 2, die zwar eine andere Anredeform verwendet, aber immer noch grammatikalisch korrekt ist und möglicherweise als eine akzeptable Variation der Referenzübersetzung angesehen wird.





****************************************************************************************
****************************************************************************************




Answer to Question 3-1


a) Die Anzahl der trainierten Parameter in der aufgabenspezifischen Anpassungsphase ist bei den drei vorgestellten Ansätzen unterschiedlich. Direct Prompting ist der Ansatz mit den wenigsten trainierten Parametern, da hier lediglich die Eingabe (Prompt) angepasst wird, während das Modell an sich unverändert bleibt. Beim (Promptless) Finetuning werden einige Parameter des Modells angepasst, wodurch mehr Parameter trainiert werden als beim Direct Prompting. In-Context Learning ist der Ansatz mit den meisten trainierten Parametern, da hier das Modell während der Inferenzphase mit Beispielen aus dem Trainingsdatensatz kontextualisiert wird, was zu einer Anpassung vieler Parameter führt.

b) Die für die Inferenz (Decoding) benötigte Speichermenge hängt von der Anzahl der Beispiele ab, die im Kontext des Modells während der Inferenzphase bereitgestellt werden. Direct Prompting benötigt die geringste Speichermenge, da hier lediglich die Eingabe (Prompt) bereitgestellt wird. (Promptless) Finetuning benötigt etwas mehr Speichermenge, da hier zusätzlich die angepassten Parameter des Modells gespeichert werden müssen. In-Context Learning benötigt die größte Speichermenge, da hier eine Reihe von Beispielen aus dem Trainingsdatensatz im Kontext des Modells bereitgestellt werden müssen.

c) Für eine bestimmte Aufgabe mit 8 Eingabe-Ausgabe-Paaren würde ich Direct Prompting wählen. Der Grund dafür ist, dass dies der Ansatz mit den wenigsten trainierten Parametern ist und daher am wenigsten Daten für die aufgabenspezifische Anpassung benötigt. Zudem ist Direct Prompting der Ansatz mit der geringsten Speichermenge für die Inferenzphase, was bei begrenztem Speicherplatz vorteilhaft ist.





****************************************************************************************
****************************************************************************************




Answer to Question 3-2


a) Für jeden Adapter werden zwei lineare Projektionen trainiert, eine pro Richtung. Jede Projektion hat 1024 x 256 Gewichte und 256 Bias-Werte. Also werden 1024 x 256 + 256 = 262.144 Gewichte und 256 Bias-Werte pro Projektion trainiert. Da es 12 Schichten gibt, werden insgesamt 12 x (262.144 Gewichte + 256 Bias-Werte) trainiert.

b) Für Prompt-Tuning werden 50 Token-Embeddings trainiert, da 50 Tokens reserviert sind. Jedes Token-Embedding hat 1024 Gewichte und 1 Bias-Wert. Also werden 50 x (1024 Gewichte + 1 Bias-Wert) trainiert.

c) Ein möglicher Grund dafür, dass dem Modell mit Prompt-Tuning der Speicherplatz ausgeht, ist, dass die Länge des Prompts sehr groß ist (50 Tokens) und das Modell mehr Speicher benötigt, um die Prompt-Tokens im Kontext zu halten. Obwohl das Modell mit Prompt-Tuning insgesamt weniger Parameter hat als das Modell mit Adapters, kann der zusätzliche Speicherbedarf des Prompts dazu führen, dass dem Modell der Speicherplatz ausgeht.

d) Der Hauptunterschied zwischen Prompt-Tuning und Prefix-Tuning ist, dass Prompt-Tuning die Eingabe des Modells ändert, während Prefix-Tuning die Eingabe des Modells unverändert lässt und stattdessen zusätzliche Parameter vor der Eingabe des Modells hinzufügt. Ein Vorteil von Prompt-Tuning ist, dass es einfacher ist, vorhandene Modelle zu verwenden, ohne sie zu ändern. Ein Nachteil von Prompt-Tuning ist, dass es schwieriger ist, die Eingabe des Modells zu kontrollieren, da die Eingabe geändert wird.





****************************************************************************************
****************************************************************************************




Answer to Question 3-3


a)

Um das vortrainierte Modell anzupassen, um Informationen aus dem Objekterkennungsmodell zu nutzen, können wir die Objektliste, die das Objekterkennungsmodell erzeugt, als zusätzlichen Eingabesatz für das Übersetzungsmodell bereitstellen. Die Eingabe des Modells besteht dann aus dem Texteingabesatz und der Objektliste. Die Objektliste kann als Sequenz von Tokens dargestellt werden, wobei jedes Objekt durch ein spezielles Token repräsentiert wird, z.B. "[OBJ:PERSON]", "[OBJ:RIVER]", etc. Die Ausgabe des Modells ist die übersetzte Bildunterschrift.

Wenn eine Objektbezeichnung nicht im Vokabular des trainierten Übersetzungsmodells enthalten ist, können wir entweder das Modell neu trainieren, um diese Bezeichnung einzuschließen, oder eine spezielle Tokenisierung verwenden, um die unbekannte Bezeichnung zu repräsentieren, z.B. "[UNK]".

b)

Um zu analysieren, ob das Modell die Informationen aus dem Objekterkennungsmodell nutzt, können wir die Übersetzungsleistung des Modells mit und ohne die Objektliste vergleichen. Wenn das Modell die Objektliste nutzt, sollte die Übersetzungsleistung mit der Objektliste besser sein als ohne. Wir können auch die Aufmerksamungsgewichte des Modells analysieren, um zu sehen, ob sie auf die Objektliste zeigen, wenn das Modell die Übersetzung durchführt.

c)

Um das vortrainierte Übersetzungsmodell anzupassen, um zusätzlich das kodierte Bild zu verwenden, können wir das kodierte Bild als zusätzliches Eingabeelement für das Modell bereitstellen. Die Eingabe des Modells besteht dann aus dem Texteingabesatz und dem kodierten Bild. Wir können das kodierte Bild als zusätzliches Eingabeelement in die Encoder-Seite des Modells einfügen, bevor der Encoder-Ausgabesatz an den Decoder weitergegeben wird.

Wenn die Größe des kodierten Bildes nicht mit der Embedding-Dimension des Übersetzungsmodells übereinstimmt, können wir eine Projektionsschicht hinzufügen, um die Größe des kodierten Bildes auf die Embedding-Dimension des Übersetzungsmodells abzubilden. Alternativ können wir die Embedding-Dimension des Übersetzungsmodells auf die Größe des kodierten Bildes ändern, wenn dies möglich ist.





****************************************************************************************
****************************************************************************************




Answer to Question 3-4


a) Die Retrieval-Augmented Generation (RAG) unterscheidet sich von der traditionellen Generierung dadurch, dass sie während des Generierungsprozesses relevante Dokumente aus einer externen Datenquelle abruft und in den Generierungsprozess einbezieht. Dies kann die Wahrheitsgehalt von Large Language Models verbessern, da die Modelle auf diese Weise Zugang zu aktuelleren und genaueren Informationen haben, die in den trainierenden Daten möglicherweise nicht enthalten sind.

b) Ich stimme nicht zu, dass Halluzinationen bei der maschinellen Übersetzung leichter zu erkennen sind als bei der allgemeinen Texterstellung mit Large Language Models. Halluzinationen können sowohl in der maschinellen Übersetzung als auch in der allgemeinen Texterstellung auftreten und können in beiden Fällen schwierig zu erkennen sein. In der maschinellen Übersetzung können Halluzinationen auftreten, wenn das Modell Informationen aus dem Quelltext hinzufügt, ändert oder löscht, die nicht in der Übersetzung vorhanden sind. In der allgemeinen Texterstellung können Halluzinationen auftreten, wenn das Modell Informationen erfindet, die nicht in den trainierenden Daten vorhanden sind.

c) Das Abschneiden langer Dokumente bei dem Training von Large Language Models kann zu Problemen mit der Modellhalluzination führen, da das Modell möglicherweise wichtige Informationen verliert, die in den abgeschnittenen Teilen der Dokumente enthalten sind. Dies kann dazu führen, dass das Modell Informationen erfindet, die nicht in den trainierenden Daten vorhanden sind. Um dieses Problem zu entschärfen, können lange Dokumente in Abschnitte unterteilt werden, die in den Speicher passen, oder es können Techniken verwendet werden, die es dem Modell ermöglichen, auf lange Dokumente zuzugreifen, ohne sie vollständig in den Speicher laden zu müssen.





****************************************************************************************
****************************************************************************************




