Answer to Question 1-1
Hier sind meine Antworten zu den Aussagen:

a) Falsch. One-Hot-Wortrepräsentationen können nicht verwendet werden, um Synonyme zu finden, da sie keine semantischen Ähnlichkeiten zwischen Wörtern erfassen.

b) Falsch. Die deutsche Sprache ist morphologisch reicher als die englische, da sie mehr Flexion und Wortbildung durch Affixe aufweist.

c) Richtig. In der Hierarchie der Sprache steht die Syntax auf einer niedrigeren Ebene als die Semantik, da sie die Struktur und Grammatik betrifft, während die Semantik die Bedeutung behandelt.

d) Falsch. Word2Vec wird nicht anhand der globalen Worthäufigkeitsmatrix trainiert, sondern durch die Vorhersage von Kontextwörtern basierend auf einem Eingabewort oder umgekehrt.

e) Richtig. Bei der Anwendung von Byte-Pair-Encoding (BPE) zur Teilwortsegmentierung werden weniger häufige Wörter eher in Teilwörter zerlegt als als ganze Wörter behandelt.

f) Richtig. Im Vergleich zu Hidden Markov Models (HMMs) erlauben Conditional Random Fields (CRFs) eine einfachere Integration von neuen Merkmalen, da sie auf bedingten Wahrscheinlichkeiten basieren.





****************************************************************************************
****************************************************************************************




Answer to Question 1-2
Hier sind zwei Gründe, warum dense Word Embeddings im Natural Language Processing (NLP) gegenüber spärlichen Merkmalen (sparse features) bevorzugt werden:

1. Dimensionsreduktion und Kompaktheit: Dense Word Embeddings bilden Wörter auf einen niedrigdimensionalen, kontinuierlichen Vektorraum ab (typischerweise einige hundert Dimensionen). Dadurch wird die Dimensionalität im Vergleich zu spärlichen Merkmalen wie One-Hot-Encodings, die einen hochdimensionalen Vektorraum erzeugen (Vokabulargröße), stark reduziert. Die kompakte Repräsentation spart Speicherplatz und Rechenressourcen.

2. Erfassung semantischer Ähnlichkeiten: Dense Word Embeddings lernen die Bedeutung und den Kontext von Wörtern aus großen Textkorpora. Ähnliche Wörter erhalten ähnliche Vektorrepräsentationen im Embedding-Raum. Dadurch werden semantische Beziehungen und Analogien zwischen Wörtern erfasst (z.B. König - Mann + Frau = Königin). Spärliche Merkmale betrachten Wörter hingegen isoliert und können keine Bedeutungsähnlichkeiten abbilden. Die Fähigkeit semantische Informationen zu kodieren macht dense Embeddings leistungsfähiger für viele NLP-Aufgaben wie Textklassifikation, Named Entity Recognition, Maschinelle Übersetzung etc.





****************************************************************************************
****************************************************************************************




Answer to Question 1-3
a) Um Repräsentationen für die Produkte basierend auf der Co-Purchase-Matrix zu erstellen, würde ich ähnliche Ideen wie beim Lernen von Wortrepräsentationen verwenden:

1. Betrachten Sie die Co-Purchase-Matrix als eine Art "Kontext-Matrix", bei der jede Zeile die Kontexte (d.h. die anderen zusammen gekauften Produkte) für ein bestimmtes Produkt angibt.

2. Führen Sie eine Singulärwertzerlegung (SVD) auf der Co-Purchase-Matrix durch. Die SVD zerlegt die Matrix in drei Matrizen: U, Σ und V^T. 

3. Wählen Sie die ersten k linken Singulärvektoren aus der Matrix U aus, wobei k die gewünschte Dimensionalität der Produktrepräsentationen ist. Diese k Vektoren bilden eine niedrigdimensionale Einbettungsmatrix.

4. Die i-te Zeile dieser Einbettungsmatrix gibt dann die k-dimensionale Repräsentation für das i-te Produkt an.

Intuitiv erfasst diese Vorgehensweise Produkte mit ähnlichen Co-Purchase-Mustern in ähnlichen Regionen des Einbettungsraums.

b) Um auf Basis der gelernten Produktrepräsentationen ähnliche Produkte zu einem gegebenen Produkt zu empfehlen, an dem ein Nutzer Interesse gezeigt hat, würde ich wie folgt vorgehen:

1. Finden Sie die Repräsentation für das Produkt von Interesse in der Einbettungsmatrix.

2. Berechnen Sie die Ähnlichkeit (z.B. die Cosinus-Ähnlichkeit) zwischen diesem Vektor und den Vektoren aller anderen Produkte in der Einbettungsmatrix.

3. Wählen Sie die k Produkte mit der höchsten Ähnlichkeit aus. Diese sind die ähnlichsten Produkte zu dem Produkt, an dem der Nutzer interessiert ist.

4. Empfehlen Sie diese top-k ähnlichen Produkte dem Nutzer.

Intuitiv werden Produkte mit ähnlichen Co-Purchase-Mustern ähnliche Repräsentationen im Einbettungsraum haben und daher als ähnlich identifiziert und empfohlen.





****************************************************************************************
****************************************************************************************




Answer to Question 1-4
Hier sind meine Antworten zu den Fragen:

a) Eine Eigenschaft von CNNs, die für die Spam-Erkennung vorteilhaft ist, ist die Fähigkeit, lokale Muster und Schlüsselwörter unabhängig von ihrer Position in der Eingabesequenz zu erkennen. Durch die Faltungsoperationen können CNNs relevante Features an beliebigen Stellen der E-Mail extrahieren, während RNNs stärker von der sequentiellen Struktur abhängig sind und bei langen Sequenzen Schwierigkeiten haben, weit entfernte Informationen zu berücksichtigen.

b) Ein CNN-basiertes Modell für die Spam-Erkennung könnte folgendermaßen aussehen:
- Eingabe: Die E-Mail wird in Wörter oder Zeichen tokenisiert und in eine Embedding-Matrix umgewandelt.
- Faltungsschicht: Mehrere Faltungsfilter verschiedener Größe (z.B. 3, 4, 5) werden über die Embedding-Matrix angewendet, um lokale Muster zu extrahieren. Die Anzahl der Filter pro Größe könnte beispielsweise 128 sein. Die resultierende Feature-Map hätte dann die Größe (Anzahl Filter) x (Sequenzlänge - Filtergröße + 1).
- Max-Pooling: Über die Feature-Map wird eine Max-Pooling-Operation angewendet, um die wichtigsten Aktivierungen zu extrahieren und die Dimensionalität zu reduzieren.
- Fully-Connected-Schicht: Die gepoolten Features werden zu einem Vektor konkateniert und an eine oder mehrere Fully-Connected-Schichten übergeben.
- Ausgabe: Die letzte Schicht gibt die Wahrscheinlichkeit aus, ob es sich um eine Spam-Mail handelt oder nicht.

c) Anstelle der Genauigkeit (Accuracy) würde ich die Fläche unter der ROC-Kurve (AUC-ROC) als Metrik vorschlagen. Die ROC-Kurve stellt den Zusammenhang zwischen der True Positive Rate (Sensitivität) und der False Positive Rate (1-Spezifität) bei verschiedenen Schwellenwerten dar. Die AUC-ROC ist ein Maß dafür, wie gut das Modell zwischen Spam und Nicht-Spam unterscheiden kann, unabhängig von der Klassenverteilung. Ein AUC-Wert von 1 bedeutet eine perfekte Klassifizierung, während 0.5 einer zufälligen Vorhersage entspricht. Durch die Verwendung der AUC-ROC kann die Leistung des Modells besser beurteilt und verglichen werden, auch wenn die Klassen unausgewogen sind.





****************************************************************************************
****************************************************************************************




Answer to Question 1-5
a) Für die Named Entity Recognition von Krankheitsbezeichnungen in medizinischen Dokumenten würde ich ein Conditional Random Field (CRF) Modell vorschlagen. Die Eingabe wären die Wörter eines Satzes, repräsentiert als Wort-Embeddings. Diese Embeddings werden durch eine Folge von Convolutional und Pooling Layern geschickt, um kontextuelle Wortrepräsentationen zu lernen. Die Ausgabe dieser Layer dient als Eingabe für den CRF Layer, der die wahrscheinlichste Sequenz von Named Entity Tags vorhersagt (z.B. B-Krankheit, I-Krankheit, O für andere). Durch die Modellierung von Übergangswahrscheinlichkeiten zwischen den Tags kann der CRF die Konsistenz der vorhergesagten Entitäten über den Satz hinweg sicherstellen.

b) Eine Herausforderung bei der Verwendung von vortrainierten GloVe-Embeddings ist, dass diese auf einem generischen Textkorpus wie Wikipedia trainiert wurden. Die Wortbedeutungen im medizinischen Kontext können sich davon unterscheiden. Wörter wie "Schmerz" oder "Entzündung" haben im medizinischen Kontext eine spezifischere Bedeutung.

Um dieses Problem zu lösen, schlage ich vor, die GloVe-Embeddings mit den 10.000 annotierten medizinischen Dokumenten feinabzustimmen. Dazu initialisieren wir die Embedding-Matrix mit den GloVe-Gewichten, fixieren sie aber nicht, sondern erlauben dem Modell, sie während des Trainings auf den medizinischen Dokumenten anzupassen. So können die Wortrepräsentationen an die Domäne angepasst werden, während das in GloVe kodierte Weltwissen erhalten bleibt. Alternativ könnten wir auch ein kontextualisiertes Embedding-Modell wie ELMo oder BERT verwenden, das seine Wortrepräsentationen an den Kontext anpasst.





****************************************************************************************
****************************************************************************************




Answer to Question 2-1
a) Das Unigramm-Modell würde für beide Sätze "there" vorhersagen, da p("there") = 110/10000 = 0,011 und p("their") = 50/10000 = 0,005, also p("there") > p("their"). 
Dies ist keine gute Lösung, da das Modell nur die allgemeine Häufigkeit der Wörter "there" und "their" berücksichtigt, aber nicht den Kontext, in dem sie verwendet werden. Es kann daher nicht zwischen der korrekten und falschen Verwendung unterscheiden und wird immer die häufigere Variante "there" vorhersagen.

b) Ein Bigram-Modell könnte besser sein als das Unigramm-Modell, da es den Kontext eines Wortes in Form des vorhergehenden Wortes berücksichtigt. So könnte es lernen, dass "their" häufiger nach bestimmten Wörtern wie "saw" vorkommt, während "there" häufiger nach "was" auftritt. Dadurch könnte es in vielen Fällen die korrekte Schreibweise vorhersagen.

Probleme in der Praxis könnten sein:
- Datenknappheit: Für viele Bigramme gibt es möglicherweise keine oder nur wenige Beispiele im Trainingskorpus. Das Modell kann dann keine zuverlässigen Wahrscheinlichkeiten schätzen.
- Fehlende Generalisierung: Das Modell lernt nur die Bigramme, die es im Training gesehen hat. Es kann nicht gut auf unbekannte Bigramme verallgemeinern, die im Test vorkommen.
- Längerer Kontext: Manchmal reicht der Kontext eines einzelnen vorhergehenden Wortes nicht aus, um "there" und "their" zu unterscheiden. Dafür wäre ein längerer Kontext nötig.





****************************************************************************************
****************************************************************************************




Answer to Question 2-2
a) Bei einem Maskierungsverhältnis von 20% würde ich in der Abbildung "figures/Mask_under_MLM.pdf" zufällig eines der fünf Eingabetoken (w1 bis w5) mit einer Maske überdecken. Zum Beispiel könnte ich das dritte Token w3 maskieren.

b) MLM benötigt weniger Iterationen über die Trainingsdaten als CLM, wenn andere Bedingungen unverändert bleiben. Der Grund dafür ist, dass bei MLM in jeder Iteration mehrere zufällig ausgewählte Token maskiert und vorhergesagt werden. Dadurch lernt das Modell pro Iteration mehr als bei CLM, wo immer nur das nächste Token vorhergesagt wird. MLM ermöglicht eine effizientere Nutzung der Trainingsdaten.

c) MLM erfordert kein Verschieben der Eingabesequenz um eine Position nach rechts, weil die zu vorhersagenden maskierten Token an beliebigen Positionen in der Sequenz vorkommen können. Bei CLM hingegen wird immer das nächste Token basierend auf den vorherigen vorhergesagt. Daher muss die Eingabe um eine Position verschoben werden, damit das zu vorhersagende Token nicht in der Eingabe enthalten ist.

d) PrefixLM ist oft leistungsfähiger als CLM, weil es sowohl von links nach rechts als auch bidirektional lernen kann. Wie in der Abbildung "figures/Illustration_of_language_model_training.png" zu sehen, hat PrefixLM Zugriff auf den Kontext links und rechts der zu vorhersagenden Token (helle Quadrate). CLM hingegen lernt nur von links nach rechts. Durch die Kombination beider Richtungen kann PrefixLM oft bessere Vorhersagen treffen und Zusammenhänge im Text besser erfassen.





****************************************************************************************
****************************************************************************************




Answer to Question 2-3
a) Die kontextuellen Embeddings für die beiden "left" im Satz "I left my phone in my left pocket." werden nicht die gleichen sein. Der Grund dafür ist, dass BERT durch den Attention-Mechanismus in der Lage ist, die Wörter im Kontext ihrer Position und ihrer Beziehung zu anderen Wörtern im Satz zu betrachten.

In der Self-Attention berechnet die Query eine Repräsentation des aktuellen Wortes, während der Key Repräsentationen aller anderen Wörter im Satz berechnet. Durch das Skalarprodukt zwischen Query und Key erhält man Aufmerksamkeitsgewichte, die angeben, wie stark jedes andere Wort mit dem aktuellen Wort in Beziehung steht. Der Value enthält dann die eigentlichen Informationen, die basierend auf den Aufmerksamkeitsgewichten aggregiert werden.

Da die beiden "left" an unterschiedlichen Positionen im Satz stehen und unterschiedliche Beziehungen zu den umgebenden Wörtern haben, werden ihre Queries und Keys unterschiedlich sein, was zu unterschiedlichen kontextuellen Embeddings führt.

b) Wenn die Attention-Query 1024 Dimensionen und der Attention-Key 512 Dimensionen hat, können wir das Skalarprodukt (dot-product) Attention nicht direkt verwenden. Das liegt daran, dass für das Skalarprodukt die Dimensionen von Query und Key übereinstimmen müssen.

Um dieses Problem zu lösen, könnte man eine lineare Projektion verwenden, um entweder die Query auf 512 Dimensionen zu reduzieren oder den Key auf 1024 Dimensionen zu erweitern, bevor das Skalarprodukt berechnet wird. Alternativ könnte man auch andere Attention-Mechanismen wie die additive Attention verwenden, die keine übereinstimmenden Dimensionen erfordern.

c) Obwohl das Positional Encoding keine trainierbaren Parameter hat, ermöglicht es dem Modell dennoch, verschiedene Positionen unterschiedlich zu behandeln. Das liegt daran, dass die Sinus- und Kosinusfunktionen in Abhängigkeit von der Position unterschiedliche Werte annehmen.

Für jede Merkmalsdimension erzeugt die Formel ein eindeutiges Muster von Sinus- und Kosinuswerten über die Positionen hinweg. Durch die Kombination dieser Muster über alle Merkmalsdimensionen entsteht für jede Position ein eindeutiger "Positionsvektor", der mit den Wortembeddings summiert wird. Dadurch erhält das Modell Informationen über die absolute Position jedes Tokens im Satz.

Um ein trainierbares Positional Encoding zu erhalten, könnte man stattdessen eine Embedding-Matrix verwenden, die für jede mögliche Position einen trainierbaren Embedding-Vektor enthält. Diese Positionsembeddings würden dann während des Trainings zusammen mit den anderen Modellparametern gelernt werden. Der Nachteil ist, dass die Anzahl der Parameter mit der maximalen Satzlänge skaliert und das Modell nicht mit längeren Sätzen als im Training umgehen kann.





****************************************************************************************
****************************************************************************************




Answer to Question 2-4
a) Falsch. Beam-Search erfordert mehr Speicherplatz als Greedy-Decoding, da bei Beam-Search die k besten Teilsequenzen gespeichert werden müssen, während bei Greedy-Decoding nur die beste Teilsequenz gespeichert wird.

b) Richtig. Die Modelle in einem Ensemble müssen das gleiche Vokabular verwenden, um ihre Ausgabewahrscheinlichkeiten kombinieren zu können. Unterschiedliche Vokabulare würden dies erschweren oder unmöglich machen.

c) Falsch. Wenn die Satzwahrscheinlichkeit nicht nach der Sequenzlänge normalisiert wird, werden längere Sequenzen bevorzugt, da die Wahrscheinlichkeiten von zusätzlichen Token multipliziert werden und so die Gesamtwahrscheinlichkeit verringern.

d) Richtig. Ein höherer Wert von k beim Top-k-Sampling erhöht die Anzahl der in Betracht gezogenen Token bei jedem Sampling-Schritt, was zu einer größeren Vielfalt in den generierten Sequenzen führt.





****************************************************************************************
****************************************************************************************




Answer to Question 2-5
Die Bewertung der Übersetzungsqualität hängt vom verwendeten Evaluierungsmaß ab. In diesem Fall würden sich die Unterschiede in der Anrede (formelles "Sie" vs. informelles "du") unterschiedlich auf die Metriken BLEU und COMET auswirken:

BLEU (Bilingual Evaluation Understudy) ist ein oberflächenbasiertes Maß, das die n-Gram-Überlappung zwischen der Systemausgabe und einer oder mehreren Referenzübersetzungen misst. Da System 1 die exakt gleiche Übersetzung wie die Referenz liefert, würde es einen perfekten BLEU-Score von 100 erhalten. System 2 hingegen verwendet "du" statt "Sie", was zu einer geringeren n-Gram-Überlappung und somit einem niedrigeren BLEU-Score führen würde, obwohl die Übersetzung an sich korrekt ist.

COMET (Crosslingual Optimized Metric for Evaluation of Translation) ist ein neueres, kontextabhängiges Maß, das auf einem mehrsprachigen Sprachmodell basiert. Es bewertet die Übersetzungsqualität ganzheitlicher, indem es die Bedeutung und den Kontext berücksichtigt. COMET würde erkennen, dass beide Systeme eine korrekte Übersetzung liefern, auch wenn sie sich in der Formalität der Anrede unterscheiden. Daher wären die COMET-Scores für beide Systeme ähnlich hoch.

Zusammenfassend lässt sich sagen, dass sich der unterschiedliche Wortlaut stärker auf BLEU als auf COMET auswirkt. BLEU ist anfälliger für oberflächliche Unterschiede, während COMET die Bedeutung und den Kontext besser erfasst. In diesem Beispiel würde COMET beide Übersetzungen als qualitativ hochwertig einstufen, wohingegen BLEU System 2 aufgrund der abweichenden Anrede benachteiligen würde, obwohl die Übersetzung korrekt ist.





****************************************************************************************
****************************************************************************************




Answer to Question 3-1
a) Die Ansätze nach der Anzahl der trainierten Parameter in der aufgabenspezifischen Anpassungsphase geordnet:

1. Direct Prompting: Beim Direct Prompting werden keine zusätzlichen Parameter trainiert. Das Modell wird nur mit speziell gestalteten Prompts abgefragt, um die gewünschte Aufgabe zu lösen.

2. In-Context Learning: Auch beim In-Context Learning werden keine neuen Parameter trainiert. Stattdessen werden dem Modell Beispiele der Aufgabe im Kontext übergeben, anhand derer es lernt, die Aufgabe zu lösen.

3. (Promptless) Finetuning: Beim Finetuning werden alle oder einige Parameter des Modells auf der spezifischen Aufgabe trainiert. Daher werden hier die meisten Parameter in der Anpassungsphase optimiert.

b) Die Ansätze nach der für die Inferenz benötigten Speichermenge geordnet:

1. Direct Prompting: Da keine zusätzlichen Parameter gespeichert werden müssen, benötigt Direct Prompting am wenigsten Speicher für die Inferenz. Nur der Prompt und die Eingabe müssen im Speicher gehalten werden.

2. (Promptless) Finetuning: Nach dem Finetuning müssen die aktualisierten Modellparameter gespeichert werden. Allerdings ist keine zusätzliche Kontextinformation nötig, da das Modell die Aufgabe gelernt hat. Daher liegt der Speicherbedarf in der Mitte.

3. In-Context Learning: Beim In-Context Learning muss neben der Eingabe auch der Kontext mit den Beispielen im Speicher gehalten werden. Da der Kontext oft umfangreich sein kann, benötigt dieser Ansatz am meisten Speicher während der Inferenz.

c) Mit nur 8 Eingabe-Ausgabe-Paaren würde ich In-Context Learning wählen. Die geringe Datenmenge reicht wahrscheinlich nicht aus, um ein Modell effektiv mit Finetuning anzupassen. Außerdem entfällt der Aufwand des Trainings. Direct Prompting könnte auch funktionieren, aber In-Context Learning ermöglicht eine flexiblere Anpassung, indem die Beispiele direkt demonstrieren, was das Modell tun soll. Daher scheint In-Context Learning für diesen Fall mit wenigen Beispielen am besten geeignet zu sein.





****************************************************************************************
****************************************************************************************




Answer to Question 3-2
Hier sind die Antworten auf die gestellten Fragen:

a) Um die Anzahl der trainierten Parameter bei Verwendung von Adaptern zu berechnen:
- Pro Adapter gibt es 2 lineare Projektionen
- Jede lineare Projektion hat 1024 * 256 + 256 Parameter (Eingangsdimension * Ausgangsdimension + Bias)
- Es gibt 12 Schichten, also 12 Adapter
- Insgesamt werden 12 * 2 * (1024 * 256 + 256) Parameter trainiert

b) Um die Anzahl der trainierten Parameter bei Verwendung von Prompt-Tuning zu berechnen:
- Es gibt 50 Prompt-Tokens
- Jedes Token hat eine Embedding-Dimension von 1024
- Insgesamt werden 50 * 1024 Parameter trainiert

c) Beim Prompt-Tuning werden die zusätzlichen Prompt-Tokens zum Input-Text hinzugefügt. Dadurch wird die Sequenzlänge um 50 Tokens erhöht, was zu einem höheren Speicherbedarf während des Decodings führt. Bei Adaptern hingegen bleibt die Sequenzlänge unverändert, da sie zwischen den Schichten eingefügt werden.

d) Der Hauptunterschied zwischen Prompt-Tuning und Prefix-Tuning ist:
- Beim Prompt-Tuning werden die zusätzlichen Tokens direkt zum Input-Text hinzugefügt
- Beim Prefix-Tuning werden die zusätzlichen Parameter als separater Prefix vor den Eingaben jeder Schicht eingefügt

Vorteil von Prompt-Tuning: Es ist einfacher zu implementieren, da nur die Input-Sequenz modifiziert werden muss.
Nachteil von Prompt-Tuning: Die Sequenzlänge erhöht sich, was zu höherem Speicher- und Rechenbedarf führt.





****************************************************************************************
****************************************************************************************




Answer to Question 3-3
Hier sind meine Antworten auf die Unterfragen:

a) Um das vortrainierte Übersetzungsmodell anzupassen, damit es die Informationen aus dem Objekterkennungsmodell nutzen kann, schlage ich folgendes vor:
- Die Ausgabe des Objekterkennungsmodells (Liste von Objektbezeichnungen) wird als zusätzliche Eingabe für das Übersetzungsmodell verwendet. 
- Die Objektbezeichnungen werden in Vektoren umgewandelt (z.B. durch Embedding-Lookup) und mit den Embedding-Vektoren der Wörter des Eingabesatzes konkateniert.
- Falls eine Objektbezeichnung nicht im Vokabular des Übersetzungsmodells enthalten ist, könnte man sie durch einen speziellen unbekannten Token ersetzen oder das Vokabular entsprechend erweitern.
- Die Ausgabe des angepassten Modells ist dann die Übersetzung des Eingabesatzes unter Berücksichtigung der zusätzlichen Bildinformationen.

b) Um zu analysieren, ob das Modell die Informationen aus dem Objekterkennungsmodell nutzt, könnte man:
- Das Modell auf einem Testdatensatz evaluieren, der Sätze mit und ohne disambiguierende Bildinformationen enthält. Wenn das Modell bei Sätzen mit relevanten Bildinformationen besser abschneidet, deutet das darauf hin, dass es die Informationen nutzt.
- Die Attention-Gewichte des Modells analysieren, um zu sehen, ob es den Objektbezeichnungen Aufmerksamkeit schenkt.
- Ablationsstudien durchführen, bei denen die Objektinformationen weggelassen werden. Wenn sich die Übersetzungsqualität dadurch verschlechtert, nutzt das Modell diese Informationen.

c) Für den parallelen Ansatz mit kodierten Bildern schlage ich folgendes vor:
- Die kodierten Bildvektoren werden mit den Embedding-Vektoren der Wörter des Eingabesatzes konkateniert oder durch eine Projektionsschicht auf die passende Dimension gebracht und dann addiert/konkateniert.
- Falls die Dimension des kodierten Bildes nicht mit der Embedding-Dimension übereinstimmt, könnte man eine lineare Projektionsschicht verwenden, um die Bilddimension anzupassen.
- Der Encoder des Übersetzungsmodells wird dann auf der kombinierten Text- und Bildrepräsentation trainiert.
- Der Decoder bleibt unverändert und erzeugt weiterhin die Übersetzung.





****************************************************************************************
****************************************************************************************




Answer to Question 3-4
Hier sind meine Antworten auf die Fragen zur Vertrauenswürdigkeit:

a) Retrieval-Augmented Generation (RAG) unterscheidet sich von der traditionellen Generierung dadurch, dass bei RAG zunächst relevante Informationen aus einer externen Wissensbasis abgerufen werden, bevor die Textgenerierung erfolgt. Die abgerufenen Informationen dienen dann als zusätzlicher Kontext für das Sprachmodell bei der Generierung. Dies könnte den Wahrheitsgehalt verbessern, da sich das Modell auf verifizierte externe Fakten stützt, anstatt Informationen frei zu "halluzinieren". Durch den Abruf seriöser Quellen wird die faktische Genauigkeit der generierten Texte erhöht.

b) Ich stimme der Aussage teilweise zu. Halluzinationen sind bei der maschinellen Übersetzung oft leichter zu erkennen, da die Übersetzung direkt mit dem Quelltext verglichen werden kann. Abweichungen und erfundene Inhalte fallen schnell auf. Bei der allgemeinen Texterstellung ist es schwieriger, Halluzinationen zu identifizieren, da kein direkter Vergleichstext existiert. Allerdings können auch in Übersetzungen subtile Bedeutungsänderungen oder hinzugefügte Informationen übersehen werden. Letztendlich erfordert die Erkennung von Halluzinationen in beiden Fällen Sorgfalt und idealerweise die Überprüfung durch Menschen.

c) Wenn lange Dokumente beim Training aufgrund von Speicherbeschränkungen abgeschnitten werden, erhält das Modell oft nur bruchstückhafte Informationen ohne vollständigen Kontext. Bei der Generierung versucht das Modell dann, die fehlenden Informationen zu rekonstruieren, was zu Halluzinationen führen kann. 
Um das Problem zu entschärfen, können verschiedene Techniken eingesetzt werden:
- Verwendung effizienterer Transformerarchitekturen mit größerer Kontextlänge
- Aufteilung langer Dokumente in kohärente Abschnitte und Behandlung als separate Trainingsdaten
- Einsatz von Hierarchical Attention oder spezialisierten Architekturen für lange Sequenzen
- Retrieval-augmentierte Ansätze, um fehlende Informationen gezielt aus externen Quellen abzurufen
Durch diese Maßnahmen erhält das Modell einen besseren Kontext und ist weniger anfällig für Halluzinationen.





****************************************************************************************
****************************************************************************************




