Answer to Question 1-1
a: Falsch. One-Hot-Wortrepräsentationen stellen jedes Wort als einen unabhängigen Vektor dar, ohne Beziehung zu anderen Wörtern, daher können sie nicht dazu verwendet werden, Synonyme zu finden.

b: Falsch. Die deutsche Sprache ist morphologisch reicher als die englische, da sie zum Beispiel mehr Fälle (Kasus) und eine flexiblere Wortstellung hat.

c: Falsch. Die Syntax ist nicht auf einer niedrigeren, sondern auf einer unterschiedlichen Ebene als die Semantik. Die Syntax bezieht sich auf die Struktur von Sätzen, während die Semantik sich auf ihre Bedeutung bezieht.

d: Falsch. Word2Vec wird nicht anhand der globalen Worthäufigkeitsmatrix trainiert, sondern verwendet ein lokales Training von Wortkontexten in einem neuronalen Netzwerk.

e: Richtig. Byte-Pair-Encoding verdichtet häufigere Wörter zu größeren Einheiten und lässt seltene Wörter in kleineren Segmenten, was bedeutet, dass weniger häufige Wörter eher in Teilwörtern als in vollständigen Wörtern segmentiert werden.

f: Richtig. Conditional Random Fields (CRFs) sind flexibler in Bezug auf die Integration von zusätzlichen Merkmalen im Vergleich zu Hidden Markov Models (HMMs), da sie nicht auf die Unabhängigkeitsannahme beschränkt sind.





****************************************************************************************
****************************************************************************************




Answer to Question 1-2
1. Dense Word Embeddings können semantische Ähnlichkeiten zwischen Wörtern effektiver darstellen, da Wörter, die in ähnlichen Kontexten verwendet werden, ähnliche Vektoren haben, was bei spärlichen Merkmalen normalerweise nicht der Fall ist. 

2. Dense Embeddings haben eine geringere Dimensionalität im Vergleich zu spärlichen Merkmalen, die oft in einer sehr hohen Dimensionalität vorliegen (z.B. in der Größenordnung der Größe des Vokabulars). Dadurch sind Dense Embeddings effizienter in Bezug auf Speicherplatz und Rechenanforderungen bei der Verarbeitung und Modellierung.





****************************************************************************************
****************************************************************************************




Answer to Question 1-3
a: Um Repräsentationen für die Produkte zu erstellen, könnte man ähnliche Techniken wie beim Lernen von Wortrepräsentationen im Bereich des Natural Language Processing (NLP) anwenden, insbesondere die Methoden, die in Word2Vec verwendet werden. Bei Word2Vec werden durch Techniken wie Skip-Gram oder CBOW Repräsentationen erzeugt, die Wörter ähnlich ihres Kontexts in einem Vektorraum abbilden.

Um dies auf die Co-Purchase-Matrix anzuwenden, könnte man das Matrix-Faktorisierungsverfahren nutzen. Bei dieser Methode wird die ursprüngliche N×N Matrix in zwei kleinere Matrizen aufgeteilt, nämlich in eine N×D Matrix (Produkt-Vektor-Repräsentation) und eine D×N Matrix (Kontext-Produkt-Vektor-Repräsentation), wobei D die Anzahl der Dimensionen des Vektorraums ist. Ziel ist es, den latenten Raum zu finden, der die Zusammenhänge der Co-Purchase-Beziehungen möglichst gut abbildet.

Eine weitere Möglichkeit wäre, auf der Co-Purchase-Matrix nachbarschaftsbasierte Algorithmen wie k-Nearest-Neighbors (k-NN) anzuwenden, um Produkte zu identifizieren, die in der Nähe zueinander im Kaufverhalten der Nutzer liegen.

Durchgeführte Operationen könnten hierbei sein:
- Normalisierung der Co-Purchase-Matrix, um Skalenunterschiede zu beseitigen.
- Anwendung von Dimensionsreduktionsmethoden wie Singular Value Decomposition (SVD) zur Erstellung von Produktvektoren.
- Training von Modellen ähnlich zu Skip-Gram, wobei Produkte als 'Wörter' und Produktgruppen als 'Sätze' behandelt werden könnten.

b: Basierend auf den in Teilfrage a erstellten Produktrepräsentationen könnte man Nutzern ähnliche Produkte empfehlen, indem man die Distanz oder Ähnlichkeit zwischen den Vektorrepräsentationen des betrachteten Produkts und aller anderen Produkte berechnet. Dies könnte man erreichen durch:

- Berechnung der kosinischen Ähnlichkeit zwischen den Vektoren, um Produkte zu finden, die im latenten Raum ähnlich sind.
- Auswahl der Produkte mit der höchsten Ähnlichkeit (geringste Distanz) zum Interessenprodukt.
- Empfehlung der Top N ähnlichsten Produkte. Dabei könnte ein Schwellenwert festgelegt werden, um nur Produkte mit einer hinreichenden Ähnlichkeit zu empfehlen.
- Optional: Anpassen der Empfehlungen basierend auf weiteren Nutzerdaten, wie bisherigen Käufen oder Klickverhalten, um personalisierte Empfehlungen zu generieren.





****************************************************************************************
****************************************************************************************




Answer to Question 1-4
a: Ein Vorteil von CNNs (Convolutional Neural Networks) im Vergleich zu RNNs (Recurrent Neural Networks) für die Aufgabe der Spamerkennung ist das Fähigkeit von CNNs, lokale Muster und Features innerhalb des Datensatzes zu erkennen und zu nutzen. Da viele Spam-E-Mails ähnliche Phrasen oder Schlüsselwörter aufweisen, kann ein CNN diese Merkmale effektiv als Filter verwenden, um Spam zu erkennen, auch in längeren Eingabesequenzen. Diese Fähigkeit, relevante Merkmale unabhängig von ihrem Ort im Text zu identifizieren und zu extrahieren, ist eine der Stärken der CNNs gegenüber den RNNs, die möglicherweise mit der Abhängigkeit von der Sequenzlänge und dem Vanishing Gradient Problem zu kämpfen haben.

b: Ein CNN-basiertes Modell für die Aufgabe könnte folgendermaßen aussehen: Zuerst wird die E-Mail in einen Vektor umgewandelt, in dem jedes Wort oder Zeichen durch einen Embedding-Vektor repräsentiert wird. Diese Embedding-Representation stellt die Eingabe dar. Als Zwischenoperationen führt das Modell mehrere Convolutional und Pooling-Layer durch, die dazu dienen, Feature-Maps zu erzeugen, die die Präsenz und Kombination von bestimmten Schlüsselwörtern und Phrasen aufzeigen. Diese Feature-Maps werden zunehmend aggregiert und durch Fully-Connected Layers (Dense Layers) geführt, bis schließlich eine Ausgabeschicht eine Wahrscheinlichkeit ausgibt, ob die E-Mail Spam ist oder nicht. Die Größe der Feature-Map würde von der Größe der Convolution-Kernels, der Anzahl der Filter und der Dimension des Embedding-Vektors abhängen, ist aber oft so dimensioniert, dass sie wichtige lokale Muster effektiv hervorhebt.

c: Eine alternative Metrik, die vorgeschlagen werden könnte, ist die F1-Score, die das harmonische Mittel aus Präzision und Recall ist. Diese Metrik ist besonders nützlich, wenn die Klassen ungleich verteilt sind, wie es bei Spam-Erkennung der Fall ist. Der F1-Score liefert ein ausgewogeneres Maß für die Modellleistung, indem er sowohl die Fähigkeit des Modells bewertet, echten Spam korrekt zu identifizieren (Recall), als auch die Fähigkeit, nicht-Spam korrekt zu klassifizieren und dabei falsche Positivmeldungen zu minimieren (Präzision).





****************************************************************************************
****************************************************************************************




Answer to Question 1-5
a: Als Modell für die Aufgabe der Named Entity Recognition (NER) in medizinischen Dokumenten, speziell für die Extraktion von Krankheitsbezeichnungen, würde ich ein BiLSTM-CRF (Bidirectional Long Short-Term Memory combined with Conditional Random Fields) Modell vorschlagen, allerdings mit der Einschränkung von Tom, dass das Modell nicht RNN-basiert sein soll, könnte man auf Modelle basierend auf Transformer-Architekturen wie BERT (Bidirectional Encoder Representations from Transformers) oder seine Varianten umsteigen.

Für BERT würde die Pipeline wie folgt aussehen:
- Eingabe: Die Eingabe sind die Textdokumente, die in Token zerlegt werden. Diese Token werden dann in ein für den Transformer geeignetes Format gebracht, was bedeutet, dass sie mit speziellen Token wie [CLS] zu Beginn und [SEP] am Ende jedes Dokuments ergänzt werden.
- Zwischenoperationen:
  - Tokenisierung: Zerlegung der Textdokumente in Wörter oder Sub-Wörter.
  - Embedding: Umwandlung der Token in Vektoren unter Verwendung von vortrainierten Embeddings.
  - Transformer Encoder: Die Token durchlaufen mehrere Schichten von Self-Attention-Mechanismen, die es dem Modell ermöglichen, Kontextinformationen aus dem ganzen Satz zu berücksichtigen.
  - Klassifizierung: Jeder Token wird einer Klasse zugewiesen, in diesem Fall ob es sich um eine Krankheitsbezeichnung handelt oder nicht.
- Ausgabe: Die Ausgabe des Modells wäre eine Sequenz von Tags, die jedem Wort oder Sub-Wort im Text zugeordnet ist, wobei spezielle Tags für Krankheitsbezeichnungen verwendet werden.

b: Eine Herausforderung beim Einsatz von GloVe besteht darin, dass die vortrainierten Embeddings möglicherweise nicht alle in den medizinischen Dokumenten vorkommenden Fachbegriffe abdecken, da GloVe auf allgemeineren textuellen Daten trainiert wird. Medizinische Fachbegriffe oder spezifische Krankheitsbezeichnungen könnten daher im Vokabular fehlen oder nicht angemessen repräsentiert sein.

Um dieses Problem zu lösen, könnte ein mehrstufiger Ansatz gewählt werden:
- Nutzung der vortrainierten GloVe Embeddings für die allgemeinen Wörter.
- Feinabstimmung (Fine-Tuning) des Modells auf einem domänenspezifischen Korpus, der medizinische Texte enthält, um die Embeddings für medizinische Fachbegriffe zu verbessern.
- Alternativ kann eine hybride Strategie verwendet werden, bei der für bekannte Wörter die vortrainierten Embeddings genutzt und für nicht im Vokabular vorhandene Begriffe Random-Embeddings erstellt und während des Trainingsvorgangs angepasst werden.





****************************************************************************************
****************************************************************************************




Answer to Question 2-1
a: Gemäß der Regel von Jerry würde das Unigramm-Modell für Satz (1) "He saw their football in the park" die Schreibweise "their" vorhersagen, da count("their") > count("there"). Für Satz (2) "He saw their was a football" würde das Modell ebenfalls "their" vorhersagen, da count("their") > count("there"). Dies ist keine gute Lösung, weil das Modell in beiden Fällen "their" vorhersagen würde, obwohl in Satz (2) "there" korrekt wäre. Das Unigramm-Modell berücksichtigt nicht den Kontext des vorherigen Wortes und macht deshalb hier einen Fehler.

b: Das Bigram-Modell könnte besser sein als das Unigramm-Modell, weil es die Wahrscheinlichkeit eines Wortes in Abhängigkeit vom vorherigen Wort in Betracht zieht. Es berücksichtigt somit den Kontext stärker als das Unigramm-Modell. Dies könnte dazu führen, dass in Fällen wie Satz (2), das Modell "there" vorhersagen könnte, da "saw there" wahrscheinlich häufiger vorkommt als "saw their". Probleme dieses Modells in der Praxis könnten die Datenverfügbarkeit und die Spärlichkeit der Daten sein. Wenn das Bigramm ("Wort1 Wort2") nicht oft genug im Trainingskorpus vorkommt, könnte das Modell Schwierigkeiten haben, genaue Vorhersagen zu machen, oder zu stark von seltenen Vorkommen beeinflusst werden. Des Weiteren könnten unbekannte Bigramme (solche, die im Training nicht gesehen wurden) auftreten, was das Modell vor weitere Herausforderungen stellt.





****************************************************************************************
****************************************************************************************




Answer to Question 2-2
a: Unter der Annahme eines 20%igen Maskierungsverhältnisses würde ich die Maske auf eines der fünf Eingabewörter (W1 bis W5) in der Abbildung "figures/Mask_under_MLM.pdf" anwenden. Da es sich um eine zufällige Auswahl handelt, könnte es jedes der Wörter sein. Wenn ich es zeichnen müsste, würde ich beispielsweise das zweite Wort W2 auswählen und es durch ein Symbol oder eine Markierung ersetzen, die eine Maske darstellt, wie z.B. ein einfaches Rechteck mit einer diagonalen Linie.

b: MLM benötigt in der Regel mehr Iterationen über die Trainingsdaten im Vergleich zu CLM, weil bei MLM nur ein Teil der Wörter in jedem Durchlauf maskiert wird (gemäß des Maskierungsverhältnisses), während CLM die gesamte Sequenz für die Vorhersage der nächsten Wörter verwendet. Daher macht MLM weniger "nutzbare" Vorhersagen pro Durchlauf, was in der Regel zu einem längeren Training führt.

c: Bei MLM wird kein Verschieben der Eingabesequenzen um eine Position nach rechts benötigt, weil das Ziel des MLM darin besteht, zufällig ausgewählte maskierte Token innerhalb einer Eingabesequenz vorherzusagen. Es handelt sich um ein bidirektionales Modell, das von links nach rechts und von rechts nach links Kontextinformationen nutzt, um das maskierte Wort vorherzusagen. Dadurch lernt das Modell eine kontextuelle Darstellung des gesamten Eingabetextes, im Gegensatz zu CLM, das eine unidirektionale Vorhersage macht und daher die Eingabe nach rechts verschiebt, um sicherzustellen, dass das Modell nur auf vorherige (und nicht zukünftige) Kontexte zugreift.

d: PrefixLM kann effektiver als CLM sein, weil es einige Vorteile von beiden, MLM und CLM, kombiniert. Wie in der Abbildung "figures/Illustration_of_language_model_training.png" zu sehen ist, kann beim PrefixLM das Modell wie im MLM bidirektionale Kontextinformationen verwenden, um die Darstellungen eines Präfixes der Eingabesequenz zu lernen. Dann wird, wie beim CLM, eine unidirektionale Generierung durchgeführt. Auf diese Weise lernt das Modell, effektivere kontextuelle Darstellungen zu generieren und damit präzisere Vorhersagen zu machen, da es von einem größeren Kontext während des Trainings profitiert.

Bitte beachten Sie, dass die angegebenen Antworten eine allgemeine Erklärung bieten, wie diese Trainingsziele typischerweise arbeiten; in der Praxis kann die Effektivität der Modelle von vielen anderen Faktoren beeinflusst werden.





****************************************************************************************
****************************************************************************************




Answer to Question 2-3
a: Nein, die kontextuellen Embeddings für die beiden "left" im Satz werden nicht die gleichen sein. Grund dafür ist der Self-Attention-Mechanismus von BERT, der zwar das Positional Encoding verwendet hätte, um die Position der einzelnen Wörter im Satz zu berücksichtigen, aber aufgrund des Fehlers im Modell ist dieses Positional Encoding nicht vorhanden. 

Jedoch verwendet BERT immer noch die Query, den Key und den Value in der Self-Attention-Komponente, um die Relevanz jedes Wortes im Kontext des gesamten Satzes zu ermitteln. Die Query repräsentiert das zu analysierende Wort, der Key jeden anderen Wort im Kontext und der Value ist die Repräsentation des jeweiligen Wortes. Da "left" einmal als Verb und einmal als Adjektiv verwendet wird, also in unterschiedlichen syntaktischen und semantischen Kontexten steht, werden die Self-Attention-Mechanismen unterschiedliche Kontextinformation für jedes Vorkommen berechnen und dadurch unterschiedliche Embeddings erzeugen.

b: Nein, wir können das Skalarprodukt (dot-product) Attention nicht verwenden, wenn die Dimensionen der Attention-Query und des Attention-Keys unterschiedlich sind. Für das Skalarprodukt von zwei Vektoren müssen beide die gleiche Dimension haben. Um das Skalarprodukt-Attention zu verwenden, müssten wir zunächst den Query oder den Key anpassen, sodass beide Vektoren die gleiche Dimension aufweisen.

c: Das Positional Encoding im Transformer-Modell ermöglicht es, die Positionsinformation eines Tokens in die Token-Embeddings zu integrieren, ohne dass dafür trainierbare Parameter erforderlich sind. Es erreicht dies durch eine vordefinierte Positionscodierungsfunktion, die auf Sinus- und Kosinusfunktionen basiert und die es dem Modell ermöglicht, die relative oder absolute Position der Tokens zu lernen. Die Funktion verwendet eine unterschiedliche Frequenz für jede Dimension, sodass das Modell die Positionen der Tokens anhand dieser variierenden Frequenzen unterscheiden kann.

Ein Ansatz, um ein trainierbares Positional Encoding zu erhalten, wäre die Verwendung eines separaten Embedding-Layers, dessen Parameter während des Trainingsprozesses aktualisiert werden. Dieser Embedding-Layer würde anstelle der festen Sinus- und Kosinusfunktionen verwendet werden und könnte die Modellleistung verbessern, indem er sich besser auf die jeweilige Aufgabe anpasst.





****************************************************************************************
****************************************************************************************




Answer to Question 2-4
a: Falsch. Greedy-Decoding benötigt in der Regel weniger Speicherplatz als Beam-Search, da es jeweils nur die wahrscheinlichste Option anstatt mehrerer möglicher Sequenzen betrachtet.

b: Falsch. Es ist möglich, ein Ensemble von Textgenerierungsmodellen mit verschiedenen Vokabularen zu erstellen, indem die Vokabulare während des Ensembling-Prozesses vereinheitlicht oder entsprechende Anpassungen vorgenommen werden.

c: Richtig. Wenn wir bei der Dekodierung die Satzwahrscheinlichkeit nicht nach der Sequenzlänge normalisieren, tendiert das Modell dazu, kürzere Sequenzen zu bevorzugen, weil sie insgesamt eine höhere Gesamtwahrscheinlichkeit aufweisen als längere Sequenzen.

d: Richtig. Beim Top-k-Sampling, wo aus den k wahrscheinlichsten nächsten Wörtern zufällig ausgewählt wird, führt ein höherer Wert von k zu einer größeren Auswahlmöglichkeit und somit zu einer höheren Variabilität in der erzeugten Ausgabe.





****************************************************************************************
****************************************************************************************




Answer to Question 2-5
Der unterschiedliche Wortlaut in der Übersetzung vom Englischen ins Deutsche, wie im obigen Beispiel ("Was möchten Sie trinken?" vs. "Was möchtest du trinken?"), hätte tendenziell einen stärkeren Einfluss auf die BLEU-Score-Bewertung als auf die COMET-Bewertung. 

Der BLEU-Score berücksichtigt hauptsächlich die Übereinstimmung auf der Ebene der N-Gramme zwischen der maschinellen Übersetzung und einer oder mehreren Referenzübersetzungen. Das bedeutet, dass Unterschiede in einzelnen Wörtern, wie die Veränderung von "Sie" zu "du", die Übereinstimmung der N-Gramme stören und somit den BLEU-Score negativ beeinflussen können. BLEU misst die Qualität einer Übersetzung anhand der Präzision von N-Grammen und kann feine Nuancen im Kontext oder in der Konnotation nicht erfassen.

COMET hingegen ist ein neueres, auf maschinellem Lernen basierendes Bewertungssystem, das darauf trainiert ist, die semantische Äquivalenz und den Kontext besser zu erfassen. Es berücksichtigt den Sprachgebrauch, die Grammatik und den Kontext der gesamten Übersetzung und ist somit in der Lage, auch feinere Unterscheidungen in der Übersetzung, wie den Grad der Formalität oder die Beziehung zwischen Sprecher und Adressat (zum Beispiel "Sie" vs. "du"), zu bewerten. Daher würde COMET wahrscheinlich eine Übersetzung, die besser zum Kontext oder zur Intention der ursprünglichen Nachricht passt, höher bewerten.

Zusammenfassend hat die BLEU-Score-Bewertung mehr Schwierigkeiten, feine Unterschiede in der Formalität oder Anrede zu erfassen, da sie hauptsächlich auf der lexikalischen Übereinstimmung basiert. COMET hat die Möglichkeit, solche Nuancen besser zu berücksichtigen, da es ein kontextbezogenes Verständnis der Sprache in die Bewertung miteinbezieht.





****************************************************************************************
****************************************************************************************




Answer to Question 3-1
a: Die Ansätze ordnen sich bezüglich der Anzahl der trainierten Parameter wie folgt:
1. (Promptless) Finetuning
2. In-Context Learning
3. Direct Prompting

Beim (Promptless) Finetuning werden alle Modelparameter während des Anpassungsprozesses feinabgestimmt, daher involviert dieser Ansatz die meisten Parameter. Beim In-Context Learning wird das Modell nicht explizit trainiert, sondern verwendet vorhandene Parameter, um durch Kontextualisierung zu lernen, was weniger Parameteranpassungen erfordert. Direct Prompting passt keine Modellparameter an; es nutzt das Modell so, wie es ist, und verwendet nur Eingabeaufforderungen, um das gewünschte Ergebnis zu erhalten.

b: Hier ist die Rangfolge hinsichtlich des Speicherbedarfs für die Inferenz:
1. Direct Prompting
2. In-Context Learning
3. (Promptless) Finetuning

Direct Prompting benötigt den geringsten Speicher, da hier keine Modellanpassungen vorgenommen werden und das Modell direkt für die Inferenz verwendet wird. In-Context Learning kann ebenfalls einen relativ geringen Speicher verbrauchen, da das Modell keine weiteren Trainingsparameter speichern muss, obwohl es vom Kontext abhängt. Beim (Promptless) Finetuning wird nach der Anpassung das gesamte Modell mit den aktualisierten Parametern für die Inferenz verwendet, was den größten Speicherbedarf bedeutet.

c: Mit nur 8 Eingabe-Ausgabe-Paaren würde ich In-Context Learning wählen. Angesichts der geringen Datenmenge ist es unwahrscheinlich, dass ein effektives Finetuning möglich ist, da für das Finetuning in der Regel eine größere Datenmenge notwendig ist, um Überanpassung zu vermeiden. Direct Prompting könnte funktionieren, aber es kann sein, dass das Modell ohne spezifische Beispiele oder weiteren Kontext nicht effektiv adaptiert wird. In-Context Learning ermöglicht es dem Modell, direkt aus den gegebenen Beispielen zu lernen und kann daher eine adaptierte Leistung ohne explizites Finetuning erzielen.





****************************************************************************************
****************************************************************************************




Answer to Question 3-2
a: Jeder Adapter wird nach jeder der 12 Schichten des Modells eingefügt. Jeder Adapter hat zwei lineare Projektionen, eine, die von der Dimension 1024 auf 256 projiziert, und eine, die von der Dimension 256 zurück auf 1024 projiziert. Dabei gibt es zwei Gewichtsmatrizen, eine für jede Projektion. Die Anzahl der Parameter für eine Projektion von 1024 auf 256 beträgt 1024 * 256. Die Anzahl der Parameter für eine Projektion von 256 auf 1024 beträgt 256 * 1024. Also beträgt die Gesamtanzahl der Parameter für einen Adapter 1024 * 256 + 256 * 1024. Da es 12 Adapters gibt, werden diese berechneten Parameter mit 12 multipliziert.

b: Beim Prompt-Tuning werden nur die Parameter für die 50 reservierten Tokens trainiert. Jeder Token ist in einer Dimension von 1024 repräsentiert. Also gibt es 50 * 1024 Parameter, die trainiert werden.

c: Beim Decoding muss der Speicherplatz für alle reservierten Prompt-Tokens und für die zugehörigen Positionen gehalten werden, während die Parameter des Modells selbst unverändert bleiben. Dies kann schnell den Speicherplatz überfordern, vor allem wenn das Modell versucht, längere Texte zu generieren und dafür mehr Speicherplatz benötigt als nur für die Verwaltung der trainierten Parameter.

d: Der Hauptunterschied zwischen Prompt-Tuning und Prefix-Tuning ist, dass beim Prompt-Tuning die zusätzlichen Prompt-Tokens direkt am Anfang des Inputs eingefügt werden, während beim Prefix-Tuning ein sogenannter "kontinuierlicher" Prefix, der aus kontinuierlich optimierten Vektoren besteht, dem Modellinput vorangestellt wird. Ein Vorteil des Prompt-Tuning könnte sein, dass es intuitiver und einfacher zu implementieren ist, da es sich im Wesentlichen um ein Hinzufügen von extra Input-Tokens handelt. Ein Nachteil wäre, dass die zusätzlichen Prompt-Tokens während des Decodings zusätzlichen Speicherplatz benötigen können, wie bereits in Frage c) diskutiert.





****************************************************************************************
****************************************************************************************




Answer to Question 3-3
a: Um das vortrainierte Übersetzungsmodell anzupassen, damit es Informationen aus dem Objekterkennungsmodell nutzen kann, könnten wir die Eingabesequenz des Encoder-Decoder-Modells erweitern, um die von dem Objekterkennungsmodell erkannten Objektbezeichnungen einzuschließen. Die Eingabe würde dann sowohl den zu übersetzenden Satz als auch die Liste der erkannten Objekte enthalten. Die Ausgabe des Modells wäre die übersetzte Satzsequenz. Um den Fall zu behandeln, dass eine Objektbezeichnung nicht im Vokabular des trainierten Übersetzungsmodells enthalten ist, könnten wir eine zusätzliche Trainingseinheit durchführen, um dem Modell diese neuen Begriffe beizubringen, oder ein Fallback-Verfahren etablieren, bei dem unbekannte Begriffe durch einen Platzhalter oder ein allgemeines Synonym ersetzt werden.

b: Um zu analysieren, ob das Modell die Informationen aus dem Objekterkennungsmodell verwendet, könnten wir eine Testreihe mit und ohne diese zusätzlichen Informationen durchführen und die Ergebnisse vergleichen. Dies könnte beispielsweise durch das Entfernen der Objektbezeichnungen aus der Eingabe erfolgen, wobei man prüft, ob und wie sich dies auf die Qualität der Übersetzung auswirkt. Eine andere Möglichkeit wäre, spezielle Marker oder Tags zu den Objektbezeichnungen hinzuzufügen, um zu erkennen, ob diese in der Ausgabe in irgendeiner Weise reflektiert werden.

c: Um das vortrainierte Übersetzungsmodell anzupassen, um ein kodiertes Bild zu verwenden, müssten wir eine Methode implementieren, um den 1024-dimensionalen Vektor des kodierten Bildes in die Eingabe des Übersetzungsmodells zu integrieren. Dies könnte durch eine Transformation des Bildvektors auf die passende Embedding-Dimension des Übersetzungsmodells geschehen, beispielsweise durch eine lineare Transformation oder ein feedforward neuronales Netz. Der angepasste Eingabevektor würde dann zusammen mit dem Texteingabesatz in das Encoder-Decoder-Modell eingespeist. Wenn die Größe des kodierten Bildvektors nicht mit der Embedding-Dimension übereinstimmt, könnte man eine Dimensionsreduktion oder -expansion durchführen, um die beiden Größen anzugleichen.





****************************************************************************************
****************************************************************************************




Answer to Question 3-4
a: Die Retrieval-Augmented Generation (RAG) unterscheidet sich von der traditionellen Generierung, indem sie zusätzlich zu den intern gespeicherten Informationen eines Large Language Models (LLM) externe Datenbanken oder Wissensquellen während des Generierungsprozesses nutzt. Anstatt nur auf der Grundlage der im Modell trainierten Muster und Zusammenhänge zu generieren, sucht RAG gezielt nach relevanten Informationen in den angeschlossenen Datenquellen, um Antworten oder Inhalte zu generieren, die auf genauen und verifizierten Daten basieren. Dies kann die Wahrheitsgehalt von LLM verbessern, da die generierten Antworten oder Informationen durch tatsächliche Daten gestützt werden und nicht ausschließlich von der Qualität und Vielfalt der Trainingsdaten des Modells abhängen.

b: Ich stimme zu, dass Halluzinationen bei der maschinellen Übersetzung leichter zu erkennen sind als bei der allgemeinen Texterstellung mit einem Large Language Model. Bei der maschinellen Übersetzung gibt es in der Regel ein direktes Gegenstück oder eine Entsprechung zwischen den Sprachen, und Abweichungen oder erfundene Inhalte können oft durch Vergleich mit dem Originaltext identifiziert werden. Bei der allgemeinen Texterstellung hingegen gibt es oft keinen direkten Vergleichspunkt, was es schwieriger macht, Halluzinationen zu identifizieren, da das Modell frei Inhalte generieren kann, ohne dass unmittelbar offensichtlich ist, ob diese fiktiv oder faktenbasiert sind.

c: Wenn lange Dokumente beim Training von Large Language Models aufgrund von Speicherbeschränkungen abgeschnitten werden, kann das bedeuten, dass wichtige Kontextinformationen verloren gehen. Dies könnte dazu führen, dass das Modell nicht das volle Verständnis von Zusammenhängen entwickeln kann und dadurch eher zu Halluzinationen neigt, also zum Generieren von Inhalten, die nicht durch den tatsächlichen Kontext unterstützt werden. Das Problem kann entschärft werden, indem effizientere Speichertechniken wie sparsity oder memory compression verwendet werden, oder durch den Einsatz von Methoden wie „Chunking“, bei dem Dokumente in kleinere Einheiten unterteilt werden, die vollständig verarbeitet werden können, während gleichzeitig der übergeordnete Kontext durch überlappende Sequenzen erhalten bleibt.





****************************************************************************************
****************************************************************************************




