Answer to Question 1-1
Word Embeddings wie word2vec bilden die Kontextualisierung von Wörtern auf einer tiefen semantischen Ebene ab. Sie lernen aus großen Textkorpusse, wie Wörter in ähnlichen kontextuellen Umgebungen auftreten, indem sie jedes Wort als eine Vektorrepräsentation modellieren. Diese Vektoren sind so angelegt, dass ähnliche Bedeutungen in der Vektorraumnähe liegen. Zum Beispiel werden Wörter wie "Hund" und "Katze", die beide im Kontext von Haustieren auftreten, im Vektorraum nahe beieinander platziert.

Im Gegensatz dazu berücksichtigt TF-IDF eine rein statistische Methode, um den relativen Wert von Wörtern in Dokumenten zu quantifizieren. TF (Term Frequency) misst, wie oft ein Wort in einem bestimmten Dokument vorkommt, während IDF (Inverse Document Frequency) die Seltenheit eines Wortes im gesamten Korpus berücksichtigt. TF-IDF-Werte sind höher für Wörter, die häufig in einem einzelnen Dokument auftreten, aber selten in anderen Dokumenten des Korpus. Es gibt keine direkte Kontextualisierung wie bei word2vec; es ist eher ein Maß für die Bedeutung einer Wortverwendung im Vergleich zu anderen Dokumenten.

Der Hauptunterschied besteht darin, dass word2vec eine kontextsensitive semantische Verständnis von Wörtern bietet, während TF-IDF eine rein statistische Methode zur Bestimmung der relativen Bedeutung von Wörtern in Dokumenten ist. Word Embeddings sind besser geeignet für Aufgaben wie Similaritäts- und Voraussageanalysen, während TF-IDF häufig in Information Retrieval-Systemen und Textbasierten Suchalgorithmen verwendet wird.





****************************************************************************************
****************************************************************************************




Answer to Question 1-2
Die Segmentierung des Satzes "I love NLP a lot" mit den gegebenen Byte-Pair-Encoding (BPE) Codes würde wie folgt aussehen:

"I": I
" ": le
"love": lo+ve
"N": N
"LP": L+P
"a": a
"lot": l+ot

Die Teilwörter sind also: "I", "le", "lo", "ve", "N", "L", "P", "a", "l", "ot".





****************************************************************************************
****************************************************************************************




Answer to Question 1-3
a) Die Ausgabeprojektion hat die Form einer Matrix, da sie eine Abbildung von Wörtern im Vokabular auf ihre entsprechenden 300-dimensionalen Vektoren darstellt. Jede Zeile in der Matrix entspricht einem Wort im Vokabular, und jede Spalte entspricht einer Dimension des Word Embeddings.

b) Ich würde nicht sagen, dass Bart's Trainingspipeline defekt ist. Der Unterschied zwischen den trainierten Wortvektoren hängt von verschiedenen Faktoren ab, wie zum Beispiel der Menge an Trainingsdaten, der Kontextfenstergröße und der Anzahl der Trainingsslots. Obwohl größere Kontextfenster in der Regel mehr Informationen enthalten können, kann es sein, dass die Nachrichtenüberschriften nicht genug Kontext bieten, um signifikante Unterschiede bei den Vektoren auszulösen. Außerdem könnte das Vokabular oder die Wortfrequenz in Bart's Daten nicht ausreichend variieren, um einen messbaren Einfluss auf die Vektoren zu haben. Ohne weitere Informationen über Bart's Daten und Trainingsprozess ist es schwierig, eine definitive Aussage darüber zu treffen, ob sein Modell defekt ist oder nicht.





****************************************************************************************
****************************************************************************************




Answer to Question 1-4
a) Falsch. Die Verwendung von Teilwörtern kann für die Verarbeitung morphologisch reichhaltiger Sprachen hilfreich sein, da sie Morpheme trennt und spezifische Formen erfasst, aber es ist nicht immer besser als whole Words, da vollständige Wörter oft Kontextinformationen enthalten.

b) Richtig. Wenn wir die Häufigkeit jedes Wortes in einem Korpus kennen, können wir ein Unigramm-Sprachmodell erstellen, das die Wahrscheinlichkeit von Wörtern vorhersagt.

c) Falsch. One-Hot-Representations sind eine Art der binären Darstellung von Wörtern und zeigen keine semantischen Ähnlichkeiten oder Unterschiede zwischen ihnen; für den semantischen Vergleich werden z.B. Word Embeddings verwendet.

d) Richtig. LDA modelliert ein Dokument als Verteilung über Themen, die wiederum als Verteilungen über Wörter interpretiert werden können.

e) Falsch. TF-IDF reduziert die Bedeutung von Wörtern, die in vielen Dokumenten häufig vorkommen, indem es ihr Inverse Document Frequency addiert, nicht ihre Term-Frequency.

f) Falsch. Bei HMMs für das Part-of-Speech-Tagging sind die verborgenen Zustände die vermuteten grammatischen Kategorien (z.B. Nomen, Verben), nicht die Wörter selbst; die Wörter sind die beobachtbaren Ausgaben.





****************************************************************************************
****************************************************************************************




Answer to Question 2-1
a) Ein Modell, das die Anforderungen erfüllt, könnte ein einfachen Dense Layer mit einer einzigen Hidden-Schicht enthalten. Die Eingabe wäre die 300-dimensionalen Word Embeddings. Eine lineare Verknüpfung (Dense Layer) würde diese Vektoren in eine 16-dimensionale Räumlichkeit reduzieren, um den Parameter- und Trainingszeit-Anstieg zu minimieren. Eine Aktivierungsfunktion wie ReLU könnte verwendet werden, bevor die Ausgabe durch einen weiteren Dense Layer mit einer einzigen Neuronen (entsprechend der Anzahl der Klassen) gefiltert wird. Diese Ausgabe würde den probabilistischen Vorhersagewert für jede Klasse liefern. Die Dimensionen der Parameter wären dann: Ein Eingabedense-Layer mit 300x16 Gewichten und 16 Bias-Parameter, sowie ein Ausgabedense-Layer mit 16x3 Gewichten und 3 Bias-Parameter.

b) Das Modell aus Teilfrage a ist nicht geeignet für die Klassifizierung von Audio-\u00c4ußerungen, weil:
1. Die Eingabe sind Word Embeddings, während hier Spektrogramme mit 80 Dimensionen benötigt werden. Ein direkter Einsatz des Modells würde also nicht funktionieren, da es auf Textdaten trainiert wurde.
2. Das Modell ist für die Verarbeitung von Worten ausgelegt und nicht für kontinuierliche Audiosignale optimiert. Es fehlt eine Schicht zur Feature-Aufbereitung oder Sequenzverarbeitung, wie zum Beispiel Convolutional Neural Networks (CNN) oder Recurrent Neural Networks (RNN), um die Zeit维度 der Audio-Daten zu berücksichtigen.

c) Ein verbessertes Modell für die Klassifizierung von Audio-\u00c4ußerungen könnte eine Kombination aus Convolutional und Recurrent Layers enthalten. Die Eingabe wäre das 80-dimensionale Spektrogramm. Eine Convolutional Neural Network (CNN) Schicht würde zuerst lokal relevante Features extrahieren, bevor ein Recurrent Neural Network (RNN), wie zum Beispiel ein Long Short-Term Memory (LSTM)-Layer, die zeitliche Sequenzinformation verarbeitet. Dann könnte eine Dense Layer mit einer Aktivierungsfunktion wie Softmax verwendet werden, um die Klassenwahrscheinlichkeiten zu berechnen. Die Dimensionen der Parameter hängen von den spezifischen Konfigurationen der CNN- und LSTM-Schichten ab, aber es könnten beispielsweise 80x32 Gewichte für die Convolutional Layer, 32x64 Hidden Units in der LSTM Schicht und 64x3 Gewichte im Ausgabedense-Layer sein.





****************************************************************************************
****************************************************************************************




Answer to Question 2-2
a) Ein Ansatz, bei dem die Eingabe eine Äußerung ist und die Ausgabe die Dialog-Act-Klasse, wäre nicht optimal, weil im Beispiel gezeigt wird, dass Kontextinformationen aus vorherigen Äußerungen notwendig sind, um korrekte Klassifikationen vorzunehmen. Zum Beispiel, wenn das Modell nur die Äußerung "For a week, right?" betrachten würde, könnte es schwierig sein, zwischen einer Bestätigung (medication) und einer Korrektur (symptom_kneeSwelling) zu unterscheiden, ohne den Kontext der vorherigen Äußerungen.

b) Ich würde die Aufgabe als Sequenz-Labeling-Problem modellieren. Hier ist die Wahl bevorzugt, weil wir für jede Äußerung eine spezifische Dialog-Act-Klasse zuordnen möchten, wobei das Modell auf den Kontext der vorherigen Äußerungen in der Matrix basiert. Im Sequenzgenerierungsfall würde das Modell neue Äußerungen generieren, was hier nicht der Fall ist.

c) Das Modell für die Dialog-Act-Identifizierung könnte wie folgt aussehen:

Eingabe: Die Eingabe wäre die Matrix aller Äußerungen im Dialog, wobei jede Zeile ein Satz-Embedding einer Äußerung darstellt. Diese Matrix hat eine Dimension von anzahl_der_äußerungen $\times$ d.

Zwischenoperationen: Das Modell könnte aus einem sequenzbasierten Encoder wie einem LSTM oder Transformer bestehen, der die Äußerungs-Embeddings verarbeitet und einen kontextuellen Satz-Encoder-Vektor für jede Äußerung generiert. Diese kontextuellen Vektoren könnten dann durch eine Aufmerksamkeitsmechanismus überlagert werden, um den Kontext der vorherigen Äußerungen in die Analyse einzubeziehen.

Ausgabe: Das Modell würde dann für jede Äußerung einen Output-Label-Vektor generieren, wobei jeder Eintrag im Vektor eine Wahrscheinlichkeit darstellt, dass die entsprechende Dialog-Act-Klasse der richtige Klassifizierungsfall ist. Diese Vektoren könnten über eine Softmax-Funktion erzeugt werden, um eine diskrete Klassenauswahl zu ermöglichen.

Insgesamt würde das Modell die Äußerungen im Kontext des gesamten Dialogs verarbeiten und für jede einzelne eine entsprechende Dialog-Act-Klasse vorhersagen.





****************************************************************************************
****************************************************************************************




Answer to Question 3-1
a) "Autoregressiv" bedeutet, dass ein Modell die aktuellen Eingaben in Abhängigkeit von den vorherigen Eingaben vorhersagt. Im Falle des Transformer-Decoders wird jeder Ausgabeworterzeugung die Information aus den bereits generierten Wortern entnommen, wodurch eine sequentielle Verarbeitung von rechts nach links durchgeführt wird.

b) Die Self-Attention im Transformer-Decoder muss während des Trainings teilweise ausgeblendet werden, um zu verhindern, dass der Decoder Informationen über zukünftige Wörter sieht. Dies ist notwendig, da in autoregressiven Modellen die Vorhersage jedes Wortes nur auf den bereits bekannten Wörtern basieren sollte und nicht auf den nachfolgenden Wörtern, die noch nicht generiert wurden.

c) In der gegebenen Tabelle sind die Gewichte, die ausgeblendet werden sollen, markiert mit "x". Diese liegen in den Spalten für die Wörter "E", "F" und "G", da sie die zukünftigen Wörter im Verständnis des autoregressiven Decoders darstellen. Die erste Spalte \"BoS\" (Beginn der Sequenz) ist nicht ausgeblendet, da es keine vorherigen Wörter gibt, von denen abhängig gemacht werden kann.

d) Um zu zeigen, dass die Attention-Gewichte $\\bm{\\alpha}_{\\texttt{Mary}}$ in den Sequenzen \"John loves Mary\" und \"Mary loves John\" gleich sind, betrachten wir die Self-Attention-Mechanismus. In beiden Fällen wird das Wort \"Mary\" als Query verwendet ($\\mathbf{q}_{\\texttt{Mary}}$). Die Attention-Gewichte werden durch den Kompromiss zwischen dem Query und den Keys in der Sequenz bestimmt, hier sind dies $\\mathbf{k}_{\\texttt{John}}$, $\\mathbf{k}_{\\texttt{loves}}$ und $\\mathbf{k}_{\\texttt{Mary}}$. Die Gewichtungen werden durch das Skalieren des dot-Produkts zwischen Query und Key berechnet, gefolgt von einer Softmax-Funktion. Da die Wörter \"John\", \"loves\" und \"Mary\" in beiden Sequenzen dieselben Word Embeddings haben, sind auch die dot-Produkte gleich und daher werden die Attention-Gewichte $\\bm{\\alpha}_{\\texttt{Mary}}$ identisch sein.





****************************************************************************************
****************************************************************************************




Answer to Question 3-2
a) Zwei mögliche Lösungen für das Problem der unbekannten Wörter im medizinischen Zusammenfassungsmodell sind:
1. Datenaugmentation: Durch den Einsatz von maschinellem Lernen oder künstlicher Intelligenz können ähnliche, aber nicht identische medizinische Terme generiert werden, um das Trainingsdataset zu erweitern und das Modell damit vertraut mit unbekannten Wörtern zu machen.
2. Word Embedding-Integration: Indem man vorgefertigte word embedding Modelle wie Word2Vec oder GloVe nutzt, die eine breitere Vocabulary abdecken, kann man den Kontext von unbekannten Wörtern ableiten und diese in das Modell einbinden.

b) ROUGE-n basiert auf dem overlapping n-gram approach. Es vergleicht die Anzahl der übereinstimmenden n-grams (n-Tupel von Wörtern) zwischen den generierten Zusammenfassungen und den Referenzzusammenfassungen, um die Overlap-Menge zu quantifizieren.

c) Das Modell erhält hohe ROUGE-2-Werte, weil es erfolgreich wiederholt n-grams (hier 2-grams) in der Ausgabe generiert hat. In diesem Fall ist die Wiederholung von "amyloid angiopathy" ein häufiges n-gram, das das Metric als positiv bewertet. Um dieses Problem zu vermeiden, können wir eine Metrik verwenden, die auf lexical diversity oder einzigartigen Phrasen fokussiert ist, wie zum Beispiel ROUGE-L (longest matching n-grams) oder METEOR.

Um die Anzahl der Wiederholungen in der Ausgabe zu reduzieren, könnten folgende Ansätze angewendet werden:
1. Kontrainderivation: Trainieren Sie das Modell mit einer Kombination von Regularisierungstechniken, um die Verwendung wiederholter Phrasen zu minimieren.
2. Kontextbasierte Generierung: Verwenden Sie den kontextuellen Kontext der Texte, um die Auswahl relevanter Wörter und Phrasen während der Zusammenfassung zu verbessern.
3. Post-Processing: Durch Überprüfung und Optimierung der generierten Ausgabe nach dem Prozess können überflüssige Wiederholungen manuell entfernt oder durch eine automatisierte Methode reduziert werden, die auf Redundanz detektiert.





****************************************************************************************
****************************************************************************************




Answer to Question 3-3
a) Vorteil: Ein Hauptvorteil des Vorschlags von Ernie besteht darin, dass BERT bereits eine starke und prätrainierte Repräsentation für Textdaten bietet. Diese vortrainierten Modelle können als Startpunkt genutzt werden, um die Leistung der maschinellen Übersetzung zu verbessern, da sie bereits eine gute Verständnisstruktur des Quelltextes haben.

Nachteil: Ein Nachteil besteht darin, dass CTC (Connectionist-Temporal-Classification) ursprünglich für Spracherkennung entwickelt wurde und möglicherweise nicht optimal an die Anforderungen der Übersetzungsaufgabe angepasst ist. CTC kann Schwierigkeiten haben, long-range Abhängigkeiten in Sequenzen zu erfassen, was bei der Übersetzung wichtig sein kann.

b) Eine Möglichkeit zur Verbesserung des Modells wäre das Hinzufügen eines Decoders, speziell für Übersetzungsprobleme trainiert. Zum Beispiel könnte man einen Transformer-Decoder verwenden, der auf den Ausgabekode von BERT angewendet wird. Diese Kombination aus einem vortrainierten Encoder (BERT) und einem spezialisierten Decoder würde die Fähigkeit des Modells verbessern, kontextsensitve Entscheidungen zu treffen und die Struktur des Zielsprachtextes besser zu erlernen. Eine weitere Verbesserung könnte darin bestehen, den Trainingsprozess mit einer Kombination von Musterabgleich-Techniken (wie Teacher-Forcing) und Sequence-to-Sequence-Lernmethoden durchzuführen.





****************************************************************************************
****************************************************************************************




Answer to Question 3-4
a) Ein Modell f\u00fcr die Text-to-SQL-Aufgabe k\u00f6nnte auf einer Kombination von Sequence-to-Sequence-Lerning und Attention-Mechanismen basieren. Es besteht aus zwei Teilen: einem Encoder, der den nat\u00fcrlichen Sprachtext der Frage analysiert, und einem Decoder, der die SQL-Abfrage generiert. Der Encoder verwendet beispielsweise einen Transformer oder LSTM-Encoder, um die Bedeutung der Frage in einem kontinuierlichen Vektor zu kodieren. Der Decoder ist ein LSTM oder Transformer-Decoder, der den Vektor des Encoders als Eingabe nimmt und Schritt f\u00fcr Schritt eine SQL-Abfrage generiert.

Der Encoder könnte die Informationen \u00fcber die Tabelle und die Spaltennamen als pr\u00e4ferenzieren, indem er diese als vorherige Kenntnisse in Form von Embeddings oder als spezifische Eingabemerkmalvektoren integriert. Das Modell l\u00e4uft dann durch mehrere Trainingsschritte mit den 30.000 Trainingsinstanzen, wobei es anhand der g\u00fcltigen SQL-Abfragen Feedback erhält und lernt, die Frage in eine entsprechende Abfrage zu \u00fcbersetzen.

b) Um das Modell auf unbeantwortbare Fragen wie "Wer ist der Bundeskanzler von Deutschland?" vorzubereiten, kann man es trainieren, diese Arten von Fragen als ung\u00fcltige oder nicht relevante SQL-Abfragen zu identifizieren. Eine Möglichkeit besteht darin, eine spezielle Kategorie für unbeantwortbare Fragen in den Trainingsdaten einzuf\u00fchren und das Modell so zu trainieren, dass es diese Kategorie erkennt und stattdessen eine "ung\u00fcltige Abfrage" oder einen entsprechenden Hinweis ausgibt.

Eine weitere Methode besteht darin, die Frage vor der Verarbeitung durch das Modell zu pr\u00fcfen. Wenn die Frage nicht mit den verfügbaren Tabellen- und Spalteninformationen korreliert, kann man direkt eine Antwort wie "Die Frage bezieht sich nicht auf die vorhandenen Daten" generieren, ohne dass das Modell eine SQL-Abfrage erzeugt.





****************************************************************************************
****************************************************************************************




Answer to Question 4-1
a) Ein Vorteil des Einsatzes von Adapters in diesem Fall ist, dass es ermöglicht, nur die neuen Adapter-Parameter zu aktualisieren, während die ursprünglichen BERT-Parameter eingefroren werden. Dies kann dazu führen, dass das Modell schneller konvergiert und weniger anfällig für Überanpassung wird, da fewer Parameters trainiert werden.

b) Die Adapter würden in jedem der 12 Encoder-Schichten (einschließlich der Schicht 0) zwischen den Linear-Projectionen eingefügt werden. In der gegebenen Architektur würde man nach der LayerNorm in der SelfAttention und vor dem Dense-Layer im BertSelfOutput einen Adapter hinzufügen, sowie nach der LayerNorm im BertOutput und vor dem Dense-Layer eine weitere Adapter-Schicht einfügen.

c) Um die Anzahl der zusätzlichen Parameter zu berechnen, müssen wir die neuen Parameter in den Adapters mit den bereits vorhandenen Parametern in den Linear-Projektionen vergleichen. Jeder Adapter besteht aus zwei linearen Projektionen: Eine von 768 Dimensionen auf 256 und eine von 256 Dimensionen zurück auf 768.

- Für die erste Projektion (768 -> 256) gibt es für jeden der 12 Schichten je ein neues Weights-Matrix mit 768x256 = 196.608 Parametern und ein Bias mit 256 Parametern, insgesamt 4.930.560 Parameter.
- Für die zweite Projektion (256 -> 768) gibt es für jede der 12 Schichten je ein neues Weights-Matrix mit 256x768 = 196.608 Parametern und ein Bias mit 768 Parametern, insgesamt 4.930.560 Parameter.

Die Gesamtzahl der zusätzlichen Parameter beträgt daher die Summe dieser beiden Werte, aber da beide Projektionen in jeder Schicht identisch sind, müssen wir diese nur einmal zählen:

4.930.560 + 4.930.560 = 9.861.120 zusätzliche Parameter.





****************************************************************************************
****************************************************************************************




Answer to Question 4-2
a) Der Ansatz mit dem BERT-CLS-Token zur Erstellung von Satzrepräsentationen unterscheidet sich von Pooling Methoden wie Meanpool oder Maxpool, indem er nur den kategorisierenden Token des Satzes verwendet. Im Gegensatz dazu bilden Meanpool und Maxpool die Satzrepräsentation durch das Durchschnittnehmen (Mean) oder das Maximieren (Max) der einzelnen Wortvektoren im Satz. Vorteile des BERT-CLS-Tokens sind, dass es eine integrierte Klassifikationsfunktion enthält, die den Kontext des gesamten Satzes erfasst und somit eine bessere Semantik darstellen kann. Außerdem benötigt man weniger Ressourcen, da nur ein einzelner Vektor pro Satz berechnet wird.

b) Bei der DPR sind irrelevant/negativen Paare im Trainingsziel notwendig, um dem Modell beizubringen, wie es zwischen relevanten und nicht relevanten Frage-Passagen-Paaren unterscheiden soll. Wenn man diese Paare weglässt, würde das Modell möglicherweise Schwierigkeiten haben, die Abstandsmessung zwischen relevanten und irrelevanten Passagen korrekt zu lernen. Ohne negative Beispiele könnte das Modell dazu neigen, alle Paare als relevant zu betrachten oder eine schwache Vorhersagefunktion für die Relevanzentfernung zu entwickeln, was zu minderem Retrieval-Erfolg führen würde.





****************************************************************************************
****************************************************************************************




