Answer to Question 1


Die beiden Ziele der Interpretability sind:

1. Verständlichkeit: Die Fähigkeit, ein Modell so zu gestalten, dass es für Menschen leicht zu verstehen und zu interpretieren ist. Dies beinhaltet die Fähigkeit, die Funktionsweise des Modells zu erklären und zu verstehen, wie es zu bestimmten Vorhersagen kommt.

2. Transparenz: Die Fähigkeit, die internen Mechanismen und Prozesse eines Modells offenzulegen und einzusehen. Dies ermöglicht es Benutzern, das Verhalten des Modells besser zu verstehen und zu überprüfen, ob es faire und ethische Entscheidungen trifft.





****************************************************************************************
****************************************************************************************




Answer to Question 2


Die Grad-CAM-Methode ist eine Technik zur Visualisierung von Konvolutionsneuronalen Netzen (CNNs), die im Bereich der Modellkalibrierung liegt. Sie wurde entwickelt, um die Entscheidungsfindung von CNNs besser zu verstehen und zu interpretieren.

Die Grad-CAM-Methode funktioniert, indem sie die Gradienten der Klassenscores in Bezug auf die Feature-Maps im letzten konvolutionalen Layer berechnet. Dabei wird der Gradient der Klassenscores in Bezug auf die Feature-Maps als Gewichtungsfaktor verwendet, um die Bedeutung der einzelnen Feature-Maps für die Klassifizierungsentscheidung zu bestimmen.

Anschließend werden die gewichteten Feature-Maps aggregiert, um eine Wärmekarte (heatmap) zu erzeugen, die die räumliche Aufmerksamkeit des Modells aufzeigt. Die Wärmekarte wird auf das Originalbild überlagert, um zu visualisieren, welche Bereiche des Bildes für die Klassifizierungsentscheidung relevant sind.

Die Grad-CAM-Methode hat den Vorteil, dass sie unabhängig von der Architektur des CNNs ist und keine Modifikationen am Modell erfordert. Sie ist ein nützliches Werkzeug zur Analyse und Interpretation von CNNs und kann dazu beitragen, die Vertrauenswürdigkeit und Zuverlässigkeit von Modellentscheidungen zu verbessern.





****************************************************************************************
****************************************************************************************




Answer to Question 3


Antwort:

a) Perturbation Methoden werden verwendet, um interpretierbare Ergebnisse zu erzielen, indem sie kleine, kontrollierte St\"orungen in den Eingabedaten oder Modellparametern vornehmen und die Auswirkungen auf das Modellverhalten untersuchen. Durch die systematische Untersuchung der Auswirkungen von St\"orungen auf das Modellverhalten kann man die Beziehungen zwischen Eingabedaten, Modellparametern und Modellausgaben besser verstehen und interpretieren.

b) Zwei Vorteile der Perturbationsmethode sind:

1. Einfachheit: Perturbation Methoden sind einfach zu implementieren und zu verstehen, da sie auf der Untersuchung der Auswirkungen von St\"orungen auf das Modellverhalten basieren.
2. Interpretierbarkeit: Durch die Untersuchung der Auswirkungen von St\"orungen auf das Modellverhalten kann man die Beziehungen zwischen Eingabedaten, Modellparametern und Modellausgaben besser verstehen und interpretieren.

Zwei Einschr\"ankungen der Perturbationsmethode sind:

1. Komplexit\"at: Die Untersuchung der Auswirkungen von St\"orungen auf das Modellverhalten kann bei komplexen Modellen zeit- und ressourcenintensiv sein.
2. Lokalit\"at: Perturbation Methoden liefern nur lokale Informationen zum Modellverhalten und k\"onnen daher das globale Verhalten des Modells nicht vollst\"andig erfassen.





****************************************************************************************
****************************************************************************************




Answer to Question 4


Um das Problem des verschwindenden Gradienten zu lindern, gibt es zwei Methoden:

1. Gradient Clipping: Hierbei wird der Gradient auf einen maximalen Wert begrenzt, um zu verhindern, dass er zu klein wird. Dies kann erreicht werden, indem man den Gradienten durch seinen Betrag teilt und dann mit einem vorgegebenen Wert multipliziert.

2. Gradient Normalization: Hierbei wird der Gradient auf eine bestimmte Länge normalisiert, um sicherzustellen, dass er nicht zu klein wird. Dies kann erreicht werden, indem man den Gradienten durch seine Länge dividiert, die berechnet wird, indem man den Betrag des Gradienten quadriert und dann die Wurzel zieht.

Beide Methoden können dazu beitragen, das Problem des verschwindenden Gradienten zu lindern, indem sie sicherstellen, dass der Gradient nicht zu klein wird und somit die Optimierung des Modells erleichtern.





****************************************************************************************
****************************************************************************************




Answer to Question 5


Die beiden Haupttypen der Vorhersageunsicherheit beim Deep Learning sind:

1. Epistemische Unsicherheit: Diese Art der Unsicherheit entsteht, wenn das Modell nicht genügend Daten hat, um ein bestimmtes Muster zu erlernen oder wenn das Modell auf Daten trainiert wird, die nicht repräsentativ für die Population sind. Diese Unsicherheit kann durch das Sammeln und Bereitstellen von mehr Daten reduziert werden.

2. Aleatorische Unsicherheit: Diese Art der Unsicherheit ist unvermeidlich und kann nicht durch das Sammeln und Bereitstellen von mehr Daten reduziert werden. Sie entsteht aufgrund der natürlichen Variabilität in der Population oder aufgrund von Messfehlern. Diese Unsicherheit kann durch die Verwendung von probabilistischen Modellen quantifiziert werden, die die natürliche Variabilität in der Population oder die Messfehler berücksichtigen.





****************************************************************************************
****************************************************************************************




Answer to Question 6


a) Selbstüberwachtes Lernen (SSL) ist eine Form des maschinellen Lernens, bei der ein Modell ohne menschliche Überwachung oder Anleitung lernt, indem es Daten analysiert und Muster erkennt. Zwei Vorteile von SSL sind:

1. SSL kann mit ungelabelten Daten arbeiten, was bedeutet, dass es nicht auf die Verfügbarkeit von annotierten Daten angewiesen ist. Dies macht SSL besonders nützlich für Anwendungen, bei denen die Beschaffung von annotierten Daten schwierig oder teuer ist.

2. SSL kann dazu beitragen, Overfitting zu reduzieren, indem es das Modell dazu zwingt, allgemeine Muster in den Daten zu erkennen, anstatt nur spezifische Merkmale, die für die Trainingsdaten relevant sind.

b) Zwei Pretext-Aufgaben für Bilder sind:

1. Bilder invertieren: Dabei wird ein Bild invertiert und das Modell muss lernen, das Originalbild aus der invertierten Version wiederherzustellen.

2. Bilder rotieren: Hier werden Bilder um einen bestimmten Winkel rotiert und das Modell muss lernen, das Originalbild aus der rotierten Version wiederherzustellen.

Eine Pretext-Aufgabe für Videos ist:

1. Video-Frame-Ordering: Dabei werden die Frames eines Videos in zufälliger Reihenfolge präsentiert und das Modell muss lernen, die Frames in der richtigen Reihenfolge wiederherzustellen.

Eine Pretext-Aufgabe für Text (NLP) ist:

1. Masked Language Modeling: Dabei werden zufällig ausgewählte Wörter in einem Satz durch ein spezielles Token ersetzt und das Modell muss lernen, das ursprüngliche Wort aus dem Kontext wiederherzustellen.





****************************************************************************************
****************************************************************************************




Answer to Question 7


a) Die im Flussdiagramm verwendeten Operationen sind:
- Matrixmultiplikation (MatMul)
- Addition (Add)
- Softmax
- Multiplikation (Mult)

Die Dimensionen der Zwischentensoren/-merkmale sind:
- Q: (batch_size, sequence_length, embedding_size)
- K: (batch_size, sequence_length, embedding_size)
- V: (batch_size, sequence_length, embedding_size)
- Attention: (batch_size, sequence_length, sequence_length)
- Attention x V: (batch_size, sequence_length, embedding_size)

b) Der Vorteil der Verwendung von Multi-Head Self-Attention (MHSA) im Vergleich zum traditionellen Self-Attention-Mechanismus ist, dass MHSA die Aufmerksamkeit in mehrere Unterräume aufteilt, was es der Architektur ermöglicht, komplexere Beziehungen zwischen den Eingabeelementen zu erfassen. Dies führt zu einer besseren Leistung bei verschiedenen Aufgaben.

c) Um ein 2D-Eingabebild in eine Sequenz umzuwandeln, flacht der Vanilla Vision Transformer das Bild in eine eindimensionale Sequenz ab und fügt Positionsinformationen hinzu, indem er jedem Element in der Sequenz eine eindeutige Position zuweist. Diese Positionsinformationen werden dann als zusätzliche Merkmale in das Eingabeelement eingebettet.





****************************************************************************************
****************************************************************************************




Answer to Question 8


a) In weakly supervised object detection, wenn image-level labels verwendet werden, ist eine Herausforderung, dass die Position der Objekte in den Bildern nicht bekannt ist. Im Gegensatz dazu wird in weakly supervised semantic segmentation das gesamte Bild pixelweise beschriftet, wodurch die Position der Objekte bekannt ist.

b) Die Weakly Supervised Deep Detection Network (WSDDN) ist eine Methode zur weakly supervised object detection. Die Funktionsweise von WSDDN kann anhand der folgenden Schritte erklärt werden:

1. Zuerst werden Convolutional Neural Networks (CNNs) verwendet, um Feature Maps der Eingabebilder zu generieren.
2. Dann werden diese Feature Maps durch eine Global Average Pooling (GAP) Schicht reduziert, um eine fixe Größe von Feature Vektoren zu erhalten.
3. Anschließend werden diese Feature Vektoren durch zwei separate Fully Connected (FC) Schichten geleitet, um zwei Score Maps zu generieren.
4. Eine Score Map repräsentiert die Objektklassen und die andere repräsentiert den Hintergrund.
5. Schließlich wird die Objektklasse mit der höchsten Punktzahl in der Objektklassen-Score Map als Objektkategorie des Bildes bestimmt.

Die Figur "./dl4cv2/wsddn.png" zeigt die Architektur der WSDDN.

c) Die Herausforderung, die durch den "Concrete Drop Block" und den "Adversarial Erasing" Prozess adressiert wird, ist die fehlende Genauigkeit in der weakly supervised learning. Der "Concrete Drop Block" Mechanismus adressiert diese Herausforderung, indem er zufällige Teile der Feature Maps während des Trainingsprozesses entfernt, wodurch das Modell gezwungen wird, die verbleibenden Teile der Feature Maps besser zu verstehen. Der "Adversarial Erasing" Prozess adressiert diese Herausforderung, indem er die Teile der Feature Maps entfernt, die am wahrscheinlichsten zur Klassifizierung beitragen, wodurch das Modell gezwungen wird, die verbleibenden Teile der Feature Maps besser zu verstehen.





****************************************************************************************
****************************************************************************************




Answer to Question 9


a) Drei der Pre-training Tasks von UNITER sind:

1. Masked Language Modeling (MLM): Einige Wörter im Text werden zufällig ausgewählt und durch ein [MASK]-Token ersetzt. Das Modell muss dann das korrekte Wort vorhersagen, das an der Stelle des [MASK]-Tokens stehen sollte.

2. Masked Region Modeling (MRM): Einige Pixel im Bild werden zufällig ausgewählt und durch ein [MASK]-Token ersetzt. Das Modell muss dann das korrekte Pixel vorhersagen, das an der Stelle des [MASK]-Tokens stehen sollte.

3. Image-Text Matching (ITM): Das Modell muss entscheiden, ob ein gegebenes Text-Bild-Paar zusammengehört oder nicht.

b) Der Inferenz Prozess von CLIP bei der Klassifizierung eines Bildes ist wie folgt:

1. Das Bild wird durch den Image-Encoder von CLIP in einen eingebetteten Vektor transformiert.

2. Die Beschreibungstexte aller möglichen Klassen werden durch den Text-Encoder von CLIP in eingebettete Vektoren transformiert.

3. Die Cosine-Distanz zwischen dem eingebetteten Bildvektor und jedem eingebetteten Klassenvektor wird berechnet.

4. Die Klasse mit der höchsten Cosine-Distanz wird als die Klasse des Bildes bestimmt.

Um die Klassifizierungsgenauigkeit von CLIP ohne weiteres Netzwerk-Training zu verbessern, könnte man z.B. die Anzahl der möglichen Klassen reduzieren, indem man irrelevante Klassen ausschließt.

c) Der Hauptunterschied zwischen einer Netzwerk Architektur wie bei UNITER und einer Dual-Encoder Architektur wie bei CLIP ist, dass UNITER einen gemeinsamen Encoder für Text und Bild verwendet, während CLIP zwei separate Encoder für Text und Bild verwendet.





****************************************************************************************
****************************************************************************************




Answer to Question 10


a)
Ein Vorteil der Verwendung von Parameter-Efficient fine-tuning (PEFT) im Vergleich zum vollständigen Feintuning ist, dass PEFT deutlich weniger Parameter aktualisiert und somit weniger Speicher benötigt. Ein Nachteil ist, dass PEFT möglicherweise nicht die gleiche Leistung wie das vollständige Feintuning erbringt, da es die Anpassungsfähigkeit der Vorabtrainierten Modelle einschränkt.

b)
Der Unterschied zwischen Prefix-Tuning und Prompt-Tuning im Hinblick auf die aktualisierten Parameter besteht darin, dass Prefix-Tuning die Parameter des Vorabtrainierten Modells aktualisiert, während Prompt-Tuning die Parameter des Prompts aktualisiert. Im Prefix-Tuning wird ein "Prefix" an den Eingabedaten hinzugefügt, und die Parameter dieses Präfixes werden aktualisiert, während im Prompt-Tuning der Prompt selbst, der den Eingabedaten vorangestellt wird, aktualisiert wird.





****************************************************************************************
****************************************************************************************




Answer to Question 11


Die Verteilung $P(b|a)=\\frac{P(a|b)*P(b)}{\\int_{-\\inf}^{inf}P(a|b)*P(b)db}$ ist tractable, wenn sie effizient berechnet und in Algorithmen eingebunden werden kann.

Die Tractabilität hängt von der Komplexität der Funktionen $P(a|b)$ und $P(b)$ ab. Wenn diese Funktionen analytisch gegeben sind und einfache Integrale sind, dann ist die Verteilung tractable.

Das Integral im Nenner ist das normierende Integral, das sicherstellt, dass die Wahrscheinlichkeitsverteilung gültig ist. Wenn das Integral analytisch gelöst werden kann, dann ist die Verteilung tractable.

In vielen Fällen können die Funktionen $P(a|b)$ und $P(b)$ als einfache Dichten angenommen werden, wie zum Beispiel Gauß-Dichten. In diesem Fall ist das Integral im Nenner eine Faltung zweier Gauß-Funktionen, die analytisch gelöst werden kann.

Daher ist die Verteilung $P(b|a)=\\frac{P(a|b)*P(b)}{\\int_{-\\inf}^{inf}P(a|b)*P(b)db}$ tractable, wenn $P(a|b)$ und $P(b)$ einfache analytische Funktionen sind.





****************************************************************************************
****************************************************************************************




Answer to Question 12


a) Ein geeignetes generatives Modell f\"ur diese Aufgabe ist das Conditional Variational Autoencoder (CVAE). Die Auswahl ist auf dieses Modell gefallen, weil es die Anforderungen an die \"Ahnlichkeit zur urspr\"unglichen Datenverteilung und die Echtzeitanwendbarkeit erf\"ullt. Das CVAE ist ein generatives Modell, das auf der Variational Autoencoder (VAE) -Architektur basiert und die Bedingungen in den Generierungsprozess integriert. In diesem Fall k\"onnen die Produktionsparameter als Bedingungen verwendet werden, um das Aussehen der Fertigungskomponenten zu steuern.

b) Die einfache Form des \"uberwachten Regressionslosses, das von Ho et al. eingef\"uhrt wurde und zum Trainieren von Diffusionsmodellen verwendet werden kann, ist wie folgt:

L = E[log p(x|z)] - KL[q(z|x)||p(z)]

Die erste Komponente ist die Wahrscheinlichkeit, dass das beobachtete Datenpunkt x unter der bedingten Wahrscheinlichkeit p(x|z) generiert wird. Die zweite Komponente ist die Kullback-Leibler-Divergenz zwischen der approximierten posterioren Verteilung q(z|x) und der priori Verteilung p(z).

c) Das Diffusionsmodell muss zun\"achst den groben Bildinhalt generieren (die Semantik, low frequency response) und sp\"ater die Details (high-frequency response). Dies kann durch eine zweistufige Generierung erreicht werden, wobei die erste Stufe die grobe Form des Bildes erzeugt und die zweite Stufe die Details hinzuf\"ugt. Alternativ kann dies auch durch eine einstufige Generierung erreicht werden, bei der die niedrigen Frequenzen zuerst generiert und dann die hohen Frequenzen hinzugef\"ugt werden.





****************************************************************************************
****************************************************************************************




Answer to Question 13


a) In der closed-set Domain Adaptation ist die Klassenmenge $C$ der Source Domain und Target Domain identisch. In der partiellen Domain Adaptation ist die Klassenmenge der Source Domain eine Obermenge der Klassenmenge der Target Domain. In der open-set Domain Adaptation ist die Klassenmenge der Source Domain eine Obermenge der Klassenmenge der Target Domain und die Target Domain enthält zusätzliche Klassen, die nicht in der Source Domain enthalten sind. Die Anzahl der klassenspezifischen Elemente der Source Domain ist in allen drei Fällen gleich.

b) Die Commonness $\\xi$ zwischen zwei Domänen kann berechnet werden, indem man die Anzahl der gemeinsamen Klassen zwischen den beiden Domänen zählt und diese Anzahl durch die Gesamtzahl der Klassen in beiden Domänen dividiert. In der closed-set Domain Adaptation hat $\\xi$ den Wert 1, da die Klassenmenge der Source Domain und Target Domain identisch ist.

c) Der Unterschied zwischen Domain-Adaptation und Domain-Generalization besteht darin, dass bei Domain-Adaptation die Datenverteilung zwischen Trainings- und Testdaten unterschiedlich sein kann, während bei Domain-Generalization die Datenverteilung zwischen Trainings-, Validierungs- und Testdaten unterschiedlich sein kann.

d) Im Domain Adversarial Neural Network (DANN) wird der Feature Extractor durch Vorwärts- und Rückwärtspropagierung der Daten durch das Netzwerk trainiert. Der Domain Classifier wird durch Vorwärts- und Rückwärtspropagierung der Daten durch das Netzwerk und Inversion der Gradienten mit der Gradient Reversal Layer trainiert. Der Label Predictor wird durch Vorwärts- und Rückwärtspropagierung der Daten durch das Netzwerk trainiert. Die Inversion der Gradienten zwischen dem Domain Classifier und dem Feature Extractor dient dazu, dass der Feature Extractor lernt, features zu extrahieren, die für den Domain Classifier ununterscheidbar sind, was dazu führt, dass der Feature Extractor features extrahiert, die für beide Domänen geeignet sind.





****************************************************************************************
****************************************************************************************




Answer to Question 14


Antwort:

a) Der Algorithmus, der in der Abbildung dargestellt ist, ist der Self-training Algorithmus. In einem semi-supervised Training mit diesem Algorithmus werden ungelabelte Daten durch das Modell klassifiziert und die am besten klassifizierten Daten werden dann als zusätzliche Trainingsdaten verwendet. Wenn $\\tau$ auf null gesetzt würde, würde das Modell nur mit den ungelabelten Daten trainieren, ohne jegliche Gewichtung der Labels. Dies könnte zu inkonsistenten Ergebnissen führen, da das Modell keine Informationen darüber hätte, wie wahrscheinlich ein Label ist.

b) Eine Möglichkeit, das Training mit dem Self-training Algorithmus zu verbessern, wäre die Betrachtung des Confirmation Bias-Problems. Confirmation Bias tritt auf, wenn ein Modell nur die Daten berücksichtigt, die seine aktuellen Annahmen bestätigen, und ignoriert die Daten, die dagegen sprechen. Um dieses Problem zu lösen, könnte man eine Technik wie Negative Sampling verwenden, bei der das Modell nicht nur mit den am besten klassifizierten Daten trainiert, sondern auch mit einer zufälligen Auswahl von Daten, die schlecht klassifiziert wurden. Dadurch wird sichergestellt, dass das Modell auch mit Daten trainiert, die seinen aktuellen Annahmen widersprechen, was zu einem besseren und robusteren Modell führen kann.





****************************************************************************************
****************************************************************************************




Answer to Question 15


a) Zwei Methoden von Few-Shot Learnings sind:
1) Metrics-based Few-Shot Learning: Diese Methode verwendet eine Metrik, um die Ähnlichkeit zwischen den Trainingsdaten und den Testdaten zu messen.
2) Model-based Few-Shot Learning: Diese Methode verwendet ein Modell, um die Beziehung zwischen den Trainingsdaten und den Testdaten zu lernen.

b) Der Unterschied zwischen transduktivem Zero-Shot Learning und induktivem Zero-Shot Learning ist:
1) Transduktives Zero-Shot Learning: In diesem Ansatz werden die Testdatenpunkte während des Trainingsprozesses verwendet. Das Modell wird trainiert, um eine Funktion zu lernen, die die Trainingsdaten und die Testdaten auf ein gemeinsames Merkmalsraum abbildet.
2) Induktives Zero-Shot Learning: In diesem Ansatz werden die Testdatenpunkte nicht während des Trainingsprozesses verwendet. Das Modell wird trainiert, um eine Funktion zu lernen, die die Trainingsdaten auf ein gemeinsames Merkmalsraum abbildet, und dann wird diese Funktion verwendet, um die Testdaten zu klassifizieren.

c) Zwei Fähigkeiten, die generalized Zero-Shot Learning haben sollte, sind:
1) Die Fähigkeit, unbekannte Klassen während des Testens zu erkennen und zu klassifizieren.
2) Die Fähigkeit, die Beziehung zwischen den bekannten und unbekannten Klassen während des Trainings zu lernen.





****************************************************************************************
****************************************************************************************




Answer to Question 16


Antwort:

a) Der Begriff "Robot User" in der interaktiven Segmentierung bezieht sich auf ein System, das in der Lage ist, durch Klicks oder andere Eingaben von Nutzern ein Segmentierungsmodell zu trainieren oder zu verbessern. Ein Beispiel dafür wäre, wenn ein Nutzer auf ein Objekt in einem Bild klickt, um es auszuwählen, und dann auf eine Schaltfläche klickt, um das System zu trainieren, dieses Objekt in Zukunft automatisch zu erkennen und zu segmentieren.

b) Drei Komponenten aus der Architektur des "Segment Anything Model" (SAM) sind:

1. Ein segmentierungsfähiges Modell, das in der Lage ist, Objekte in Bildern zu erkennen und zu segmentieren.
2. Ein Interaktionsmodul, das es Nutzern ermöglicht, durch Klicks oder andere Eingaben mit dem Modell zu interagieren und es zu trainieren oder zu verbessern.
3. Ein Optimierungsalgorithmus, der das Modell trainiert und es in die Lage versetzt, Objekte in Bildern automatisch zu erkennen und zu segmentieren, ohne dass Nutzer eingreifen müssen.





****************************************************************************************
****************************************************************************************




