Answer to Question 1-1


Die Herausforderungen bei der Modellierung der Perzeption von Text sind vielfältig. Zunächst einmal ist die menschliche Wahrnehmung von Text ein sehr komplexer Prozess, der von vielen Faktoren beeinflusst wird. Einige dieser Faktoren sind leicht zu identifizieren und zu quantifizieren, während andere viel subtiler und schwerer zugänglich sind.

Eine der Herausforderungen bei der Modellierung der Perzeption von Text ist die Tatsache, dass die Bedeutung eines Textes oft vom Kontext abhängt, in dem er gelesen wird. Zum Beispiel kann ein Wort in einem bestimmten Satz oder Absatz eine ganz andere Bedeutung haben als in einem anderen Kontext. Dies macht es schwierig, ein Modell zu entwickeln, das in der Lage ist, die Bedeutung eines Textes präzise und zuverlässig zu bestimmen, da es eine sehr detaillierte Kenntnis des Kontextes erfordern würde.

Eine weitere Herausforderung bei der Modellierung der Perzeption von Text ist die Tatsache, dass die menschliche Wahrnehmung von Text oft von subjektiven Faktoren abhängt, wie zum Beispiel den Erfahrungen, Werten und Überzeugungen des Lesers. Zum Beispiel kann ein Text, der für eine Person sinnvoll und überzeugend klingt, für eine andere Person völlig unverständlich oder unglaubwürdig sein. Dies macht es schwierig, ein Modell zu entwickeln, das in der Lage ist, die Wahrnehmung eines Textes durch verschiedene Leser vorherzusagen oder zu erklären.

Zusammenfassend lässt sich sagen, dass die Modellierung der Perzeption von Text eine große Herausforderung darstellt, da sie von vielen Faktoren abhängt, die schwer zu identifizieren und zu quantifizieren sind. Dazu gehören der Kontext, in dem ein Text gelesen wird, und die subjektiven Faktoren, die die Wahrnehmung eines Textes durch verschiedene Leser beeinflussen.





****************************************************************************************
****************************************************************************************




Answer to Question 1-2


Antwort:

a) Die Annahme des N-Gramm-Sprachmodells ist, dass die Wahrscheinlichkeit eines Wortes oder Zeichens in einem Text durch die vorherigen N-1 Wörter oder Zeichen bestimmt wird. Dieses Modell vereinfacht die Berechnung der Wahrscheinlichkeit eines Wortes oder Zeichens in einem Text, indem es die Abhängigkeit von allen vorherigen Wörtern oder Zeichen auf die N-1 vorherigen reduziert.

b) Die Wahrscheinlichkeitsgleichung des Satzes "This is the exam of Advanced AI." aus einem Tri-Gramm-Sprachmodell lautet:

P(This | <START>) \* P(is | This) \* P(the | is) \* P(exam | the) \* P(of | exam) \* P(Advanced | of) \* P(AI | Advanced) \* P(.<END> | AI)

Hierbei ist <START> der Startzustand und <END> der Endzustand des Sprachmodells. Die Wahrscheinlichkeiten P(Wort | Vorheriges Wort) müssen aus einem Trainingscorpus geschätzt werden.





****************************************************************************************
****************************************************************************************




Answer to Question 1-3


a) Der Prozess des Byte-Pair Encoding (BPE) besteht darin, ein Vokabular aus den h\u00e4ufigsten Paaren von Zeichen zu erstellen, die im Text vorkommen. Hier ist der Schritt-f\u00fcr-Schritt-Prozess zur Erstellung eines BPE-Vokabulars mit einer Gr\u00f6\u00dfe von 15 aus den gegebenen S\u00e4tzen:

1. Z\u00e4hlen Sie die H\u00e4ufigkeit jedes Zeichens im Text.
2. Erstellen Sie ein Vokabular aus den zwei h\u00e4ufigsten Zeichen, die zusammen auftreten. Zum Beispiel: "I" und "s" treten h\u00e4ufig zusammen auf, also f\u00fcgen Sie "is" hinzu.
3. Ersetzen Sie alle Vorkommen des h\u00e4ufigsten Zeichenpaars durch ein neues Token. Zum Beispiel: Ersetzen Sie "is" durch "/w1".
4. Wiederholen Sie Schritte 1-3, bis das Vokabular die gew\u00fcnschte Gr\u00f6\u00dfe erreicht hat.

Hier ist der Schritt-f\u00fcr-Schritt-Prozess f\u00fcr dieses Beispiel:

1. Z\u00e4hlen Sie die H\u00e4ufigkeit jedes Zeichens im Text:

| Zeichen | H\u00e4ufigkeit |
| --- | --- |
| I | 3 |
| s | 3 |
| t | 3 |
| u | 3 |
| d | 2 |
| y | 2 |
| a | 2 |
| n | 2 |
| l | 2 |
| i | 2 |
| K | 1 |
| . | 1 |
| \ | 1 |
| ' | 1 |

2. Erstellen Sie ein Vokabular aus den zwei h\u00e4ufigsten Zeichen, die zusammen auftreten:

| Zeichenpaar | H\u00e4ufigkeit |
| --- | --- |
| i | 3 |
| s | 3 |
| t | 3 |
| u | 3 |
| d | 2 |
| y | 2 |
| a | 2 |
| n | 2 |
| l | 2 |
| i | 2 |
| K | 1 |
| . | 1 |
| \ | 1 |
| ' | 1 |

Die h\u00e4ufigsten Zeichenpaare, die zusammen auftreten, sind "t" und "h", "i" und "n", "s" und "t", "n" und "l", "i" und " ", "a" und "n", "l" und "i", "i" und "k", "." und " ", "K" und "I", "I" und " ", "s" und " ", "u" und " ", "d" und " ", "y" und "'". Wir w\u00e4hlen "i" und "n" aus, weil sie die h\u00f6chste H\u00e4ufigkeit haben.

3. Ersetzen Sie alle Vorkommen des h\u00e4ufigsten Zeichenpaars durch ein neues Token:

| Zeichenpaar | H\u00e4ufigkeit |
| --- | --- |
| in | 2 |
| s | 3 |
| t | 3 |
| u | 3 |
| d | 2 |
| y | 2 |






****************************************************************************************
****************************************************************************************




Answer to Question 1-4


Die Antwort auf die Unterfrage a) lautet: B-University I-University O O O O B-Course I-Course O O O O B-Lab I-Lab O O B-Lab O-Lab O-Lab

Die Antwort auf die Unterfrage b) lautet: Es gibt 3 Klassen bei der Ausgabe des Sequenzkennzeichnungsmodells: University, Course und Lab.





****************************************************************************************
****************************************************************************************




Answer to Question 2-1


a) Für CBOW würde ein beispielhaftes Trainingsbeispiel lauten:

Input: [smarter, than, large]
Output: human

Für Skip-gram würde ein beispielhaftes Trainingsbeispiel lauten:

Input: human
Output: [is, smarter, than, large, language, model]

b) Die Herausforderung bei der Implementierung des Skip-Gram-Modells ist, dass es eine große Anzahl an Trainingsbeispielen erzeugt, da für jedes Wort im Satz ein Trainingsbeispiel erstellt wird. Eine Lösung für dieses Problem wäre, eine feste Anzahl an Trainingsbeispielen pro Satz zu definieren, indem man z.B. nur jedes n-te Wort als Input nimmt. Für den obigen Satz würde das beispielsweise so aussehen:

Input: human
Output: smarter

Input: smarter
Output: than

Input: than
Output: large

Input: large
Output: language

Input: language
Output: model





****************************************************************************************
****************************************************************************************




Answer to Question 2-2


a) Das Problem bei diesem Modell ist, dass der Encoder eine wichtige Rolle bei der Übersetzung spielt, indem er das Eingabesatz in ein festes Größenvektor komprimiert, der die Bedeutung des gesamten Satzes enthält. Wenn der Encoder durch Worteinbettungen ersetzt wird, geht diese Komprimierung verloren, was zu schlechten Übersetzungen führt.

b) Ein Beispiel für zwei Sätze, von denen einer definitiv falsch übersetzt wird, ist das deutsche Satzpaar "Ich liebe dich" und "Ich hasse dich". Wenn der Encoder durch Worteinbettungen ersetzt wird, kann der Decoder nicht zwischen den beiden Bedeutungen unterscheiden und wird wahrscheinlich beide Sätze mit derselben Übersetzung versehen.





****************************************************************************************
****************************************************************************************




Answer to Question 2-3


Antwort:

a) Die Trainingsstrategie, die wav2vec2.0 implementiert, um das Erlernen kontextbezogener Darstellungen zu fördern, ist die Verwendung von verdeckten Zuständen (maskierten Zuständen) in den Ausgaben des Feature-Encoders. Dabei werden bestimmte Zeitstempel in den latenten Sprachrepräsentationen maskiert und durch eine spezielle Maskentoken-Repräsentation ersetzt. Das Modell wird dann darauf trainiert, die maskierten Zeitstempel aus den umliegenden Kontextrepräsentationen vorherzusagen.

Diese Strategie ist mit dem kontrastiven Fehler im Pre-Training verbunden, indem das Modell lernt, die maskierten Zeitstempel aus den korrekten Kontextrepräsentationen vorherzusagen, während es gleichzeitig lernt, die Kontextrepräsentationen und quantisierten Repräsentationen ähnlich zu machen. Dadurch wird das Modell darauf trainiert, die Bedeutung der maskierten Zeitstempel aus dem Kontext zu verstehen und gleichzeitig eine gute Repräsentation des Audios zu erlernen.

b) Neben dem kontrastiven Fehler gibt es während des Vortrainings eine weitere Verlustfunktion, die sogenannte Diversitätssicherung (diversity loss). Diese Verlustfunktion dient dazu, sicherzustellen, dass die quantisierten Repräsentationen während des Pre-Trainings divergieren und nicht zusammenfallen.

Die Notwendigkeit der Einbeziehung dieser Verlustfunktion liegt darin, dass das Quantisierungsmodul sonst dazu tendieren könnte, alle latenten Sprachrepräsentationen auf den gleichen Wert zu quantisieren, was zu einem Informationsverlust führen würde. Durch die Verwendung der Diversitätssicherung wird sichergestellt, dass die quantisierten Repräsentationen divergieren und das Modell lernt, eine gute Repräsentation des Audios zu erlernen.





****************************************************************************************
****************************************************************************************




Answer to Question 3-1


Nein, ich würde meinem Freund nicht zustimmen, ein bidirektionales Modell für den Decoder zu verwenden. Bidirektionale Modelle sind so konzipiert, dass sie sowohl in der Vergangenheit als auch in der Zukunft Informationen verwenden können, was für die Texterzeugung nicht geeignet ist, da die Eingabeinformationen nur in eine Richtung verarbeitet werden sollten.

Stattdessen würde ich ein unidirektionales Modell für den Decoder empfehlen, das Informationen nur in einer Richtung verarbeitet, nämlich von links nach rechts. Dies ist konsistent mit der Art und Weise, wie Menschen Texte lesen und schreiben, und wird sicherstellen, dass die Ausgabe des Decoders der richtigen Reihenfolge entspricht.

Daher würde ich kein bidirektionales Modell für den Decoder verwenden, sondern stattdessen ein unidirektionales Modell empfehlen.





****************************************************************************************
****************************************************************************************




Answer to Question 3-2


Um das Problem der Behandlung von Wörtern außerhalb des Vokabulars anzugehen, könnte man eine Strategie der Wortsegmentierung verwenden. Dabei wird ein Wort, das nicht im Vokabular vorhanden ist, in kleinere Wörter zerlegt, die im Vokabular enthalten sind. Zum Beispiel könnte das Wort "unbekannteswort" in "unbekanntes Wort" zerlegt werden.

Ein potenzielles Problem bei der Verwendung dieser Strategie ist, dass die Zerlegung von Wörtern in kleinere Teile die Bedeutung des Wortes verändern oder verlieren kann. Dies kann zu Fehlübersetzungen führen, wenn die Bedeutung des zerlegten Wortes nicht mehr mit der ursprünglichen Bedeutung des Wortes übereinstimmt. Darüber hinaus könnte die Zerlegung von Wörtern auch die Leistung des Modells beeinträchtigen, da es möglicherweise nicht darauf trainiert wurde, mit zerlegten Wörtern umzugehen.





****************************************************************************************
****************************************************************************************




Answer to Question 3-3


Antwort:

a) Multi-Head bedeutet, dass die self-attention-Mechanismus in mehrere parallele attention-Mechanismen aufgeteilt wird, die jeweils eine eigene Gewichtsmatrix haben. Diese Aufteilung spielt eine wichtige Rolle, weil sie es ermöglicht, die Aufmerksamkeit auf verschiedene Aspekte der Eingabedaten zu richten und so die Leistung des Modells zu verbessern.

b) Die maskierten Gewichte in der Tabelle sind diejenigen, die nicht in der Zukunft liegen, da das Decoder-Modell kausiv ist. Das heißt, es sollte keine Informationen über die Zukunft haben, wenn es eine Sequenz generiert. Die maskierten Gewichte sollten mit "X" gekennzeichnet werden.





****************************************************************************************
****************************************************************************************




Answer to Question 3-4


a) Die Tabelle mit den vier Ergebnissen aus der Konfusionsmatrix ist wie folgt:

|                     | Klasse 1 vorhergesagt | Klasse 2 vorhergesagt |
|---------------------|----------------------|----------------------|
| Klasse 1 tatsächlich | True positive (TP)   | False negative (FN)  |
| Klasse 2 tatsächlich | False positive (FP)  | True negative (TN)   |

b) Die Gleichungen für Präzision und Recall sind wie folgt:

- Präzision: TP / (TP + FP)
- Recall: TP / (TP + FN)

c) Ein Beispiel für die Verzerrung bei ausschließlicher Verwendung der Präzision ist ein Medizin-Test, der nur auf eine Krankheit prüft. Wenn der Test sehr selten ist, ist die Präzision hoch, auch wenn der Test nur wenige Krankheiten erkennt. Ein Beispiel für die Verzerrung bei ausschließlicher Verwendung des Recalls ist ein Spam-Filter, der sehr viele E-Mails als Spam markiert, auch wenn die meisten davon keine Spam-E-Mails sind.





****************************************************************************************
****************************************************************************************




Answer to Question 4-1


Die Funktionen $g(t)$ und $h(t)$ sind in der Abbildung imgs/graph.png gegeben.

Um die Faltung $f(t) = (g * h)(t)$ grafisch zu bestimmen, müssen wir die Faltungsoperation ausführen. Dazu wird die Funktion $h(t)$ an der Zeit $t = 0$ symmetrisch um die y-Achse gespiegelt und dann entlang der x-Achse verschoben, wobei die Verschiebung durch den Wert von $t$ bestimmt wird. Für jeden Wert von $t$ wird dann der Flächeninhalt des Überlappbereichs zwischen $g(t)$ und der verschobenen Funktion $h(t)$ berechnet.

Schritt 1: Spiegeln von $h(t)$
Zuerst spiegeln wir die Funktion $h(t)$ an der y-Achse, um $h(-t)$ zu erhalten.

Schritt 2: Verschieben von $h(-t)$
Nun verschieben wir $h(-t)$ entlang der x-Achse, wobei die Verschiebung durch den Wert von $t$ bestimmt wird. Wir berechnen den Flächeninhalt des Überlappbereichs zwischen $g(t)$ und der verschobenen Funktion $h(-t)$ für jeden Wert von $t$.

Für $t = 0$:
Das Überlappgebiet ist ein Rechteck mit der Breite 2 und der Höhe 1. Der Flächeninhalt ist also $2 * 1 = 2$.

Für $t = 1$:
Die Funktion $h(-t)$ ist um 1 Einheit nach rechts verschoben. Das Überlappgebiet ist ein Rechteck mit der Breite 1 und der Höhe 1. Der Flächeninhalt ist also $1 * 1 = 1$.

Für $t = 2$:
Die Funktion $h(-t)$ ist um 2 Einheiten nach rechts verschoben. Es gibt kein Überlappgebiet, also ist der Flächeninhalt 0.

Für $t = 3$:
Die Funktion $h(-t)$ ist um 3 Einheiten nach rechts verschoben. Es gibt kein Überlappgebiet, also ist der Flächeninhalt 0.

Für $t = 4$:
Die Funktion $h(-t)$ ist um 4 Einheiten nach rechts verschoben. Es gibt kein Überlappgebiet, also ist der Flächeninhalt 0.

Die grafische Faltung $f(t) = (g * h)(t)$ ist also:

$f(t) = \begin{cases} 2, & \text{if } t = 0 \\ 1, & \text{if } t = 1 \\ 0, & \text{otherwise} \end{cases}$

Die Faltung ist also 2, wenn $t = 0$, 1, wenn $t = 1$, und 0 für alle anderen Werte von $t$.





****************************************************************************************
****************************************************************************************




Answer to Question 4-2


Die diskrete Faltung u*v der zwei Funktionen u[t] und v[t] ist wie folgt definiert:

(u*v)[n] = sum_{t=0}^{n} u[t] * v[n-t]

Wir berechnen die diskrete Faltung nun für jedes n:

(u*v)[0] = u[0] * v[0] = 1 * 0 = 0

(u*v)[1] = u[0] * v[1] + u[1] * v[0] = 1 * 1 + 3 * 0 = 1

(u*v)[2] = u[0] * v[2] + u[1] * v[1] + u[2] * v[0] = 1 * 2 + 3 * 1 + 0.5 * 0 = 5

(u*v)[3] = u[0] * v[3] + u[1] * v[2] + u[2] * v[1] + u[3] * v[0] = 1 * 3 + 3 * 2 + 0.5 * 1 + 1 * 0 = 8.5

(u*v)[4] = u[0] * v[4] + u[1] * v[3] + u[2] * v[2] + u[3] * v[1] + u[4] * v[0] = 1 * 0 + 3 * 3 + 0.5 * 2 + 1 * 2 + 0.5 * 0 = 7.5

(u*v)[5] = u[0] * v[5] + u[1] * v[4] + u[2] * v[3] + u[3] * v[2] + u[4] * v[1] + u[5] * v[0] = 0 * 0 + 3 * 0 + 0.5 * 3 + 1 * 2 + 0.5 * 1 + 0 * 0 = 2.5

Die diskrete Faltung u*v der zwei Funktionen u[t] und v[t] ist also:

u*v = [0, 1, 5, 8.5, 7.5, 2.5, ...]





****************************************************************************************
****************************************************************************************




Answer to Question 4-3


a) Das Sampling-Theorem besagt, dass eine kontinuierliche Funktion, die bandbeschränkt ist, durch eine diskrete Menge von Werten, die durch das Abtasten der Funktion an bestimmten Punkten erhalten werden, eindeutig rekonstruiert werden kann, wenn die Abtastfrequenz größer als das Doppelte der höchsten Frequenz der kontinuierlichen Funktion ist.

b) Wenn das Sampling-Theorem nicht eingehalten wird, tritt das Phänomen der Aliasing auf. Dabei werden hohe Frequenzen der kontinuierlichen Funktion fälschlicherweise als niedrigere Frequenzen in der diskreten Version der Funktion interpretiert.

c) Um das Phänomen des Aliasing zu veranschaulichen, können wir uns eine kontinuierliche Funktion f(t) in der Zeitdomäne vorstellen, die mehrere Sinuswellen mit unterschiedlichen Frequenzen enthält. Wenn wir diese Funktion nun abtasten, indem wir ihre Werte in regelmäßigen Abständen aufzeichnen, kann es vorkommen, dass wir eine niedrigere Frequenz in der diskreten Version der Funktion erhalten, als tatsächlich in der kontinuierlichen Funktion vorhanden ist. Dies liegt daran, dass die höheren Frequenzen in der kontinuierlichen Funktion als niedrigere Frequenzen in der diskreten Version interpretiert werden.

Um dies zu veranschaulichen, können wir uns eine Skizze einer kontinuierlichen Funktion f(t) vorstellen, die aus mehreren Sinuswellen mit unterschiedlichen Frequenzen besteht. Wenn wir diese Funktion nun abtasten, indem wir ihre Werte in regelmäßigen Abständen aufzeichnen, können wir sehen, wie die höheren Frequenzen in der kontinuierlichen Funktion als niedrigere Frequenzen in der diskreten Version interpretiert werden. Zum Beispiel könnte die Skizze eine Sinuswelle mit hoher Frequenz in der kontinuierlichen Funktion zeigen, die in der diskreten Version als Sinuswelle mit niedriger Frequenz interpretiert wird.





****************************************************************************************
****************************************************************************************




Answer to Question 4-4


Um die Erkennungsgenauigkeit ACC zu bestimmen, müssen wir zunächst die Wortfehlerrate (WER) berechnen. Dazu vergleichen wir das Referenz- und Hypothese-Paar und zählen die Anzahl der Wörter, die sich unterscheiden.

Im gegebenen Beispiel unterscheiden sich die folgenden Wörter:

- flight (REF) vs. cook (HYP)
- New York (REF) vs. Light (HYP)
- next week (REF) vs. Newark (HYP)
- for (REF) vs. four (HYP)

Somit beträgt die Wortfehlerrate WER = 5/8 = 0,625.

Nun können wir die Erkennungsgenauigkeit ACC berechnen, indem wir 1-WER rechnen:

ACC = 1 - WER = 1 - 0,625 = 0,375

Die Erkennungsgenauigkeit ACC beträgt also 37,5%.





****************************************************************************************
****************************************************************************************




Answer to Question 5-1


Die Bildsegmentierungsmethode, die für diese Aufgabe verwendet werden kann, ist die sogenannte "Semantische Segmentierung". Bei der semantischen Segmentierung wird jedem Pixel in einem Bild eine Klasse zugeordnet, die angibt, welche Objektinstanz es repräsentiert.

Die semantische Segmentierung kann mit verschiedenen Methoden durchgeführt werden, aber eine gängige Methode ist die Verwendung von Convolutional Neural Networks (CNNs). Dabei wird das Bild in kleinere Teile zerlegt und jedes Teil wird durch die CNN verarbeitet, um die Klasse des Pixels zu bestimmen. Die CNN kann dabei trainiert werden, verschiedene Merkmale des Bildes zu erkennen und diese Merkmale mit den Klassen der Objektinstanzen in Beziehung zu setzen.

Eine weitere Methode zur semantischen Segmentierung ist die Verwendung von Random Forests. Dabei wird das Bild in kleinere Teile zerlegt und für jedes Teil werden verschiedene Merkmale, wie Farbe, Textur und Form, berechnet. Diese Merkmale werden dann als Eingabe an einen Random Forest gegeben, der die Klasse des Pixels bestimmt.

Es ist wichtig zu beachten, dass die semantische Segmentierung nicht nur die Objektinstanzen in der Szene erkennt, sondern auch die Beziehungen zwischen den Objektinstanzen und dem Hintergrund berücksichtigt. Dadurch kann der Roboter die Szene besser verstehen und die Aktion Wasser Einschenken besser ausführen.





****************************************************************************************
****************************************************************************************




Answer to Question 5-2


Die Dynamic Movement Primitives (DMPs) sind eine Methode zur Modellierung von Bewegungen, die es Robotern ermöglicht, menschliche Demonstrationen zu lernen und zu replizieren. Ein Störungskraftterm (perturbation force term) wird in der DMP-Formulierung benötigt, um die Fähigkeit des Roboters zu verbessern, auf Störungen während der Ausführung der Bewegung zu reagieren.

Der Störungskraftterm ermöglicht es dem Roboter, die Bewegung während der Ausführung anzupassen, um auf unvorhergesehene Ereignisse oder Störungen zu reagieren. Ohne den Störungskraftterm wäre der Roboter nicht in der Lage, auf solche Ereignisse zu reagieren und könnte die Bewegung nicht erfolgreich ausführen.

Der Störungskraftterm wird als zusätzlicher Term in der DMP-Formulierung hinzugefügt und kann durch verschiedene Methoden, wie z.B. menschliche Eingriffe oder Sensordaten, beeinflusst werden. Durch die Anpassung des Störungskraftterms kann der Roboter die Bewegung an die aktuellen Bedingungen anpassen und so eine erfolgreiche Ausführung gewährleisten.





****************************************************************************************
****************************************************************************************




Answer to Question 5-3


Die Gleichung der lokal gewichteten Regression (locally weighted regression, LWR) mit radialen Basisfunktionen (radial basis function, RBF) zur Approximation des Störkraftterms lautet:

f(x) = Σ(w_i * φ(∥x - x_i∥))

wobei:

- f(x) ist die vorhergesagte Ausgabe für die Eingabe x
- w_i ist das Gewicht für den i-ten Trainingspunkt
- φ(∥x - x_i∥) ist die radial-basis Funktion, die den Abstand zwischen x und dem i-ten Trainingspunkt misst
- ∥x - x_i∥ ist der euklidische Abstand zwischen x und dem i-ten Trainingspunkt

Die radial-basis Funktion φ(∥x - x_i∥) wird in der Regel als eine Gaußische Funktion definiert, d.h. φ(∥x - x_i∥) = exp(-(∥x - x_i∥)^2 / (2 * σ^2)) wobei σ die Breite der Gaußischen Kurve ist.

Die Gewichte w_i werden durch Gewichtung der Trainingspunkte in der Nähe von x bestimmt. Die Gewichtung wird typischerweise durch eine Gewichtungsfunktion g(∥x - x_i∥) bestimmt, die abnimmt, wenn der Abstand zwischen x und x_i zunimmt. Ein Beispiel für eine solche Gewichtungsfunktion ist g(∥x - x_i∥) = exp(-(∥x - x_i∥)^2 / (2 * ε^2)) wobei ε die Breite der Gewichtungsfunktion ist.

Die Gleichung für die lokal gewichtete Regression kann dann als:

f(x) = Σ(g(∥x - x_i∥) * φ(∥x - x_i∥) * y_i) / Σ(g(∥x - x_i∥) * φ(∥x - x_i∥))

geschrieben werden, wobei y_i die Ausgabe des i-ten Trainingspunkts ist.





****************************************************************************************
****************************************************************************************




Answer to Question 5-4


Ja, ein Dynamisches Bewegungsprädiktionsmodell (DMP) kann für die Aktion Wasser Einschenken aus fünf menschlichen Demonstrationen gelernt werden. DMPs sind ein maschinelles Lernverfahren, das auf lokalen Gewichten und globalen Zielen basiert, um eine Vielzahl von Bewegungen zu erlernen und vorherzusagen.

Die Verwendung von fünf menschlichen Demonstrationen bietet genügend Daten, um ein DMP für die Aktion Wasser Einschenken zu trainieren. Durch das Sammeln von RGB-D-Videos können die Demonstrationen in Form von Punktwolken repräsentiert werden, die als Eingabe für das DMP-Lernverfahren verwendet werden können.

Die lokalen Gewichte des DMPs werden durch die Anpassung an die beobachteten Demonstrationen erlernt, während die globalen Ziele die Endpunkte der Bewegung definieren. Durch das Lernen aus mehreren Demonstrationen kann das DMP die Variabilität der menschlichen Bewegungen berücksichtigen und ein robustes Modell der Aktion Wasser Einschenken erstellen.

Daher ist es möglich, ein DMP für die Aktion Wasser Einschenken aus fünf menschlichen Demonstrationen zu lernen, indem man die lokalen Gewichte und globalen Ziele des DMPs entsprechend den beobachteten Demonstrationen anpasst.





****************************************************************************************
****************************************************************************************




Answer to Question 5-5


Um die Aktion Wasser Einschenken zu modellieren, würde ich ein dynamisches Bewegungsprimitiv (DMP) wählen. DMPs sind ein geeignetes Mittel, um menschliche Demonstrationen zu lernen und Hindernisse während der Ausführung zu umgehen.

DMPs bestehen aus zwei Hauptkomponenten: einem kanonischen Attraktor und einem transformierenden System. Der kanonische Attraktor steuert die grundlegende Form der Trajektorie, während das transformierende System die Trajektorie an die spezifischen Anforderungen des Roboters anpasst.

In unserem Fall würde ich den kanonischen Attraktor so einstellen, dass er die grundlegende Form der Wasser-Einschenk-Aktion erlernt. Das transformierende System würde ich so konfigurieren, dass es Hindernisse während der Ausführung erkennt und umgeht.

Um einen Zwischenpunkt (via-point) einzufügen, der weit von der Verteilung der demonstrierten Trajektorien entfernt ist, könnte ich die Gewichtung der kanonischen Attraktoren anpassen, um den Roboter dazu zu bringen, den via-point zu durchqueren. Alternativ könnte ich ein zusätzliches Hindernis in der Nähe des via-points einfügen, um das transformierende System dazu zu bringen, den via-point während der Ausführung zu umgehen.

Insgesamt bieten DMPs die Flexibilität und Anpassungsfähigkeit, die für die Modellierung der Aktion Wasser Einschenken und das Umgehen von Hindernissen erforderlich sind.





****************************************************************************************
****************************************************************************************




Answer to Question 5-6


Die Unterschiede zwischen symbolischen und emergenten Architekturen liegen in der Art und Weise, wie sie kognitive Prozesse repräsentieren und verarbeiten.

Symbolische Architekturen, wie ACT-R und SOAR, verwenden symbolische Repräsentationen, um Wissen und Informationen zu speichern und zu verarbeiten. Sie basieren auf der Annahme, dass menschliches Denken und Verhalten auf der Manipulation von symbolischen Strukturen beruht. In diesen Architekturen werden kognitive Prozesse durch if-then-Regeln oder Produktionsregeln modelliert, die auf symbolischen Repräsentationen angewendet werden.

Emergente Architekturen, wie beispielsweise die künstlichen neuronalen Netze (KNN), repräsentieren kognitive Prozesse auf einer anderen Ebene. Sie verwenden verteilte, parallele und emergente Repräsentationen, die auf der Interaktion vieler einfacher Einheiten beruhen. Diese Architekturen simulieren die Funktionsweise des menschlichen Gehirns durch die Verwendung künstlicher Neuronen und Synapsen, die miteinander verbunden sind und durch Lernen und Adaption Informationen verarbeiten.

Hybride Architekturen kombinieren symbolische und emergente Ansätze, um die Vorteile beider Welten zu nutzen. Sie integrieren symbolische Repräsentationen und Prozesse mit emergenten, verteilten und parallelen Prozessen, um ein umfassenderes und realistischeres Modell menschlicher Kognition zu erstellen. Ein Beispiel für eine hybride Architektur ist die Kognitive Neurale Architektur (CNA), die sowohl symbolische als auch emergente Repräsentationen und Prozesse verwendet, um menschliches Denken und Verhalten zu modellieren.





****************************************************************************************
****************************************************************************************




Answer to Question 5-7


a) Der Vergessen-Mechanismus, der durch $\alpha_i(t)$ gegeben ist, ist ein Mechanismus mit zeitbasiertem Verfall. Der Parameter $\beta_i$ repräsentiert die Grundaktivierung des Datums $i$, während $d$ die Zeitkonstante des zeitbasierten Verfalls darstellt.

b) Die Gleichungen zur Berechnung von $\alpha_{i_1}$, $\alpha_{i_2}$ und $\alpha_{i_3}$ bei $t=3$ lauten:

$\alpha_{i_1}(3) = \beta_{i_1} \cdot (r_{i_1,0} \cdot \mathcal{N}(\mu = 0, \sigma^2 = d)(3) + r_{i_1,1} \cdot \mathcal{N}(\mu = 1, \sigma^2 = d)(3) + r_{i_1,2} \cdot \mathcal{N}(\mu = 2, \sigma^2 = d)(3))$

$\alpha_{i_2}(3) = \beta_{i_2} \cdot (r_{i_2,0} \cdot \mathcal{N}(\mu = 0, \sigma^2 = d)(3) + r_{i_2,1} \cdot \mathcal{N}(\mu = 1, \sigma^2 = d)(3) + r_{i_2,2} \cdot \mathcal{N}(\mu = 2, \sigma^2 = d)(3))$

$\alpha_{i_3}(3) = \beta_{i_3} \cdot (r_{i_3,0} \cdot \mathcal{N}(\mu = 0, \sigma^2 = d)(3) + r_{i_3,1} \cdot \mathcal{N}(\mu = 1, \sigma^2 = d)(3) + r_{i_3,2} \cdot \mathcal{N}(\mu = 2, \sigma^2 = d)(3))$

Da $r_{i_1,0} = r_{i_2,0} = r_{i_3,0} = 0$ und $r_{i_1,1} = r_{i_2,1} = r_{i_3,1} = 1$, vereinfachen sich die Gleichungen zu:

$\alpha_{i_1}(3) = \beta_{i_1} \cdot (\mathcal{N}(\mu = 1, \sigma^2 = d)(3) + \mathcal{N}(\mu = 2, \sigma^2 = d)(3))$

$\alpha_{i_2}(3) = \beta_{i_2} \cdot (\mathcal{N}(\mu = 1, \sigma^2 = d)(3) + \mathcal{N}(\mu = 2, \sigma^2 = d)(3))$

$\alpha_{i_3}(3) = \beta_{i_3} \cdot (2 \cdot \mathcal{N}(\mu = 2, \sigma^2 = d)(3))$

Die Aktivierungen der Daten sind gemäß ihrer Größe geordnet: $\alpha_{i_3}(3) > \alpha_{i_1}(3) = \alpha_{i_2}(3)$.





****************************************************************************************
****************************************************************************************




