Answer to Question 1-1
Die Herausforderungen bei der Modellierung der Perzeption von Text sind vielfältig. Zwei Beispiele hierfür sind:

1. **Semantische Vielfalt**: Ein Text kann verschiedene Bedeutungen haben, je nach Kontext oder Interpretation. Zum Beispiel kann das Wort "Bank" je nach Zusammenhang sowohl eine Sitzgelegenheit als auch eine Finanzinstitution darstellen.

2. **Anaphern und Pronomen**: Die Referenz von Pronomen oder anaphorischen Ausdrücken kann für ein Modell schwierig zu erkennen sein. Zum Beispiel kann in dem Satz "Der Mann ging zur Bank. Er wollte Geld abheben." das Pronomen "Er" auf den Mann oder auch auf die Bank verweisen, je nach Interpretation.





****************************************************************************************
****************************************************************************************




Answer to Question 1-2
a) Die Annahme des N-Gramm-Sprachmodells besteht darin, dass die Wahrscheinlichkeit eines Wortes in einem Satz nur von den vorherigen n-1 Wörtern abhängt, anstatt von der gesamten Satzstruktur.

b) Die Wahrscheinlichkeitsgleichung für den Satz "This is the exam of Advanced AI" in einem Tri-Gramm-Sprachmodell lautet:
P(is | This) * P(the | is) * P(exam | the) * P(of | exam) * P(Advanced | of) * P(AI | Advanced)

Das Produkt der Einzelwahrscheinlichkeiten ergibt die Gesamtwahrscheinlichkeit für den Satz.





****************************************************************************************
****************************************************************************************




Answer to Question 1-3
Subquestion a:
1. Zuerst initialisieren wir das Vokabular mit den einzelnen Buchstaben und Sonderzeichen der Sätze: ["I", "s", "t", "u", "d", "y", "i", "n", "K", "T", ".", "l", "k", "e", "A", "a", "N", "L", "P", "w"].
2. Dann zählen wir die Häufigkeit von jedem möglichen Token-Paar in den Sätzen und erstellen eine Tabelle. 
3. Wir wiederholen die folgenden Schritte, bis die Größe des Vokabulars 15 erreicht:
   a. Suchen des häufigsten Token-Paares in der Tabelle.
   b. Ersetzen des häufigsten Token-Paares durch ein neues Token, das aus den beiden Token besteht.
   c. Aktualisieren der Tabelle, indem das neue Token als ein Token betrachtet wird.
4. Das endgültige Vokabular nach 15 Schritten könnte sein: ["I", "s", "t", "u", "d", "y", "i", "n", "K", "T", ".", "l", "k", "e", "A", "a", "N", "L", "P", "w", "IT", "I ", "AI", "and", "NLP", "KIT", "I ", "I like", "I ", "like KIT", "I "]

Subquestion b:
1. Der Satz "I like KIT." wird tokenisiert als: ["I", "like", "KIT", "."]





****************************************************************************************
****************************************************************************************




Answer to Question 1-4
a: Die Kennzeichnungssequenz für den Satz lautet:
B B-I U-B O O B I O B-I O O O O O B-I O B

b: Es gibt insgesamt 3 Klassen bei der Ausgabe des Sequenzkennzeichnungsmodells: University, Course, Lab.





****************************************************************************************
****************************************************************************************




Answer to Question 2-1
a) 
CBOW-Trainingsbeispiel: 
Eingabe: ["is", "smarter", "large", "model"]
Ausgabe: "Human"

Skip-gram-Trainingsbeispiel:
Eingabe: "Human"
Ausgabe: "is", "smarter", "than", "large"

b) 
Herausforderung des Skip-Gram-Modells: 
Bei der Implementierung des Skip-Gram-Modells kann eine große Anzahl von Trainingsdaten erforderlich sein, da jedes Wort in einem großen Vokabular als Zielwort betrachtet werden kann.

Lösung mit einem Beispiel für den obigen Satz:
Um die Anzahl der Trainingsdaten zu reduzieren, kann man negative Stichproben verwenden. Hierbei werden zufällig Wörter aus dem Vokabular ausgewählt, die nicht das Zielwort sind, um während des Trainings zu verwenden. Dadurch kann die Trainingszeit verkürzt werden, ohne die Leistung des Modells signifikant zu beeinträchtigen.





****************************************************************************************
****************************************************************************************




Answer to Question 2-2
a) Das Hauptproblem bei diesem Modellansatz ist, dass der Decoder keine Informationen über die Reihenfolge der Worte im Eingabesatz erhält, da der Encoder durch einfache Wortembedding ersetzt wurde. Das Transformer-Modell benötigt jedoch die Informationen über die Position der Wörter im Satz, um eine sinnvolle Übersetzung zu generieren. Ohne diese Informationen wird die Qualität der Übersetzung stark leiden, da die entscheidenden Kontextinformationen verloren gehen.

b) Beispiel für zwei Sätze, von denen einer definitiv falsch übersetzt wird:
Deutscher Satz: "Die Katze jagt die Maus."
Englische Übersetzung: "The cat chases the mouse."
Falsch übersetzter Satz: "Chases the cat mouse the."





****************************************************************************************
****************************************************************************************




Answer to Question 2-3
**Antwort:**

a) Die Trainingsstrategie, die wav2vec2.0 implementiert, um das Erlernen kontextbezogener Darstellungen zu fördern, ist die Masked Predictions Strategie. Bei dieser Strategie werden zufällig ausgewählte Teile der latente Sprachrepräsentationen Z maskiert und das Modell wird trainiert, um diese maskierten Teile vorherzusagen. Dies fördert das Modell dabei, bedeutungsvolle latente Darstellungen zu lernen, die Kontextinformationen enthalten. 

Diese Strategie hängt mit dem kontrastiven Fehler im Pre-Training zusammen, da der kontrastive Fehler dazu dient, ähnliche Darstellungen nahe beieinander im Latent Space zu gruppieren, während die Masked Predictions Strategie hilft, sinnvolle latente Darstellungen zu erstellen, die dann in Bezug auf ihre Ähnlichkeit bewertet werden können.

b) Neben dem kontrastiven Fehler gibt es während des Vortrainings noch eine weitere Verlustfunktion, nämlich die Quantile Regression Loss. Diese Verlustfunktion zielt darauf ab, die Quantisierungsfehler in den quantisierten Repräsentationen zu minimieren.

Die Einbeziehung dieser Verlustfunktion ist notwendig, um sicherzustellen, dass die quantisierten Repräsentationen eine gute Approximation der latente Sprachrepräsentationen sind. Durch die Minimierung des Quantisierungsfehlers wird die Qualität der rekonstruierten Darstellungen verbessert, was wiederum zu einer besseren Spracherkennung führt.





****************************************************************************************
****************************************************************************************




Answer to Question 3-1
Ich würde meinem Freund zustimmen, ein bidirektionales Modell für den Decoder zu verwenden. Ein bidirektionales Modell hat den Vorteil, dass es Informationen sowohl aus der Vergangenheit als auch aus der Zukunft verwenden kann, um die aktuelle Textbeschreibung zu generieren. Dies kann besonders nützlich sein, um den Kontext besser zu verstehen und somit genauere und kohärentere Texte zu erzeugen. Daher kann ein bidirektionales Modell für die Texterzeugung in diesem Szenario vorteilhaft sein.





****************************************************************************************
****************************************************************************************




Answer to Question 3-2
Um mit Wörtern umzugehen, die außerhalb des Vokabulars liegen, können Sie das OOV-Problem angehen, indem Sie eine der folgenden Techniken oder eine Kombination davon verwenden: 

1. **Unbekannte Wörter durch ein spezielles Token ersetzen**: Wenn ein Wort außerhalb des Vokabulars gefunden wird, kann es durch ein spezielles Token wie z.B. `<UNK>` oder `<OOV>` ersetzt werden.

2. **Subword-Level Tokenisierung**: Verwenden Sie eine Technik wie Byte Pair Encoding (BPE) oder Word Piece Model (WPM), um Wörter in Subwörter zu zerlegen, die im Vokabular enthalten sind. Dadurch können seltene oder unbekannte Wörter besser abgedeckt werden.

3. **Rückübersetzung**: Ein Ansatz wäre die Verwendung von Rückübersetzung, um den unbekannten Ausdruck in die Ausgangssprache zu übersetzen und dann zurück in die Zielsprache zu übersetzen. Dies kann jedoch zu Fehlerkaskaden führen, wenn die Übersetzungen nicht genau sind.

Ein potentielles Problem bei der Verwendung dieser Ansätze ist, dass die Semantik oder Feinheiten des unbekannten Wortes möglicherweise nicht genau wiedergegeben werden. Beispielsweise kann die Verwendung eines speziellen Tokens die Qualität der Übersetzung beeinträchtigen, wenn das Token nicht angemessen in den Kontext des Satzes passt.





****************************************************************************************
****************************************************************************************




Answer to Question 3-3
a) Im Kontext von self-attention bedeutet Multi-Head, dass die Attention-Schicht in mehrere Köpfe oder Untereinheiten unterteilt ist, die parallele Berechnungen durchführen können. Dies spielt eine wichtige Rolle, da es dem Modell ermöglicht, verschiedene Arten von Abhängigkeiten und Beziehungen in der Eingabesequenz zu erfassen, da jeder Kopf unterschiedliche Teile der Sequenz fokussieren kann.

b) Um die maskierten Gewichte in der Tabelle zu kennzeichnen, würde ich nach den Einträgen suchen, die durch Maskierung nicht berücksichtigt werden sollen (z.B. werden Masken verwendet, um Aufmerksamkeit auf zukünftige Positionen zu vermeiden). Diese Einträge werden dann mit "X" markiert, um anzuzeigen, dass sie maskiert sind.





****************************************************************************************
****************************************************************************************




Answer to Question 3-4
a) 
- True positive (TP): 15
- False positive (FP): 5
- True negative (TN): 20
- False negative (FN): 10

b) 
- Präzision: \( \text{Präzision} = \frac{TP}{TP + FP} \)
- Recall: \( \text{Recall} = \frac{TP}{TP + FN} \)

c) 
- Verzerrung bei ausschließlicher Verwendung der Präzision: 
   Angenommen, ein Modell erreicht eine hohe Präzision, indem es nur sehr wenige positive Fälle vorhersagt. Dies kann zu einer niedrigen Abdeckung aller relevanten positiven Fälle führen, da viele wahre positive Fälle möglicherweise übersehen werden.

- Verzerrung bei ausschließlicher Verwendung des Recalls:
   Ein Modell, das sich ausschließlich auf den Recall konzentriert, könnte viele positive Fälle als positiv vorhersagen, auch wenn sie tatsächlich negativ sind. Dies kann zu einem hohen Recall-Wert führen, aber einer geringen Genauigkeit bei den positiven Vorhersagen.





****************************************************************************************
****************************************************************************************




Answer to Question 4-1
Um die Faltung $f(t) = (g * h)(t)$ der beiden kontinuierlichen Funktionen $g(t)$ und $h(t)$ grafisch zu bestimmen, würde ich wie folgt vorgehen:

1. Zeichnen Sie die Graphen von $g(t)$ und $h(t)$ auf separaten Koordinatensystemen.
2. Spiegeln Sie die Funktion $h(t)$ an der Y-Achse, um $h(-t)$ zu erhalten.
3. Verschieben Sie die gespiegelte Funktion $h(-t)$ entlang der Zeitachse und multiplizieren Sie sie punktweise mit der Funktion $g(t)$.
4. Integrieren Sie das Ergebnis über die gesamte Zeit, um die Faltung $f(t)$ zu erhalten.

Anhand des Ergebnisses können dann die relevanten Punkte markiert werden.

Ich werde nun die Abbildung "graph.png" überprüfen und mit der oben beschriebenen Methode fortfahren. 

Antwort: 
- Die Grafik wird überprüft und die Faltung $f(t)$ wird bestimmt.





****************************************************************************************
****************************************************************************************




Answer to Question 4-2
Um die diskrete Faltung der beiden Funktionen \( u[t] \) und \( v[t] \) zu bestimmen, müssen wir die einzelnen Werte von \( u \) und \( v \) miteinander multiplizieren und addieren. Hier sind die gegebenen Funktionen noch einmal aufgelistet:

\[ u[t] = \begin{cases} 1 & \text{für } t=0 \\ 3 & \text{für } t=1 \\ 0.5 & \text{für } t=2 \\ 1 & \text{für } t=3 \\ 0.5 & \text{für } t=4 \\ 0 & \text{sonst} \end{cases} \]

\[ v[t] = \begin{cases} 0 & \text{für } t=1 \\ 1 & \text{für } t=2 \\ 3 & \text{für } t=4 \\ 0 & \text{sonst} \end{cases} \]

Wir können die diskrete Faltung \( u * v \) wie folgt berechnen:

\[ (u*v)[t] = \sum_{\tau=-\infty}^{\infty} u[\tau] \cdot v[t - \tau] \]

Für die gegebenen Funktionen ergibt sich:

\[ (u*v)[t] = u[0] \cdot v[t] + u[1] \cdot v[t-1] + u[2] \cdot v[t-2] + u[3] \cdot v[t-3] + u[4] \cdot v[t-4] \]

Jetzt können wir die Werte einsetzen und die diskrete Faltung berechnen. 

\[ (u*v)[t] = 1 \cdot v[t] + 3 \cdot v[t-1] + 0.5 \cdot v[t-2] + 1 \cdot v[t-3] + 0.5 \cdot v[t-4] \]

Für \( t=1 \):
\[ (u*v)[1] = 1 \cdot v[1] + 3 \cdot v[0] + 0.5 \cdot v[-1] + 1 \cdot v[-2] + 0.5 \cdot v[-3] = 1 \cdot 0 + 3 \cdot 0 + 0.5 \cdot 0 + 1 \cdot 0 + 0.5 \cdot 0 = 0 \]

Für \( t=2 \):
\[ (u*v)[2] = 1 \cdot v[2] + 3 \cdot v[1] + 0.5 \cdot v[0] + 1 \cdot v[-1] + 0.5 \cdot v[-2] = 1 \cdot 1 + 3 \cdot 0 + 0.5 \cdot 0 + 1 \cdot 0 + 0.5 \cdot 0 = 1 \]

Für \( t=3 \):
\[ (u*v)[3] = 1 \cdot v[3] + 3 \cdot v[2] + 0.5 \cdot v[1] + 1 \cdot v[0] + 0.5 \cdot v[-1] = 1 \cdot 0 + 3 \cdot 1 + 0.5 \cdot 0 + 1 \cdot 0 + 0.5 \cdot 0 = 3 \]

Für \( t=4 \):
\[ (u*v)[4] = 1 \cdot v[4] + 3 \cdot v[3] + 0.5 \cdot v[2] + 1 \cdot v[1] + 0.5 \cdot v[0] = 1 \cdot 3 + 3 \cdot 0 + 0.5 \cdot 1 + 1 \cdot 0 + 0.5 \cdot 0 = 3.5 \]

Für alle anderen Werte von \( t \) ist die Faltung gleich 0.

Also ist \( (u*v)[1] = 0 \), \( (u*v)[2] = 1 \), \( (u*v)[3] = 3 \) und \( (u*v)[4] = 3.5 \).

Diese Ergebnisse zeigen das Ergebnis der diskreten Faltung der beiden Funktionen \( u \) und \( v \).





****************************************************************************************
****************************************************************************************




Answer to Question 4-3
a) Das Sampling-Theorem besagt, dass um ein analoges Signal korrekt zu rekonstruieren, muss es mindestens mit der doppelten Frequenz des höchsten im Signal enthaltenen Frequenzanteils (Nyquist-Frequenz) abgetastet werden.

b) Wenn das Sampling-Theorem nicht eingehalten wird, tritt das sogenannte Aliasing-Phänomen auf.

c) Um das Aliasing-Phänomen zu veranschaulichen, würde ich eine sinusförmige Funktion f(t) in der Zeitdomäne skizzieren, die eine höhere Frequenz als die Nyquist-Frequenz aufweist. Diese Funktion würde sich im Zeitbereich anders verhalten als erwartet und könnte falsch rekonstruiert werden.





****************************************************************************************
****************************************************************************************




Answer to Question 4-4
Um die Genauigkeit ACC zu berechnen, müssen wir zunächst die Wortfehlerrate (WER) bestimmen. Die WER wird berechnet, indem die Anzahl der Einfügungs-, Löschungs- und Substitutionsfehler zwischen der Referenz und der Hypothese gezählt wird und durch die Gesamtanzahl der Wörter in der Referenz geteilt wird.

Zuerst müssen wir die Referenz- und Hypothese-Sätze in ihre Wörter aufteilen:
REF: I need to book a flight to New York for next week
HYP: I need to cook light in Newark four next weeks

Um die Fehler zu zählen, vergleichen wir Wort für Wort:

1. "book" wird fälschlicherweise als "cook" erkannt (Substitution)
2. "flight" wird fälschlicherweise als "light" erkannt (Substitution)
3. "to" wird fälschlicherweise als "in" erkannt (Substitution)
4. "New York" wird fälschlicherweise als "Newark" erkannt (Substitution)
5. "for" wird fälschlicherweise als "four" erkannt (Substitution)
6. Es gibt ein zusätzliches Wort "weeks" in der Hypothese (Einfügung)

Insgesamt haben wir 5 Substitutionsfehler, 1 Einfügungsfehler und keine Löschungsfehler.

Die Gesamtanzahl der Wörter in der Referenz beträgt 13.

Daher ist die Wortfehlerrate (WER) = (5 Substitutionen + 1 Einfügung) / 13 = 6 / 13 ≈ 0,4615

Nun können wir die Genauigkeit (ACC) berechnen:
ACC = 1 - WER = 1 - 0,4615 ≈ 0,5385

Die Genauigkeit beträgt etwa 53,85% (gerundet auf zwei Dezimalstellen).





****************************************************************************************
****************************************************************************************




Answer to Question 5-1
Eine mögliche Bildsegmentierungsmethode, die verwendet werden kann, um jede Objektinstanz in der Szene zu erkennen, ist die sogenannte Mask R-CNN-Methode.

Diese Methode funktioniert, indem sie eine Kombination aus zwei Techniken verwendet: Region-based Convolutional Neural Networks (R-CNN) und Fully Convolutional Networks (FCN).

1. **Region-based Convolutional Neural Networks (R-CNN)**: 
   - Zunächst identifiziert das R-CNN potenzielle Regionen im Bild, die Objekte enthalten könnten.
   - Anschließend werden diese Regionen separat ausgeschnitten und in eine separate Pipeline eingespeist, um die Objekte innerhalb dieser Regionen zu klassifizieren.

2. **Fully Convolutional Networks (FCN)**: 
   - Diese Schicht des Modells ermöglicht die Pixel-für-Pixel-Segmentierung von Objekten in einer Szene.
   - Dabei wird jedes Pixel einem bestimmten Objekt oder Hintergrund zugeordnet.

Durch die Kombination von R-CNN und FCN kann die Mask R-CNN-Methode jedes Objekt in einer Szene segmentieren, indem sie sowohl Regionen identifiziert als auch eine detaillierte Pixel-zu-Pixel-Segmentierung durchführt.





****************************************************************************************
****************************************************************************************




Answer to Question 5-2
In der DMP-Formulierung wird ein Störungskraftterm benötigt, um unvorhergesehene äußere Einflüsse oder Störungen während der Ausführung der gelernten Aktion zu berücksichtigen. Diese Störungen können beispielsweise durch Wind, unebene Oberflächen oder andere Faktoren verursacht werden. Der Störungskraftterm ermöglicht es dem Roboter, flexibel auf solche Störungen zu reagieren und die Aktion Wasser Einschenken entsprechend anzupassen, um das Einschenken erfolgreich durchzuführen.





****************************************************************************************
****************************************************************************************




Answer to Question 5-3
Um die Gleichung der lokal gewichteten Regression (locally weighted regression, LWR) mit radialen Basisfunktionen (radial basis function, RBF) anzugeben, die zur Approximation des Störungskraftterms verwendet werden kann, müssen wir zunächst die allgemeine Form der LWR mit RBF betrachten:

\[ f(x) = \sum_{i=1}^{m} w^{(i)}(x) \cdot y^{(i)} \]

Hier sind die Variablen in der Gleichung:

- \( f(x) \) : Die approximierte Funktion an der Stelle \( x \)
- \( m \) : Die Anzahl der Trainingsdatensätze
- \( w^{(i)}(x) \) : Die Gewichtungsfunktion für den \( i-\text{ten} \) Trainingsdatensatz an der Stelle \( x \)
- \( y^{(i)} \) : Der Zielwert des \( i-\text{ten} \) Trainingsdatensatzes

In der LWR mit RBF wird die Gewichtungsfunktion \( w^{(i)}(x) \) üblicherweise durch eine RBF definiert, z.B.:

\[ w^{(i)}(x) = \exp\left(-\frac{(x - x^{(i)})^T(x - x^{(i)})}{2\tau^2}\right) \]

Hier sind die zusätzlichen Variablen in der RBF-Gewichtungsfunktion:

- \( x \) : Die zu approximierende Eingangsvariable
- \( x^{(i)} \) : Die Eingangsvariable des \( i-\text{ten} \) Trainingsdatensatzes
- \( \tau \) : Die Bandbreite der RBF, die die Reichweite der lokalen Gewichtung bestimmt

Wenn der Störungskraftterm approximiert werden soll, werden die bekannten Eingangsvariablen \( x \) durch die aktuellen Werte ersetzt, und die Zielwerte \( y^{(i)} \) werden durch die Störungskraftwerte ersetzt, die aus den menschlichen Demonstrationen abgeleitet wurden.





****************************************************************************************
****************************************************************************************




Answer to Question 5-4
Ja, ein DMP (Dynamic Movement Primitive) kann für eine bestimmte Aktion aus fünf menschlichen Demonstrationen gelernt werden. Ein DMP kann verwendet werden, um die zeitliche Entwicklung einer Bewegung zu modellieren und zu generalisieren. Durch die Modellierung der Bewegung aus den fünf Demonstrationen kann der Roboter lernen, wie die Aktion Wasser Einschenken korrekt ausgeführt wird. Die DMP ermöglichen es, sowohl die Trajektorie als auch die Geschwindigkeit der Bewegung anzupassen, um eine präzise und flüssige Ausführung der Aktion zu erreichen.





****************************************************************************************
****************************************************************************************




Answer to Question 5-5
Als Bewegungsprimitiv würde ich das "Gaußsche Mischungsmodell" (GMM) wählen, um die demonstrierte Aktion des Wasser Einschenkens zu modellieren. Das GMM ist ein typisches Werkzeug im Bereich des maschinellen Lernens, um komplexe Bewegungsmuster zu erfassen und zu generalisieren. Durch die Verwendung von GMM könnte der Roboter die verschiedenen Bewegungsmuster erfassen, um die Aktion des Wasser Einschenkens zu erlernen und auszuführen. 

Das GMM bietet die Möglichkeit, die Vielfalt der demonstrierten Trajektorien zu erfassen und zu modellieren, wobei auch ein Zwischenpunkt (via-point) berücksichtigt werden kann. Dies ermöglicht es dem Roboter, das Hindernis zu umgehen, indem es die Trajektorie geschickt anpasst, um das Ziel trotz des Hindernisses zu erreichen.

Insgesamt bietet das GMM also eine flexible und leistungsstarke Methode, um die Aktion des Wasser Einschenkens zu modellieren und dem Roboter das Lernen und Ausführen dieser Aktion mit Berücksichtigung von Hindernissen zu ermöglichen.





****************************************************************************************
****************************************************************************************




Answer to Question 5-6
Um den Unterschied zwischen symbolischen und emergenten Architekturen zu erklären, muss man verstehen, wie Informationen in diesen Architekturen verarbeitet werden. 

\- Symbolische Architekturen: In symbolischen Architekturen werden Informationen durch explizite Symbole repräsentiert und verarbeitet. Diese Symbole stehen für bestimmte Konzepte oder Objekte und werden in formalen Regeln manipuliert. Ein bekanntes Beispiel für eine symbolische Architektur ist das "Semantic Network", das Begriffe und deren Beziehungen in Form eines Netzwerks abbildet.

\- Emergente Architekturen: Im Gegensatz dazu basieren emergente Architekturen auf der Idee, dass komplexe Verhaltensweisen aus dem Zusammenspiel simpler Elemente entstehen können. Hier werden Informationen nicht durch explizite Symbole, sondern durch das Zusammenspiel von vielen einfachen Einheiten verarbeitet. Ein bekanntes Beispiel für eine emergente Architektur ist das "Artificial Neural Network", das auf dem Prinzip des menschlichen Gehirns basiert und Informationen durch Anpassung von Gewichten zwischen Neuronen verarbeitet.

Hybride Architekturen kombinieren sowohl symbolische als auch emergente Elemente, um die Vorteile beider Ansätze zu nutzen. Dabei können symbolische und emergente Verarbeitungselemente miteinander verbunden werden, um komplexe kognitive Fähigkeiten zu modellieren. Dies ermöglicht es, sowohl die explizite Repräsentation von Wissen als auch das Lernen aus Erfahrung zu integrieren.





****************************************************************************************
****************************************************************************************




Answer to Question 5-7
a) Der gegebene Vergessen-Mechanismus basiert auf dem zeitbasierten Verfall. Die Parameter $\\beta_i$ und $d$ haben folgende Bedeutungen:
- $\\beta_i$: Der Parameter $\\beta_i$ gibt die Grundaktivierung des Datums $i$ im Gedächtnis an. Er beeinflusst also das Grundniveau der Aktivierung des jeweiligen Datums.
- $d$: Der Parameter $d$ bestimmt die Varianz der Normalverteilung, die den zeitbasierten Verfall des Aktivierungslevels steuert. Eine größere Varianz bedeutet eine breitere Verteilung der Aktivierungsverläufe der Daten im Gedächtnis.

b) 
Die Gleichungen zur Berechnung von $\\alpha_{i_1}$, $\\alpha_{i_2}$ und $\\alpha_{i_3}$ bei $t=3$ sind:
- $\\alpha_{i_1}(3) = \\beta_{i_1} \cdot (r_{i_1,0} \cdot \mathcal{N}(\\mu=0, \\sigma^2=d)(3) + r_{i_1,1} \cdot \mathcal{N}(\\mu=1, \\sigma^2=d)(3) + r_{i_1,2} \cdot \mathcal{N}(\\mu=2, \\sigma^2=d)(3))$
- $\\alpha_{i_2}(3) = \\beta_{i_2} \cdot (r_{i_2,0} \cdot \mathcal{N}(\\mu=0, \\sigma^2=d)(3) + r_{i_2,1} \cdot \mathcal{N}(\\mu=1, \\sigma^2=d)(3) + r_{i_2,2} \cdot \mathcal{N}(\\mu=2, \\sigma^2=d)(3))$
- $\\alpha_{i_3}(3) = \\beta_{i_3} \cdot (r_{i_3,0} \cdot \mathcal{N}(\\mu=0, \\sigma^2=d)(3) + r_{i_3,1} \cdot \mathcal{N}(\\mu=1, \\sigma^2=d)(3) + r_{i_3,2} \cdot \mathcal{N}(\\mu=2, \\sigma^2=d)(3))$

Die Aktivierungen der Daten $i_1$, $i_2$ und $i_3$ würden gemäß ihrer Größe angeordnet werden, wobei zum Zeitpunkt $t=3$ diejenigen mit höherer Aktivierung die höheren Werte von $\\alpha$ haben. Man würde also die Aktivierungen vergleichen und entsprechend ordnen.

Für die Berechnung der Normalverteilung $\mathcal{N}$ kann das Symbol $\mathcal{N}$ verwendet werden, um die Wahrscheinlichkeit entsprechend der Normalverteilung zu berechnen.






****************************************************************************************
****************************************************************************************




