Self-Attention Mechanismus

Gib einen Satz ein:

Step 1
Input & Embeddings

Step 2
Q, K, V Matrizen

Step 3
Attention Scores

Step 4
Softmax

Step 5
Gewichtete Werte

💡 Was ist Self-Attention?

Self-Attention ist der Kernmechanismus von Transformer-Modellen wie GPT und BERT. Er erlaubt es dem Modell, für jedes Wort im Satz zu verstehen, welche anderen Wörter wichtig sind, um seine Bedeutung zu erfassen.

🔑 Die drei Matrizen

Query (Q): "Wonach suche ich?" - Repräsentiert das aktuelle Wort, das Kontext benötigt
Key (K): "Was biete ich an?" - Repräsentiert alle Wörter, die Kontext liefern können
Value (V): "Was ist meine Information?" - Die tatsächliche Information, die weitergegeben wird

📐 Die Attention-Formel

Attention(Q, K, V) = softmax(Q × K^T / √d_k) × V

Schritt für Schritt:

1. Berechne Scores: Q × K^T gibt uns, wie relevant jedes Wort für jedes andere ist
2. Skalierung: Division durch √d_k verhindert zu große Werte
3. Softmax: Wandelt Scores in Wahrscheinlichkeiten (0-1) um
4. Gewichtete Summe: Multipliziere mit V, um die finalen Ausgaben zu erhalten

Beispiel - Wie Adjektive den Kontext beeinflussen:

"Der alte Hund schläft" - Das Substantiv "Hund" achtet stark auf das Adjektiv "alte". Die Attention-Scores zeigen, dass "Hund" die Eigenschaft "alt" aus dem Kontext aufnimmt.
"Der junge Hund rennt" - Hier lernt das Modell den Unterschied: "jung" + "rennt" korreliert stärker als "alt" + "schläft". Die Adjektive ändern die Vorhersage des Verbs!
Mehrere Adjektive: Bei "Die große rote Katze" sammelt "Katze" Information von beiden Adjektiven. Die Attention-Gewichte zeigen, wie viel jedes Adjektiv beiträgt.

💡 Tipp: Klicke auf "Hund" in Step 5 und beobachte die Attention-Gewichte. Du wirst sehen, dass das Adjektiv eine hohe Gewichtung bekommt - so lernt das Modell kontextabhängige Bedeutungen!