Self-Attention Mechanismus
Verstehe, wie Transformer-Modelle den Kontext von Wörtern nutzen, um das nächste Token vorherzusagen
💡 Was ist Self-Attention?
Self-Attention ist der Kernmechanismus von Transformer-Modellen wie GPT und BERT. Er erlaubt es dem Modell, für jedes Wort im Satz zu verstehen, welche anderen Wörter wichtig sind, um seine Bedeutung zu erfassen.
🔑 Die drei Matrizen
- Query (Q): "Wonach suche ich?" - Repräsentiert das aktuelle Wort, das Kontext benötigt
- Key (K): "Was biete ich an?" - Repräsentiert alle Wörter, die Kontext liefern können
- Value (V): "Was ist meine Information?" - Die tatsächliche Information, die weitergegeben wird
📐 Die Attention-Formel
Schritt für Schritt:
- 1. Berechne Scores: Q × K^T gibt uns, wie relevant jedes Wort für jedes andere ist
- 2. Skalierung: Division durch √d_k verhindert zu große Werte
- 3. Softmax: Wandelt Scores in Wahrscheinlichkeiten (0-1) um
- 4. Gewichtete Summe: Multipliziere mit V, um die finalen Ausgaben zu erhalten
Beispiel - Wie Adjektive den Kontext beeinflussen:
- "Der alte Hund schläft" - Das Substantiv "Hund" achtet stark auf das Adjektiv "alte". Die Attention-Scores zeigen, dass "Hund" die Eigenschaft "alt" aus dem Kontext aufnimmt.
- "Der junge Hund rennt" - Hier lernt das Modell den Unterschied: "jung" + "rennt" korreliert stärker als "alt" + "schläft". Die Adjektive ändern die Vorhersage des Verbs!
- Mehrere Adjektive: Bei "Die große rote Katze" sammelt "Katze" Information von beiden Adjektiven. Die Attention-Gewichte zeigen, wie viel jedes Adjektiv beiträgt.
💡 Tipp: Klicke auf "Hund" in Step 5 und beobachte die Attention-Gewichte. Du wirst sehen, dass das Adjektiv eine hohe Gewichtung bekommt - so lernt das Modell kontextabhängige Bedeutungen!