Self-Attention Mechanismus

Verstehe, wie Transformer-Modelle den Kontext von Wörtern nutzen, um das nächste Token vorherzusagen

Step 1
Input & Embeddings
Step 2
Q, K, V Matrizen
Step 3
Attention Scores
Step 4
Softmax
Step 5
Gewichtete Werte

💡 Was ist Self-Attention?

Self-Attention ist der Kernmechanismus von Transformer-Modellen wie GPT und BERT. Er erlaubt es dem Modell, für jedes Wort im Satz zu verstehen, welche anderen Wörter wichtig sind, um seine Bedeutung zu erfassen.

🔑 Die drei Matrizen

📐 Die Attention-Formel

Attention(Q, K, V) = softmax(Q × K^T / √d_k) × V

Schritt für Schritt:

Beispiel - Wie Adjektive den Kontext beeinflussen:

💡 Tipp: Klicke auf "Hund" in Step 5 und beobachte die Attention-Gewichte. Du wirst sehen, dass das Adjektiv eine hohe Gewichtung bekommt - so lernt das Modell kontextabhängige Bedeutungen!