Temperature & Top-k Sampling

Softmax mit Temperature: p_i = exp(x_i/T) / Σ exp(x_n/T)

T = Temperature-Parameter | x_i = Logits vom Transformer

Interaktive Controls

Temperature (T): 1.00

0.01 (deterministisch) 3.00 (sehr zufällig)

Top-k: 8

1 (greedy) 8 (alle tokens)

Entropie

0.00

Max Probability

0.00%

Aktive Tokens

Eingabe: Logits vom Transformer

Ausgabe: Probabilities nach Softmax

Beobachte wie Temperature die Verteilung verändert und Top-k die schwächsten Kandidaten maskiert!

Wie Temperature und Top-k Sampling funktionieren

Logits (Eingabe): Der Transformer produziert für jedes mögliche Token im Vokabular einen "Score" (Logit). Höhere Werte bedeuten, dass das Modell denkt, dieses Token passt besser zum Kontext.

Temperature (T): Kontrolliert die "Schärfe" der Wahrscheinlichkeitsverteilung:
• T → 0: Nahezu deterministisch – das wahrscheinlichste Token wird fast immer gewählt (wie bei T=0.00 im Screenshot)
• T = 1: Standard Softmax – keine Verzerrung
• T > 1: "Abgeflachte" Verteilung – mehr Zufall, kreativere aber inkonsistentere Ausgaben

Softmax mit Temperature: Die Formel p_i = exp(x_i/T) / Σ exp(x_n/T) transformiert die Logits in Wahrscheinlichkeiten. Kleinere T macht die Differenzen größer, größere T macht sie kleiner.

Top-k Sampling: Begrenzt die Auswahl auf die k wahrscheinlichsten Tokens:
• k = 1: Greedy Decoding – immer das beste Token wählen
• k = klein (z.B. 3-5): Beschränkte Vielfalt, aber kohärente Ausgaben
• k = groß: Mehr Vielfalt, aber Risiko von unpassenden Tokens

Kombinierte Wirkung: Temperature und Top-k arbeiten zusammen: Temperature formt die Verteilung, dann wählt Top-k die besten k Kandidaten aus. Das ermöglicht kontrollierte Randomisierung für natürlichere, vielfältigere Texte ohne völlig unpassende Ausgaben.

Entropie: Misst die "Unsicherheit" der Verteilung. Höhere Werte = mehr Gleichverteilung, niedrigere Werte = stärker auf wenige Tokens konzentriert.

Anwendungen:
• Chatbots: T=0.7-1.0 für natürliche, kohärente Antworten
• Kreatives Schreiben: T=1.2-1.8 für überraschende, originelle Texte
• Code-Generierung: T=0.2-0.5 für präzise, korrekte Ausgaben