Temperature & Top-k Sampling
Interaktive Visualisierung des Einflusses von Temperature und Top-k auf die Output-Wahrscheinlichkeiten von Large Language Models
Interaktive Controls
Wie Temperature und Top-k Sampling funktionieren
Logits (Eingabe): Der Transformer produziert für jedes mögliche Token im Vokabular einen "Score" (Logit). Höhere Werte bedeuten, dass das Modell denkt, dieses Token passt besser zum Kontext.
Temperature (T): Kontrolliert die "Schärfe" der Wahrscheinlichkeitsverteilung:
• T → 0: Nahezu deterministisch – das wahrscheinlichste Token wird fast immer gewählt (wie bei T=0.00 im Screenshot)
• T = 1: Standard Softmax – keine Verzerrung
• T > 1: "Abgeflachte" Verteilung – mehr Zufall, kreativere aber inkonsistentere Ausgaben
Softmax mit Temperature: Die Formel pi = exp(xi/T) / Σ exp(xn/T) transformiert die Logits in Wahrscheinlichkeiten. Kleinere T macht die Differenzen größer, größere T macht sie kleiner.
Top-k Sampling: Begrenzt die Auswahl auf die k wahrscheinlichsten Tokens:
• k = 1: Greedy Decoding – immer das beste Token wählen
• k = klein (z.B. 3-5): Beschränkte Vielfalt, aber kohärente Ausgaben
• k = groß: Mehr Vielfalt, aber Risiko von unpassenden Tokens
Kombinierte Wirkung: Temperature und Top-k arbeiten zusammen: Temperature formt die Verteilung, dann wählt Top-k die besten k Kandidaten aus. Das ermöglicht kontrollierte Randomisierung für natürlichere, vielfältigere Texte ohne völlig unpassende Ausgaben.
Entropie: Misst die "Unsicherheit" der Verteilung. Höhere Werte = mehr Gleichverteilung, niedrigere Werte = stärker auf wenige Tokens konzentriert.
Anwendungen:
• Chatbots: T=0.7-1.0 für natürliche, kohärente Antworten
• Kreatives Schreiben: T=1.2-1.8 für überraschende, originelle Texte
• Code-Generierung: T=0.2-0.5 für präzise, korrekte Ausgaben