Large Language Models (LLMs)

Large Language Models sind tiefe neuronale Netzwerke (meist Transformer-Architektur), die auf massiven Textmengen trainiert werden, um die Wahrscheinlichkeit von Wortfolgen zu modellieren. Sie sind die Grundlage moderner KI-Systeme wie GPT-4, Claude, Gemini.

Details

Grundprinzip: Nächstes-Token-Vorhersage

  • Trainingsziel: P(Token_n | Token_1, …, Token_{n-1}) maximieren
  • Aus diesem einfachen Ziel emergieren Fähigkeiten wie Übersetzen, Schlussfolgern, Programmieren
  • Kein symbolisches Wissenssystem — Wissen ist in Gewichten kodiert

Architektur

  • Basis: Transformers — Self-Attention über den gesamten Kontext
  • Skalierung (Chinchilla-Gesetze): Modellgröße, Datenmenge, Rechenzeit in optimaler Relation
  • Kontextfenster: von 2k Tokens (GPT-2) zu 1M+ Tokens (Gemini 1.5)
  • Mixture of Experts (MoE): nicht alle Parameter aktiv → effizienter (z.B. DeepSeek, GPT-4)

Training-Pipeline (modernes LLM)

1. Pretraining auf Web-Daten (nächstes Token)
2. Instruction Tuning / SFT (Supervised Fine-Tuning)
3. RLHF oder RLVR (Alignment mit menschlichen Präferenzen)

Emergente Fähigkeiten

  • Chain-of-Thought-Reasoning, In-Context Learning, Instruction Following
  • Treten ab bestimmter Modellgröße auf (nicht linear skalierend)
  • Debatte: echte Emergenz oder Messschwellenwert-Artefakt?

Grenzen

CogSci-Parallele

LLMs als Sprachmodelle haben Ähnlichkeiten mit statistischen Aspekten menschlicher Sprachverarbeitung, aber keine analoge Sensomotorik, Embodiment oder episodisches Gedächtnis. Sie approximieren “Systemwissen” ohne “Situationswissen”.

See also

Tags: ai llm deep-learning
Superlink: 050 🧠Neuroscience

Verbindungen

Created: 06/05/26