Self-Supervised Learning (SSL)
Self-Supervised Learning ist ein Paradigma des maschinellen Lernens, bei dem ein Modell aus den Daten selbst Lernziele generiert — ohne manuell beschriftete Labels. Es überbrückt die Lücke zwischen überwachtem und unüberwachtem Lernen.
Details
Grundprinzip
Input: ungelabeltes Datum (Bild, Text, Video, Audio)
Aufgabe: Vorhersage eines Teils des Inputs aus einem anderen Teil
→ Keine externen Labels nötig — der Input ist sein eigenes Label
SSL-Paradigmen
| Methode | Idee | Beispiel |
|---|---|---|
| Masked Prediction | Teil verbergen → vorhersagen | BERT (Text), MAE (Bild) |
| Contrastive Learning | Ähnliche Daten annähern, verschiedene entfernen | SimCLR, MoCo |
| Predictive SSL | Zukünftigen Zustand vorhersagen | GPT (nächstes Token), JEPA (latent) |
| Cross-Modal SSL | Modalität A aus Modalität B vorhersagen | CLIP (Text→Bild), AudioCLIP |
NeuroAI-Parallele
SSL ist biologisch plausibeler als supervised learning:
- Das Gehirn hat kein “Teacher Signal” mit exakten Labels → lernt durch Vorhersage (→ Predictive Coding)
- Multimodale SSL (Seeing Fast and Slow – Learning the Flow of Time in Videos): Audio → visuelle Speed-Vorhersage; analog zu cross-modal sensorischer Integration im Gehirn
Wichtige Modelle
- BERT (Bidirectional Encoder Representations): maskiertes Sprachmodell
- GPT (autoregressive): nächstes Token vorhersagen
- SimCLR/MoCo: visuelles Contrastive Learning
- DINO/DINOv2: Transformer für Vision, ohne Labels, starke Features
- JEPA (JEPA – Joint-Embedding Predictive Architecture as World Model): Vorhersage im latenten Raum, kein Pixel-Reconstruction
Warum SSL so mächtig ist
- Skalierbar auf unbegrenzte Datenmenge (Web = riesige ungelabelte Datenquelle)
- Lernt robuste, transferierbare Repräsentationen
- Grundlage für LLMs (Large Language Models): GPT-Pretraining = SSL
See also
Tags: ai machine-learning deep-learning
Superlink: 050 🧠Neuroscience
Verbindungen
- Predictive Coding — neurowissenschaftliche Entsprechung
- Large Language Models — basieren auf SSL (nächstes-Token-Vorhersage)
- JEPA – Joint-Embedding Predictive Architecture as World Model — modernste SSL-Architektur
- Multimodal Learning — cross-modale SSL
- Seeing Fast and Slow – Learning the Flow of Time in Videos
Created: 06/05/26