Multimodal Learning
Multimodal Learning bezeichnet maschinelles Lernen über mehrere sensorische Modalitäten hinweg — z.B. gleichzeitige Verarbeitung von Text, Bild, Audio, Video oder taktilen Signalen. Das Ziel: reichhaltigere Repräsentationen durch die Integration komplementärer Informationsquellen.
Details
Warum Multimodal?
- Einzelne Modalitäten sind incomplete: Bild ohne Kontext, Text ohne Wahrnehmung
- Biologische Systeme integrieren immer multimodal (→ supramodale Integration im Gehirn)
- Cross-modale Redundanz und Komplementarität erlaubt besseres Lernen mit weniger Labels
Wichtige Multimodal-Modelle
| Modell | Modalitäten | Beitrag |
|---|---|---|
| CLIP (OpenAI) | Text + Bild | Kontrastives Lernen über Text-Bild-Paare |
| GPT-4V / Gemini | Text + Bild + Audio | Generalistisches multimodales LLM |
| AudioCLIP | Audio + Bild + Text | Dreifach-modales Contrastive Learning |
| Seeing Fast and Slow (Seeing Fast and Slow – Learning the Flow of Time in Videos) | Video + Audio | Audio-Pitch als Supervisorsignal für visuelles Lernen |
| MolmoAct2 (MolmoAct2 – Open-Source Action Reasoning Model for Real-World Robotics) | Bild + Sprache + Aktion | Robotik-VLA |
Cross-Modal Supervision (SSL)
Ein Schlüsseltrend: eine Modalität supervisiert eine andere ohne Labels:
- Audio → visuelles Speed-Lernen (Seeing Fast and Slow)
- Text → visuelle Repräsentationen (CLIP)
- Biologisch: auditorisches Signal lehrt visuelles System zeitliche Struktur
NeuroAI-Parallele
- Supramodale PFC-Integration: PFC verarbeitet Information unabhängig von der sensorischen Modalität — direkte Parallele zu multimodalen Repräsentationen in LLMs
- Cross-modal sensory integration (McGurk effect, rubber hand illusion): Gehirn gewichtet Modalitäten nach Zuverlässigkeit (Bayesianische Sensorintegration)
- Multimodal DNNs als Modelle supramodaler Verarbeitung im Kortex?
See also
Tags: ai machine-learning neuroai
Superlink: 050 🧠Neuroscience
Verbindungen
- Self-Supervised Learning — häufig die Basis für multimodales Lernen
- Neural Encoding with Deep Neural Networks — multimodale Encoding-Modelle
- Seeing Fast and Slow – Learning the Flow of Time in Videos
- Large Language Models — multimodale Erweiterungen (GPT-4V, Gemini)
Created: 06/05/26