Multimodal Learning

Multimodal Learning bezeichnet maschinelles Lernen über mehrere sensorische Modalitäten hinweg — z.B. gleichzeitige Verarbeitung von Text, Bild, Audio, Video oder taktilen Signalen. Das Ziel: reichhaltigere Repräsentationen durch die Integration komplementärer Informationsquellen.

Details

Warum Multimodal?

Einzelne Modalitäten sind incomplete: Bild ohne Kontext, Text ohne Wahrnehmung
Biologische Systeme integrieren immer multimodal (→ supramodale Integration im Gehirn)
Cross-modale Redundanz und Komplementarität erlaubt besseres Lernen mit weniger Labels

Wichtige Multimodal-Modelle

Modell	Modalitäten	Beitrag
CLIP (OpenAI)	Text + Bild	Kontrastives Lernen über Text-Bild-Paare
GPT-4V / Gemini	Text + Bild + Audio	Generalistisches multimodales LLM
AudioCLIP	Audio + Bild + Text	Dreifach-modales Contrastive Learning
Seeing Fast and Slow (Seeing Fast and Slow – Learning the Flow of Time in Videos)	Video + Audio	Audio-Pitch als Supervisorsignal für visuelles Lernen
MolmoAct2 (MolmoAct2 – Open-Source Action Reasoning Model for Real-World Robotics)	Bild + Sprache + Aktion	Robotik-VLA

Cross-Modal Supervision (SSL)

Ein Schlüsseltrend: eine Modalität supervisiert eine andere ohne Labels:

Audio → visuelles Speed-Lernen (Seeing Fast and Slow)
Text → visuelle Repräsentationen (CLIP)
Biologisch: auditorisches Signal lehrt visuelles System zeitliche Struktur

NeuroAI-Parallele

Supramodale PFC-Integration: PFC verarbeitet Information unabhängig von der sensorischen Modalität — direkte Parallele zu multimodalen Repräsentationen in LLMs
Cross-modal sensory integration (McGurk effect, rubber hand illusion): Gehirn gewichtet Modalitäten nach Zuverlässigkeit (Bayesianische Sensorintegration)
Multimodal DNNs als Modelle supramodaler Verarbeitung im Kortex?

Verbindungen

Self-Supervised Learning — häufig die Basis für multimodales Lernen
Neural Encoding with Deep Neural Networks — multimodale Encoding-Modelle
Seeing Fast and Slow – Learning the Flow of Time in Videos
Large Language Models — multimodale Erweiterungen (GPT-4V, Gemini)

Created: 06/05/26

Brain Online

Explorer

Multimodal Learning

Multimodal Learning

Details

See also

Verbindungen

Backlinks

Mika

✨ Features

⚙️ Einstellungen

📚 Chat-Verlauf

📖 Citation Manager

✍️ Writing Assistant

Inhaltsverzeichnis