Multimodal Learning

Multimodal Learning bezeichnet maschinelles Lernen über mehrere sensorische Modalitäten hinweg — z.B. gleichzeitige Verarbeitung von Text, Bild, Audio, Video oder taktilen Signalen. Das Ziel: reichhaltigere Repräsentationen durch die Integration komplementärer Informationsquellen.

Details

Warum Multimodal?

  • Einzelne Modalitäten sind incomplete: Bild ohne Kontext, Text ohne Wahrnehmung
  • Biologische Systeme integrieren immer multimodal (→ supramodale Integration im Gehirn)
  • Cross-modale Redundanz und Komplementarität erlaubt besseres Lernen mit weniger Labels

Wichtige Multimodal-Modelle

ModellModalitätenBeitrag
CLIP (OpenAI)Text + BildKontrastives Lernen über Text-Bild-Paare
GPT-4V / GeminiText + Bild + AudioGeneralistisches multimodales LLM
AudioCLIPAudio + Bild + TextDreifach-modales Contrastive Learning
Seeing Fast and Slow (Seeing Fast and Slow – Learning the Flow of Time in Videos)Video + AudioAudio-Pitch als Supervisorsignal für visuelles Lernen
MolmoAct2 (MolmoAct2 – Open-Source Action Reasoning Model for Real-World Robotics)Bild + Sprache + AktionRobotik-VLA

Cross-Modal Supervision (SSL)

Ein Schlüsseltrend: eine Modalität supervisiert eine andere ohne Labels:

  • Audio → visuelles Speed-Lernen (Seeing Fast and Slow)
  • Text → visuelle Repräsentationen (CLIP)
  • Biologisch: auditorisches Signal lehrt visuelles System zeitliche Struktur

NeuroAI-Parallele

  • Supramodale PFC-Integration: PFC verarbeitet Information unabhängig von der sensorischen Modalität — direkte Parallele zu multimodalen Repräsentationen in LLMs
  • Cross-modal sensory integration (McGurk effect, rubber hand illusion): Gehirn gewichtet Modalitäten nach Zuverlässigkeit (Bayesianische Sensorintegration)
  • Multimodal DNNs als Modelle supramodaler Verarbeitung im Kortex?

See also

Tags: ai machine-learning neuroai
Superlink: 050 🧠Neuroscience

Verbindungen

Created: 06/05/26