Attention is All You Need
wofür sind die feed forward layers?
warum bei masked multi head attention schaut es nur in die vergangenheit und blendet zukünftige values aus?
warum braucht man beim verwenden von chatgpt wirklich self-attention? beim training ergibt das sinn
was genau macht jetzt der encoder input in dem decoder?
warum muss man die matrizen transposen?
wofür genau ist der key da?
und value und query?
was ist mit älteren attention mechanisms in CNNs? also vor dem paper.
keys beantowrten die queries
whenever they closely align
value
VIPS
Transformers are used for text translation and text generation
See also
Status:
Tags: science
Superlink: 611 📠Machine Learning
610 🤖Artificial Intelligence, Künstliche Intelligenz
Quellen
Erstellt: 10-01-25 17:56