Attention is All You Need

wofür sind die feed forward layers?

warum bei masked multi head attention schaut es nur in die vergangenheit und blendet zukünftige values aus?

warum braucht man beim verwenden von chatgpt wirklich self-attention? beim training ergibt das sinn

was genau macht jetzt der encoder input in dem decoder?

warum muss man die matrizen transposen?

wofür genau ist der key da?
und value und query?

was ist mit älteren attention mechanisms in CNNs? also vor dem paper.

keys beantowrten die queries
whenever they closely align

value

Transformers are used for text translation and text generation

Erstellt: 10-01-25 17:56

Brain Online