Nhi Nguyen

Transformers - Encoder & Decoder

image

Cơ chế Attention

image

Input Embeddings & Positional Encoding

Encoder

Introduction

Architecture

Multi-head Attention

Add & Norm Layer & Residual Layer & Point-wise feed forward network

Decoder

Introduction

Training & Inference

Q&A:

  1. Tại sao chiến lược optimization là tăng ở 4000 epoch đầu, và giảm dần về sau?