Nhi Nguyen

Transformers, BERT, Q&A

BERT (Bidirectional Encoder Representation from Transformer)

BERT -> học cách biểu diễn ngôn ngữ sử dụng transformers -> đặc biệt encoder của transformers

Thành phần trong BERT

Embedding:

Positional Encoding:

Attention Block:

image

Multihead-Attention:

Feedforward (Position-wise Feed-Forward Networks)

Skip connection & Layer Norm

Source Code Paper


Q&A:

  1. Nếu vậy số lượng heads càng nhiều thì sẽ tìm được càng nhiều sự tương quan?
  2. Nếu lớp pooled thay vì lấy encode_out cuối mà mình flatten hoặc dùng avgpool2d thì perf có cải thiện không nhỉ self.classifier(encode_out[:,-1])? Đa phần các chỗ tham khảo khác thì không thay đổi cho lắm. image image