- Bộ mã hóa hình ảnh theo hình học (Geometry-informed Visual Encoder) kết hợp các đặc trưng vùng đối tượng và đặc trưng vùng văn bản cảnh với thông tin hình học tương đối. (region obj features và scene text region features)
- Bộ mã hóa theo câu hỏi (Question-guided Encoder) lựa chọn động các đặc trưng hình ảnh liên quan để mã hóa các câu hỏi. (select relevants visual features to encode questions)
- Bộ giải mã đa phương thức (Multimodal Decoder) nhận đầu vào là các đặc trưng hình ảnh, câu hỏi và chú thích ban đầu để tuần tự tạo ra chú thích có nhận biết văn bản cho câu hỏi. (visual - question - initial captions features → caption)