Nhi Nguyen

Question-controlled Text-aware Image Captioning, Q&A

Automatic Dataset Construction

image

Overview về dataset

Initial Caption Generation:

Question Generation

Proposed Method (GQAM)

image

Geometry-informed Visual Encoder

image

Question-guided Encoder

image image

Multimodal Decoder

image

Source Code Paper


Q&A:

  1. Sử dụng bộ phân tích cú pháp phụ thuộc (syntactic dependency parser) Spacy2 để xây dựng cây phụ thuộc (dependency tree) và cắt tỉa các nhánh chứa văn bản cảnh (scene text). -> Liệu bước filter này có thể sử dụng được trên dữ liệu tiếng Việt không?