Nhi Nguyen

[Summary] TAP: Text-Aware Pre-training for Text-VQA and Text-Caption

Tóm tắt

Tổng quan lí thuyết

Về tác vụ hình ảnh liên quan scene-text


Kĩ thuật đề xuất

image

Text-aware pre-training tasks

Scene-text language pre-training tasks (Kết hợp text và OCR)

MLM
ITM

Scene-text visual pre-training tasks (Kết hợp hình ảnh và OCR)

Paper


Q&A:

  1. Mã hoá QH vùng ảnh thành mask trong SA-M4C.