Achieving Human Parity on Visual Question Answering

The Visual Question Answering (VQA) task utilizes both visual image and language analysis to answer a textual question with respect to an image. It has been a popular research topic with an increasing number of real-world applications in the last decade. This paper introduces a novel hierarchical in...

Full description

Bibliographic Details
Main Authors:	Bi, B. (Author), Huang, F. (Author), Huang, S. (Author), Jin, R. (Author), Li, C. (Author), Si, L. (Author), Tian, J. (Author), Wang, W. (Author), Xu, H. (Author), Xu, X. (Author), Yan, M. (Author), Zhang, J. (Author)
Format:	Article
Language:	English
Published:	Association for Computing Machinery 2023
Subjects:	cross-modal interaction Cross-modal interaction Image analysis Image content analysis Image enhancement Multi-modal multi-modal pre-training Multi-modal pre-training Pre-training Question Answering Semantics Text and image content analyse text and image content analysis Text content Visual languages Visual question answering Visual Question Answering visual reasoning Visual reasoning
Online Access:	View Fulltext in Publisher View in Scopus

Internet

View Fulltext in Publisher
View in Scopus

Achieving Human Parity on Visual Question Answering

Internet

Similar Items