, , , , e.a.

Visual Question Answering

From Theory to Application

Gebonden Engels 2022 9789811909634
Verwachte levertijd ongeveer 9 werkdagen

Samenvatting

Visual Question Answering (VQA) usually combines visual inputs like image and video with a natural language question concerning the input and generates a natural language answer as the output. This is by nature a multi-disciplinary research problem, involving computer vision (CV), natural language processing (NLP), knowledge representation and reasoning (KR), etc.

Further, VQA is an ambitious undertaking, as it must overcome the challenges of general image understanding and the question-answering task, as well as the difficulties entailed by using large-scale databases with mixed-quality inputs. However, with the advent of deep learning (DL) and driven by the existence of advanced techniques in both CV and NLP and the availability of relevant large-scale datasets, we have recently seen enormous strides in VQA, with more systems and promising results emerging.

This book provides a comprehensive overview of VQA, covering fundamental theories, models, datasets, and promising future directions. Given its scope, it can be used as a textbook on computer vision and natural language processing, especially for researchers and students in the area of visual question answering. It also highlights the key models used in VQA.

Specificaties

ISBN13:9789811909634
Taal:Engels
Bindwijze:gebonden
Uitgever:Springer Nature Singapore

Lezersrecensies

Wees de eerste die een lezersrecensie schrijft!

Inhoudsopgave

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1<div>1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1</div><div>1.2 Visual Question Answering in AI tasks . . . . . . . . . . . . . . . . . . . . . . . . 4</div><div>1.3 Categorisation of VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6</div><div>1.3.1 Classified by Data Settings . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6</div><div>1.3.2 Classified by Task Settings . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7</div><div>1.3.3 Others . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8</div><div>1.4 Book Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9</div><div>Part I Preliminaries</div><div>2 Deep Learning Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15</div><div>2.1 Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15</div><div>2.2 Convolutional Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17</div><div>2.3 Recurrent Neural Networks and variants . . . . . . . . . . . . . . . . . . . . . . . 18</div>2.4 Encoder-Decoder Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<div>2.5 Attention Mechanism . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21</div><div>2.6 Memory Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21</div><div>2.7 Transformer Networks and BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23</div><div>2.8 Graph Neural Networks Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26</div><div>3 Question Answering (QA) Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29</div><div>3.1 Rule-based methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29</div><div>3.2 Information retrieval-based methods . . . . . . . . . . . . . . . . . . . . . . . . . . . 30</div><div>3.3 Neural Semantic Parsing for QA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31</div><div>3.4 Knowledge Base for QA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32</div><div>Part II Image-based VQA</div><div><br></div><div>ix</div><div><br></div><br><div>x Contents</div><div>4 The Classical Visual Question Answering . . . . . . . . . . . . . . . . . . . . . . . . . 37</div><div>4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37</div><div>4.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38</div><div>4.3 Generation VS. Classification: Two answering policies . . . . . . . . . . . 39</div><div>4.4 Joint Embedding Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40</div><div>4.4.1 Sequence-to-Sequence Encoder-Decoder Models . . . . . . . . . . 40</div><div>4.4.2 Bilinear Encoding for VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42</div><div>4.5 Awesome Attention Mechanisms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44</div><div>4.5.1 Stacked Attention Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . 44</div><div>4.5.2 Hierarchical Question-Image Co-attention . . . . . . . . . . . . . . . 47</div><div>4.5.3 Bottom-Up and Top-Down Attention . . . . . . . . . . . . . . . . . . . . 48</div><div>4.6 Memory Networks for VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50</div><div>4.6.1 Improved Dynamic Memory Networks . . . . . . . . . . . . . . . . . . 50</div><div>4.6.2 Memory-Augmented Networks . . . . . . . . . . . . . . . . . . . . . . . . . 52</div>4.7 Compositional Reasoning for VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54<div>4.7.1 Neural Modular Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54</div><div>4.7.2 Dynamic Neural Module Networks . . . . . . . . . . . . . . . . . . . . . 56</div><div>4.8 Graph Neural Networks for VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57</div><div>4.8.1 Graph Convolutional Networks . . . . . . . . . . . . . . . . . . . . . . . . . 58</div>4.8.2 Graph Attention Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<div>4.8.3 Graph Convolutional Networks for VQA . . . . . . . . . . . . . . . . . 62</div><div>4.8.4 Graph Attention Networks for VQA . . . . . . . . . . . . . . . . . . . . . 63</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65</div><div>5 Knowledge-based VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69</div><div>5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69</div><div>5.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70</div><div>5.3 Knowledge Bases introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72</div><div>5.3.1 DBpedia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72</div><div>5.3.2 ConceptNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73</div><div>5.4 Knowledge Embedding Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73</div><div>5.4.1 Word-to-vector representation . . . . . . . . . . . . . . . . . . . . . . . . . . 73</div><div>5.4.2 Bert-based representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75</div><div>5.5 Question-to-Query Translation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76</div><div>5.5.1 Query-mapping based methods . . . . . . . . . . . . . . . . . . . . . . . . . 77</div><div>5.5.2 Learning based methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78</div><div>5.6 How to query knowledge bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79</div><div>5.6.1 RDF query . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79</div><div>5.6.2 Memory Network query . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82</div><div>6 Vision-and-Language Pre-training for VQA . . . . . . . . . . . . . . . . . . . . . . . 87</div><div>6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87</div><div>6.2 General Pre-training Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88</div><div>6.2.1 Embeddings from Language Models . . . . . . . . . . . . . . . . . . . . 88</div><div><br></div><div><br></div><div>Contents xi</div><div>6.2.2 Generative Pre-Training Model . . . . . . . . . . . . . . . . . . . . . . . . . 89</div><div>6.2.3 Bidirectional Encoder Representations from Transformers . . 89</div><div>6.3 Popular Vision-and-Language Pre-training Methods . . . . . . . . . . . . . 93</div><div>6.3.1 Single-Stream Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94</div><div>6.3.2 Two-Stream Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96</div><div>6.4 Fine-tuning on VQA and Other Downstream Tasks . . . . . . . . . . . . . . 98</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101</div><div>Part III Video-based VQA</div><div>7 Video Representation Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105</div>7.1 Hand-crafted local video descriptors . . . . . . . . . . . . . . . . . . . . . . . . . . . 105<div>7.2 Data-driven deep learning features for video representation . . . . . . . . 108</div><div>7.3 Self-supervised learning for video representation . . . . . . . . . . . . . . . . 109</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110</div><div>8 Video Question Answering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113</div><div>8.1 Introductions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113</div><div>8.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114</div><div>8.2.1 Multi-step reasoning dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . 114</div><div>8.2.2 Single-step reasoning dataset . . . . . . . . . . . . . . . . . . . . . . . . . . 118</div><div>8.3 Traditional Video Spatio-Temporal Reasoning Using</div><div>Encoder-Decoder Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126</div><div>9 Advanced Models for Video Question Answering . . . . . . . . . . . . . . . . . . 129</div><div>9.1 Attention on Spatio-Temporal Features . . . . . . . . . . . . . . . . . . . . . . . . . 129</div><div>9.2 Memory Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132</div><div>9.3 Spatio-Temporal Graph Neural Networks . . . . . . . . . . . . . . . . . . . . . . . 134</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136</div><div>Part IV Advanced Topics in VQA</div><div>10 Embodied VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141</div><div>10.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141</div><div>10.2 Simulators, Datasets and Evaluations . . . . . . . . . . . . . . . . . . . . . . . . . . 142</div><div>10.2.1 Simulators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142</div><div>10.2.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146</div><div>10.2.3 Evaluations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149</div><div>10.3 Language-guided Visual Navigation . . . . . . . . . . . . . . . . . . . . . . . . . . . 149</div><div>10.3.1 Vision-and-Language Navigation . . . . . . . . . . . . . . . . . . . . . . . 150</div><div>10.3.2 Remote Object Localisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 154</div><div>10.4 Embodied QA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155</div><div>10.5 Interactive QA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158</div><div><br></div><div><br></div><div>xii Contents</div><div>11 Medical VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161</div><div>11.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161</div>11.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161<div>11.3 Medical Image Encoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161</div><div>11.3.1 UNet for medical image processing . . . . . . . . . . . . . . . . . . . . . 161</div><div>11.4 Answering Medical Related Questions: models and results . . . . . . . . 161</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161</div><div>12 Text-based VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163</div><div>12.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163</div><div>12.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164</div><div>12.2.1 TextVQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164</div><div>12.2.2 ST-VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165</div><div>12.2.3 OCR-VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166</div><div>12.3 OCR tokens representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166</div><div>12.4 Simple fusion models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167</div><div>12.4.1 LoRRA: Look, Read, Reason & Answer . . . . . . . . . . . . . . . . . 167</div><div>12.5 Graph-based models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168</div><div>12.5.1 Structured Multimodal Attentions for TextVQA . . . . . . . . . . . 169</div><div>12.6 Transformer-based models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169</div><div>12.6.1 Multimodal Multi-Copy Mesh model . . . . . . . . . . . . . . . . . . . . 170</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171</div>13 Visual Question Generation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175<div>13.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175</div><div>13.2 VQG as Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175</div><div>13.3 Generating Questions from Answers . . . . . . . . . . . . . . . . . . . . . . . . . . . 175</div><div>13.4 Generating Questions from Images . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175</div><div>13.5 Adversarial learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175</div><div>13.6 VQG as Visual Understanding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175</div><div>14 Visual Dialogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177</div><div>14.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177</div><div>14.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178</div><div>14.3 Attention Mechanism . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179</div><div>14.3.1 Hierarchical Recurrent Encoder with Attention (HREA)</div><div>and memory network (MN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180</div><div>14.3.2 History-Conditioned Image Attentive Encoder (HCIAE) . . . 181</div><div>14.3.3 Sequential Co-Attention Generative Model (CoAtt) . . . . . . . . 182</div><div>14.3.4 Synergistic Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185</div><div>14.4 Visual Co-reference Resolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186</div><div>14.5 Graph Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187</div><div>14.5.1 Scene Graph for Visual Representations . . . . . . . . . . . . . . . . . 188</div><div>14.5.2 GNN for Visual and Dialogue Representations . . . . . . . . . . . . 189</div><div><br></div><div><br></div><div>Contents xiii</div><div>14.6 Pretrained Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192</div><div>14.6.1 VD_BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192</div><div>14.6.2 Visual-Dialog BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195</div><div>15 Referring Expression Comprehension . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197</div><div>15.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197</div><div>15.2 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198</div><div>15.3 Two-stage Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199</div><div>15.3.1 Joint Embedding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199</div><div>15.3.2 Co-attention Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201</div><div>15.3.3 Graph-based Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202</div><div>15.4 One-stage Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204</div><div>15.5 Reasoning Process comprehension . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207</div><div>Part V Summary and Outlook</div><div>16 Summary and Outlook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213</div><div>16.1 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213</div><div>16.2 Future Directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213</div><div>16.2.1 Explainable VQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213</div><div>16.2.2 VQA in the wild . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213</div><div>16.2.3 Eliminating Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214</div><div>16.2.4 More settings and Applications . . . . . . . . . . . . . . . . . . . . . . . . . 214</div><div>References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214</div><div>Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215</div>

Managementboek Top 100

Rubrieken

Populaire producten

    Personen

      Trefwoorden

        Visual Question Answering