image caption or video caption or VQA在实际业务场景中有应用吗

2025-04-18 14:34:53

有的。Google I/O 2019, 里面有一个demo, show me t茑霁酌绡he photos from yellow stone, with animals! 就是VQA的应用。

作为多模态领域的一个典型场景，VQA旨在结合视觉的信息来回答所提出的问题。从15年首次被提出至今，其涉及的方法从最开始的联合编码，到双线性融合，注意力机制，组合模型，场景图，再到引入外部知识，进行知识推理，以及使用图网络，多模态预训练语言模型，近年来发展迅速。

介绍

对于一个给定的V-Q pair，首先用CNN提取图片特征属性，然后利用这些检测到的属性，使用sparql查询语句从knowledge base比如DBpedia中提取出图像相关描述的一个段落，利用Doc2Vec对这些段落编码。

同时，根据图片特征属性使用Sota的image caption方法形成图像对应的段落特征表达。

最后将上面两种信息以及编码的属性结合在一起并输入作为一个Seq2Seq模型的初始初始状态，同时将问题编码作为LSTM的输入，利用最大似然方法处理代价函数，预测答案。

声明：本网站引用、摘录或转载内容仅供网站访问者交流或参考，不代表本站立场，如存在版权或非法内容，请联系站长删除，联系邮箱：site.kefu@qq.com。