#LSTM

论文链接:https://arxiv.org/abs/1612.01887

Abstract

基于注意力的神经编码-译码框架(Attention-based neural encoder-decoder frameworks)已经在图像标注任务中广泛采用。大部分方法在生成词语时,强行令视觉注意信息发挥效力。然而,译码器在预测诸如“the”和“of”等“非视觉”(non-visual)词汇时,可能几乎不需要从图片中获取视觉信息。其它看上来像视觉词汇的词语,例如在“behind a red stop”之后的“sign”,或者“talking on a cell”之后的“phone”,经常可依赖语言模型进行可靠的预测。在本文中,我们提出了一个新的带视觉哨兵(visual sentinel)的自适应注意力模型(adaptive attention model)。在预测的每一步,我们的 模型会决定是注意图像(如果是,具体到哪块区域),还是注意视觉哨兵。模型决定了是否要聚焦于图像以及其具体区域,以为序列词语的生成提取出有效信息。在COCO和Flickr30K上的测试结果显示,我们的方法以显著优势重置了新的state-of-the-art水准。

阅读更多

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×