视频显式语义理解与视频筛选应用

视频是包含多种模态的富媒体,如帧画面的图像模态、多帧画面组成的运动模态、声音模态等,这些模态相互配合提供完整的信息,要想理解整个视频,需要理解这些模态。于是,本文提出了Multimodal Semantic Attention Network (MSAN),基于encoder-decoder范式, 用于整合这些模态的语义属性。

  • 2022-01-05
  • 收藏0
  • 阅读77
  • 下载0
  • 29页
  • pdf
  • 15.59M

评价

评分 :
   *