技术成果列表 技术成果详情

【专利】视频属性表示学习方法,可自动生成反映视频属性语义信息的文字描述

本发明公开了一种视频属性表示学习方法,包括下述步骤:收集一批数据用于视频文字自动描述算法的训练与测试,数据要求每个视频对应几句对应的文字描述;定义训练集中的文字描述内容中出现的所有的名词、动词、和形容词作为对应视频的属性标注信息,则训练集中的每个视频都对应多个属性标签;将一段视频序列表示为单幅图像,从而将复杂困难的视频序列多分类问题转化为较为简单的单幅图片多标签分类问题。本发明还公开一种基于上述视频属性表示学习方法的视频文字描述自动生成方法。本发明的优点在于:提供一种高效的提取视频的属性特征表示,采用本发明的融合方法,能够得到完整的可反映视频属性语义信息的文字描述自动生成方法。

#信息技术
样机(样品)

技术详情

背景技术

视频文字描述自动生成是指给定一段视频序列,通过算法自动的生成与视频内容相关的文字描述。由于视频内容的复杂性,传统的基于搜索模型或者基于语言模型的算法效果一直较差。近年来,随着深度学习技术的发展,基于卷积神经网络(CNN)加循环神经网络(RNN)的算法取得了令人振奋的效果。这一系列算法的基本步骤如下:

(1)通过CNN(二维卷积或者三维卷积)提取视频的特征向量,随后将视频特征向量通过一个映射函数编码为语言模型需要的特征向量;

(2)将步骤(1)获得的特征向量作为语言解码模型RNN的输入进而输出文字描述;

(3)通过大量人工标注的视频-文本对训练集同时迭代优化步骤(1)中的编码模型和步骤(2)中的解码模型。

通过分析上述步骤易知在编解码模型固定的情况下,视频的特征提取对最终生成的文字描述效果占主导地位。目前的视频文字描述自动生成方法中的视频特征提取算法主要分为两大类:

(1)在一个大规模的图片分类数据集中训练一个CNN模型,用此训练完成的CNN模型提取视频的每一帧或者采样帧的特征,然后通过级联、均值或池化等操作获得视频的特征向量;

(2)预先在一个大规模视频分类数据集上训练一个三维卷积神经网络(3D-CNN)来提取输入视频的包含运动信息的特征。虽然这两类方法都取得了不错的效果,但这两类方法提取视频特征的模型都是在第三方数据集上进行训练,这就意味着视频文字描述数据集中的视频并未被利用进行视频特征提取的训练。显然,目前用于视频文字自动描述生成的视频特征提取算法丧失了大量视频的语义信息。


发明内容

本发明所要解决的技术问题之一在于提供了一种如何提取可用于视频文字描述自动生成的视频语义信息的视频属性表示学习方法。

本发明所要解决的技术问题之二在于提供了一种如何将提取到的视频语义信息与现有视频文字描述自动生成编解码模型融合,以提高最终生成文字描述的质量的视频文字描述自动生成方法。

本发明是通过以下技术方案解决上述技术问题之一的:一种视频属性表示学习方法,用于提取可用于视频文字描述自动生成的视频语义信息,包括下述步骤:

步骤1)收集一批数据用于视频文字自动描述算法的训练与测试,数据要求每个视频对应几句对应的文字描述;

步骤2)本发明定义训练集中的文字描述内容中出现的所有的名词、动词、和形容词作为对应视频的属性标注信息,则训练集中的每个视频都对应多个属性标签,因此视频的属性表示学习即可看作视频的多分类问题;

步骤3)直接对视频序列做多分类训练是极为困难的,为了解决此问题,本发明设计一种新颖高效的视频表示算法,可将一段视频序列表示为单幅图像,从而将复杂困难的视频序列多分类问题转化为较为简单的单幅图片多标签分类问题

微信客服
迈科技微信号

打开微信
“扫一扫”