中文题名: |
多模态特征融合的视频记忆度预测研究 |
姓名: | |
学号: | 1049721801570 |
保密级别: | 公开 |
论文语种: | chi |
学科代码: | 081200 |
学科名称: | 工学 - 计算机科学与技术(可授工学、理学学位) - 计算机科学与技术 |
学生类型: | 硕士 |
学位: | 工学硕士 |
学校: | 武汉理工大学 |
院系: | |
专业: | |
研究方向: | 机器学习 |
第一导师姓名: | |
第一导师院系: | |
完成日期: | 2021-06-10 |
答辩日期: | 2021-06-25 |
中文关键词: | |
中文摘要: |
随着网络视频的爆炸式增长,各种各样的视频出现在互联网共享平台。有研究表明人类对所观看视频的记忆程度并不一样,一些视频可以被记住很长时间,而另一些视频转瞬即忘。视频记忆度是衡量一个视频令人难忘程度的指标,设计自动预测视频记忆度的计算模型有广泛的应用前景。因此如何有效地预测视频的记忆度是本文研究的主要内容。 记忆度是图像的固有属性,人类在记忆上有共同的喜好。与图像不同的是,视频是图像、声音、文字、运动信息等维度的综合表现形式,传达了更丰富的媒体内容,因此视频记忆度预测任务受到了更多因素的影响。由于单模态的预测模型无法全面地描述视频的记忆度,导致实际应用中视频的记忆度预测性能不佳。因此本文以视频为研究对象,探索了视频的文本标题、图像深度、运动信息等维度的特征对视频记忆度的影响。构建有效的视频记忆度预测模型来提高视频记忆度的预测性能是本文的主要工作,具体的研究内容如下: (1)为了研究视频标题和图像深度信息对视频记忆度的影响,提出了一个融合文本和深度视觉特征的视频记忆度预测模型。首先利用TF-IDF算法从视频的描述性标题中提取文本特征,并给予对视频记忆度有影响的单词一定的权重。其次对视频进行分帧预处理,利用深度估计模型提取深度图作为视频的深度信息,利用预训练的ResNet-152网络来提取视觉特征,并利用深度图数据集微调ResNet-152网络模型来提取深度特征,将深度特征和视觉特征进行拼接得到深度视觉特征。然后将文本特征和深度视觉特征分别使用回归算法来预测视频记忆度分数,利用晚融合中的加权平均法进行模态融合。最后在公开的数据集上进行相关方法的对比实验,在短期和长期记忆度预测任务中分别达到了0.547和0.260的Spearman秩相关性,证明了模型的有效性。 (2)为了解决现有的视频记忆度预测模型无法很好的描述运动信息对视频记忆度的影响,进一步提高视频记忆度的预测效果,在现有的融合文本和深度视觉特征的视频记忆度预测模型中添加了运动特征维度,通过光流的形式进行运动信息的描述,进而提出了一个融合文本、图像深度和光流信息的多模态视频记忆度预测模型。首先利用光流估计模型来提取光流图,并利用光流图数据集微调ResNet-152网络模型来提取光流特征,然后将三个维度的特征在单模态下利用回归算法来预测视频记忆度分数,最后对三种模态的记忆度分数进行晚融合处理,在公开的数据集上开展了一系列对比实验,在短期和长期记忆度预测任务中分别达到了0.567和0.272的Spearman秩相关性,证明了多模态特征融合方法在视频记忆度预测任务中的提升效果。 (3)将本文提出的多模态特征融合的视频记忆度预测模型应用于某企业的网络编码推流器,进行广告记忆度的预测。对广告记忆度预测模块进行了分析与设计,以手机广告为例进行了视频记忆度预测实验,并对实验结果进行了分析,证明了本文提出的模型可以有效预测不同广告的记忆度。 |
参考文献: |
[40] 王帅,王维莹,陈师哲,等.基于全局和局部信息的视频记忆度预测[J]. 软件学报, 2020,31(07):1969-1979. [44] 施聪莺,徐朝军,杨晓江.TF-IDF算法研究综述[J]. 计算机应用, 2009, 6(29):167-170. [45] 叶雪梅,毛雪岷,夏锦春,等.文本分类TF-IDF算法的改进研究[J]. 计算机工程与应用, 2019, 55(02):104-109. [52] 王兴玲,李占斌.基于网格搜索的支持向量机核函数参数的确定[J]. 中国海洋大学学报(自然科学版), 2005(05):169-172. [53] 奉国和.SVM分类核函数及参数选择比较[J]. 计算机工程与应用, 2011, 47(003):123-124. [54] 王健峰,张磊,陈国兴,等. 基于改进的网格搜索法的SVM参数优化[J]. 应用科技, 2012, 000(003):28-31. |
中图分类号: | TP391.41 |
条码号: | 002000062962 |
馆藏号: | TD10049615 |
馆藏位置: | 403 |
备注: | 403-西院分馆博硕论文库;203-余家头分馆博硕论文库 |