J. Vis. Commun. Image R. 24 (2013) 729–738
Contents lists available at SciVerse ScienceDirect
J. Vis. Commun. Image R.
jou r n a l h o m ep ag e: www. el sevi er .com /l oca t e / j v ci
Online video summarization on compressed domain
Jurandy Almeida uArr;, Neucimar J. Leite, Ricardo da S. Torres
Institute of Computing, University of Campinas – UNICAMP, 13083-852 Campinas, SP, Brazil
a r t i c l e i n f o
Article history:
Available online 20 January 2012
Keywords:
Video abstraction Video summary Video skimming Compressed domain
Progressive generation Online processing TRECVID 2007
BBC rushes summarization
a b s t r a c t
Recent advances in technology have increased the availability of video data, creating a strong require- ment for efficient systems to manage those materials. Making efficient use of video information requires that data to be accessed in a user-friendly way. Ideally, one would like to understand a video content, without having to watch it entirely. This has been the goal of a quickly evolving research area known as video summarization. In this paper, we present a novel approach for video summarization that works in the compressed domain and allows the progressive generation of a video summary. The proposed method relies on exploiting visual features extracted from the video stream and on using a simple and fast algorithm to summarize the video content. Experiments on a TRECVID 2007 dataset show that our approach presents high quality relative to the state-of-the-art solutions and in a computational time that makes it suitable for online usage.
。 2012 Elsevier Inc. All rights reserved.
- Introduction
Advances in data compression, data storage, and data transmis- sion have facilitated the way videos are created, stored, and dis- tributed. The increase in the amount of video data has enabled the creation of large digital video libraries. This has spurred great interest for systems that are able to efficiently manage video mate- rial [1–3].
Making efficient use of video information requires that data to be accessed in a user-friendly way. For this, it is important to pro- vide users with a concise video representation to give an idea of a video content, without having to watch it entirely, so that a user can decide whether watch the entire video or not. This has been the goal of a quickly evolving research area known as video summarization [4,5].
Different techniques have been proposed in the literature to ad- dress the problem of summarizing a video sequence [6–16]. Many of those research works have focused on the uncompressed domain. Although existing approaches produce summaries with acceptable quality, they are extremely time-consuming and re- quire a huge amount of space. For those reasons, such methods are unsuitable for online usage and, hence, the video summaries are often produced completely off-line, stored, and delivered to a user when requested.
A few methods to cope with the video summarization problem have explored the compressed domain as an alternative to speed up the computational performance [17,18,20,19]. In spite of the
uArr; Corresponding author. Fax: 55 19 3521 5847.
E-mail addresses: jurandy.almeida@ic.unicamp.br (J. Almeida), neucimar@ic. unicamp.br (N.J. Leite), rtorres@ic.unicamp.br (R. da S. Torres).
efficiency of those strategies, the content analysis is usually carried out with the complete availability of all the data and, therefore, is limited to the off-line operation mode.
For the online production of a video summary, it is necessary a solution which executes both efficiently and progressively. With the fulfillment of those conditions, video summaries can be gener- ated during the loading of video data and, hence, they are made in- stantly available to users. In this way, it is possible to provide a partial output at any time, so that a user is able to watch a sum- mary while processing the video.
In this paper, we present a novel approach for video summari- zation that operates directly in the compressed domain. It relies on exploiting visual features extracted from the video stream and on a simple and fast algorithm to summarize the video content. The proposed method was designed to process a video sequence and generate the output summary in a progressive fashion. The improvement of the computation makes our technique suitable for producing both static and dynamic summaries in online tasks.
We evaluate the proposed algorithm on a TRECVID 2007 dataset (BBC rushes summarization task) and compare our technique with the state-of-the-art approaches for video summarization. The experiments were diligently designed to ensure statistical signifi- cance. Results show that our method produces video summaries with high quality and computational speed.
A preliminary version of this work was presented at ISM 2010 [21]. Here, we introduce several innovations. First, we redesign the proposed method for producing dynamic video summaries. Additionally, we present an in-depth discussion of the state-of- the-art solutions. Finally, we report new experiments both for the analysis of our approach and for the comparison with other techniques.
1047-3203/$ - see front matt
剩余内容已隐藏,支付完成后下载完整资料
压缩域上的在线视频摘要
1.简介
数据压缩,数据存储和数据传输方面的进步促进了视频创建,存储和分发的方式。视频数据量的增加使得能够创建大型数字视频库。这激发了对能够有效管理视频材料的系统的极大兴趣。要有效使用视频信息,需要以用户友好的方式访问数据。为此,向用户提供简明的视频表示形式以便提供视频内容的概念非常重要,而无需完全观看,以便用户可以决定是否观看整个视频。这一直是快速发展的视频摘要研究领域的目标。
文献中提出了不同的技术来解决总结视频序列的问题。许多研究工作都集中在未压缩的领域。尽管现有的方法能够产生质量可接受的摘要,但它们非常耗时且需要大量的空间。由于这些原因,这些方法不适合在线使用,因此,视频摘要通常完全离线,存储并在需要时交付给用户。一些应对视频摘要问题的方法已经探索了压缩域作为加速计算性能的替代方法。 尽管这些策略的效率很高,但内容分析通常是在所有数据完全可用的情况下进行的,因此仅限于离线操作模式。
对于在线制作视频摘要,有必要提供一种既能高效又能逐步执行的解决方案。在这些条件满足的情况下,视频摘要可以在加载视频数据的过程中生成,因此它们可以随时为用户提供。通过这种方式,可以随时提供部分输出,以便用户能够在处理视频时观看总结。
在本文中,我们提出了一种直接在压缩域中操作的视频总结新方法。它依靠利用从视频流中提取的视觉特征和简单而快速的算法来总结视频内容。所提出的方法被设计为处理视频序列并以渐进方式生成输出摘要。计算的改进使我们的技术适用于在线任务中生成静态和动态摘要。
我们在TRECVID 2007数据集(英国广播公司奔忙总结任务)上评估所提出的算法,并将我们的技术与最先进的视频摘要方法进行比较。这些实验经过精心设计,以确保统计显着性。结果表明,我们的方法产生具有高质量和计算速度的视频摘要。这项工作的初步版本在ISM 2010上发表。 在这里,我们介绍几项创新。 首先,我们重新设计制作动态视频摘要的方法。 此外,我们还对最先进的解决方案进行了深入讨论。 最后,我们报告了新的实验,用于分析我们的方法并与其他技术进行比较。
本文的其余部分安排如下。 第2节介绍视频摘要问题的一些基本概念,并介绍相关工作。 第3节简要回顾了视频数据的组织。 第4节介绍了我们的方法,并展示了如何将其应用于总结视频序列。 第5部分报告了我们实验的结果,并将我们的技术与其他方法进行了比较。 最后,我们为第6节的未来工作提供结论和方向。
2.基本概念和相关工作
视频摘要是视频序列的简短版本。 有两种不同的视频摘要:静态视频故事板,它是从原始视频中提取的视频帧的集合; 和动态视频浏览,这是一组短视频剪辑,按顺序连接起来,并作为视频播放。
对视频故事板进行视频浏览的一个优势是能够包含音频和动作元素,这些元素可能会增强摘要的表现力和信息。 另外,观看视频短片通常比幻灯片放映更具娱乐性和趣味性。 另一方面,由于它们不受任何时间或同步问题的限制,一旦提取了视频帧,就有进一步组织它们用于浏览和导航目的的可能性,而不是严格的顺序显示视频短片。
接下来将讨论先前发表的方法中的一些主要思想和结果。 在本文中,我们将重点放在视频摘要技术上,该技术可从长视频序列中生成短视频剪辑,也称为视频短片。大多数现有的动态视频摘要方法都集中在未压缩域。 由于花费了很长时间解码和分析视频序列,摘要通常完全离线,存储并在需要时交付给用户。 脱机生产(全部或部分)旨在减少分析视频所有帧的计算时间。 通常这些帧被转换成一个巨大的矩阵,其中包含从每个帧中提取的所有特征。 由于这些原因,这种方法不适合在线操作模式。
Kleban等人通过采用高级特征融合引入了一种应对视频摘要问题的方法。 最初,应用预采样步骤以丢弃大量冗余信息,仅取一部分视频帧。 接下来,从剩余的帧中提取五个高级特征。 之后,组合这些特征的最佳权重通过梯度下降方法导出。 最后,加权k-均值算法被用来识别构成最终总结的最重要的部分。
Pan等人提出了一种基于镜头边界检测算法的视频摘要技术。 在开始时,通过比较连续帧的颜色直方图来检测镜头边界。 之后,使用聚类方法将相似的镜头组合在一起,并为每个组选择一个代表镜头,以消除重复的镜头。 然后根据选定的片段的重要性将其压缩成视频摘要。
Le和Satoh提出了一种聚类算法来对具有相似颜色的视频帧进行分组。 最初,视频序列通过将基于颜色矩的相似帧分组而分解成片段。 接下来,GreedyRSC方法被用于聚集这些片段。 之后,他们将属于同一集群的连续碎片组合成段。 然后,合并相邻的段以减少冗余。 最后,选择最长段的一部分帧来制作视频摘要。
Putpuek等人开发了一种基于颜色直方图将输入视频分成镜头的类似方法。 为此,文献中的算法用于确定镜头边界。 之后,他们应用GreedyRSC方法合并相邻镜头,从而减少冗余。 最后,只有每个群集运动最高的部分才包含在最后的总结中。Bredin等人。介绍了一种基于主成分分析(PCA)的视频摘要方法。首先,使用连续帧的颜色直方图之间距离的自适应阈值来执行镜头边界检测。接下来,PCA在由所有颜色直方图形成的特征帧矩阵上执行,从而获得另一个矩阵,其中每个列向量表示特征空间中的一帧。之后,使用已定义特征空间中最具代表性的组件创建内容地图。通过这种方式,每个镜头在这样一个内容图上用一个“足迹”表示,这表明其内容的重要性。最后,选择最相关的镜头来组成视频摘要。
Chasanis等人提出了一种使用谱聚类和序列比对的相似方法。最初,输入视频通过比较连续帧的颜色直方图来分割成镜头。之后,采用增强的谱聚类算法来选择每个镜头中最有代表性的帧。此后,通过使用序列比对算法比较这些帧,将相似的镜头组合在一起。每个组都由持续时间最长的镜头来表示。最后,通过围绕每个镜头的代表帧拍摄视频摘要。
由于视频数据通常以压缩形式提供,因此希望直接处理压缩视频而不进行解码。它使我们能够在完全解码视频流时节省很高的计算负担。
尽管已经提出了许多技术来解决视频总结问题,但是只有很少的技术直接操纵压缩数据。这些算法大部分都是为特定领域设计的,如体育,音乐和新闻。关注某个特定领域有助于在分析过程中通过应用领域的先验知识来分析视频的内容时降低模糊程度。
Chew和Kankanhalli将压缩域中描述的视频摘要技术扩展到。最初,通过从DC图像的亮度值计算颜色直方图,将每帧转换为64维特征向量。之后,将视频序列统一分割为固定大小的单位,然后根据它们的第一帧和最后一帧之间的相似性为每个单元定义单位更改值。接下来,根据预定义的阈值对所有这些值进行排序并分类为两个聚类(即,小变化和大变化)。此后,对于小变化群集中的单元,仅提取第一帧和最后一帧作为代表性帧,而对于大变化群中的单元,所有帧都保留为代表性帧。最后,保留的帧被重新组合为一个新的视频,并且该算法递归地迭代直到达到视频摘要的期望长度。
Peker和Divakaran介绍了一种基于视频运动的回放速度自适应视频总和的方法。为此,运动较少的部分视频播放速度快于运动较多的部分。然而,这种方法会严重降低一致性,给观看者带来不适,因为它只是根据视频内容增加帧速率。
Benini等人。提出了一种技术来处理视频摘要问题,将来自故事结构的信息与视频镜头运动动态特征相结合。 通过部分解码视频流,他们计算出一个运动描述符,用于估计每个镜头对视频摘要的贡献。 接下来,使用一连串隐马尔可夫模型(HMM)来模拟拍摄序列。 最后,视频摘要作为观察序列生成,其中动态镜头的概率更高。Herranz和Martiacute;nez[20]提出了基于聚类和排序的摘要算法。 最初,从每个GOP的I帧的DC图像中提取颜色布局描述符。 接下来,通过比较连续GOP的特征向量之间的不相似度,将输入序列划分为视频镜头。 之后,使用聚类方法将镜头分组为聚类。 最后,使用交互排序过程来获得视频摘要,其中群集被递增排序和选择。
所有这些方法所共有的一个方面是在汇总制作之前有整个视频的必要性。 虽然直接在压缩域中操作的现有技术非常有效,但它们都假定视频内容的完整可用性和无限制时间来生成视频摘要。 因此,它们被限制在离线操作模式下。
与上述所有技术不同的是,所提出的方法旨在弥补这种差距。 我们技术的关键优势在于逐步生成视频摘要,因为它不需要先验地提供所有数据,这使得它适合在线使用。 此外,我们的方法是设计总结通用视频,因此它不会使用视频内容之外的任何特定信息。
参考文献:
[1] A. Hampapur, A. Gupta, B. Horowitz, C.-F. Shu, C. Fuller, J.R. Bach, M. Gorkani, R. Jain, Virage video engine, in: Proceedings of the SPIE International Conference on Storage and Retrieval for Image and Video Databases, 1997, pp. 188–198.
[2] S.-F. Chang, W. Chen, H.J. Meng, H. Sundaram, D. Zhong, A fully automated content-based video search engine supporting spatio-temporal queries, IEEE Transactions on Circuits Systems and Video Technology 8 (5) (1998) 602–615.
[3] D.B. Ponceleon, S. Srinivasan, A. Amir, D. Petkovic, D. Diklic, Key to effective video retrieval: Effective cataloging and browsing, in: Proceedings of the ACM International Conference on Multimedia (ACM MMrsquo;98), 1998, pp. 99–107.
[4] B.T. Truong, S. Venkatesh, Video abstraction: a systematic review and classification, ACM Transactions on Multimedia Computing, Communications, and Applications 3 (1) (2007) 1–37.
[5] A.G. Money, H.W. Agius, Video summarization: a conceptual framework and survey of the state of the art, Journal of Visual Communication and Image Representation 19 (2) (2008) 121–143.
[6] J. Kleban, A. Sarkar, E. Moxley, S. Mangiat, S. Joshi, T. Kuo, B.S. Manjunath, Feature fusion and redundancy pruning for rush video summarization, in: Proceedings of the ACM International Workshop on Video Summarization (TVSrsquo;07), 2007, pp. 84–88.
[7] C.-M. Pan, Y.-Y. Chuang, W.H. Hsu, NTU TRECVID-2007 fast rushes summarization system, in: Proceedings of the ACM International Workshop on Video Summarization (TVSrsquo;07), 2007, pp. 74–78.
[8] D.-D. Le, S. Satoh, National institute of informatics, japan at TRECVID 2007: BBC rushes summarization, in: Proceedings of the ACM International Workshop on Video Summarization (TVSrsquo;07), 2007, pp. 70–73.
[9] N. Putpuek, D.-D. Le, N. Cooharojananone, S. Satoh, C. Lursinsap, Rushes summarization using different redundancy elimination approaches, in: Proceedings of the ACM International Workshop on Video Summarization (TVSrsquo;08), 2008, pp. 100–104.
[10] J.C.S. Yu, M.S. Kankanhalli, P. Mulhen, Semantic video summarization in compressed domain MPEG video, in: Proceedings of the IEEE International Conference on Multimedia and Expo (ICMErsquo;03), 2003, pp. 329–332.
[11] W.-N. Lie, C.-M. Lai, News video summarization based on spatial and motion feature
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[22822],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。