文本到视频:网络视频的语义搜索引擎外文翻译资料-外文翻译网

英语原文共 16 页，剩余内容已隐藏，支付完成后下载完整资料

文本到视频:网络视频的语义搜索引擎

摘要语义搜索或文本到视频搜索是信息和多媒体检索中的一个新的、具有挑战性的问题。现有的解决方案主要限于文本到文本匹配，其中查询词与用户生成的元数据匹配。这种文本到文本的搜索虽然简单，但功能有限，因为它无法理解视频内容。本文介绍了一种最先进的事件搜索系统，没有任何用户生成的元数据或示例视频，称为文本到视频搜索。该系统依赖于大量视频内容的理解，并允许在大量视频中搜索复杂事件。所提议的文本到视频搜索可以用来增加现有的文本到文本搜索的视频。通过对2014年NIST TRECVID的评价，验证了该方法的新颖性和实用性。我们的观察和经验教训是建立这样一种先进的系统，这可能有助于指导未来的视频搜索和分析系统的设计。

1介绍

多媒体数据的爆炸式增长正在对社会的许多方面产生影响。大量累积的视频数据给有效的多媒体搜索带来了挑战。现有的解决方案，如YouTube上所显示的，主要限于文本匹配，查询词与由上传者生成的用户生成元数据相匹配。这个解决方案虽然很简单，但当这些元数据丢失或与视频内容无关时，就证明是无效的。另一方面，基于内容的搜索可以搜索视频内容中自动检测到的人物、场景、对象和动作等语义特征。由TRECVID社区发起的具有代表性的基于内容的检索任务被称为多媒体事件检测(MED)。任务是在不使用任何用户生成元数据的情况下，在视频剪辑中检测主事件的发生。感兴趣的活动大多是日常活动，从“生日派对”到“换车胎”。本文讨论了一个名为0Ex搜索的设置，在这个过程中，查询中没有给出相关的视频。0Ex提供了一个文本到视频的搜索方案，它依赖于大量的视频内容理解，而不是传统方法中的浅文本匹配。查询词是预期在相关视频中出现的语义特征。1、“生日聚会”的主题查询可能包括视觉概念“蛋糕”、“礼物”、“孩子”、“生日歌”和“欢呼声”。0Ex还允许灵活的语义搜索，如时间或布尔逻辑搜索。

例如，搜索打开礼物的视频，然后再吃生日蛋糕。本文详细介绍了一种名为ELamp Lite的先进的0Ex系统，根据国家标准与技术研究院(NIST)的数据，该系统在2014年的TRECVID中获得了20万次网络视频的最佳性能。TRECVID由NIST提供资金，并得到了美国其他政府机构的支持，这是一项基于量化的评估的目标。这一年度评估吸引了学术界和业界的全球参与者。2014年的评估是在大约20万个网络视频中进行的。评估是严格的，因为:(1)每个系统只能提交单个运行;(2)每个运行必须在收到查询后1小时生成;(3)MED14Eval数据集的地面真值数据即使在评估之后也不会被释放;(4)一些查询是在线生成的，并且事先不知道系统的情况。由于数据的大小和严格的评价协议，其结果应该反映出一个系统的真实世界问题。我们的性能大约是第二系统的三倍。出色的性能归功于我们合理的管道和有效的组件。我们分享我们的观察和经验教训，在建筑，例如，艺术系统。这是有价值的，因为不仅在设计和进行大量实验的努力，还有大量的计算资源使实验成为可能。例如，构建语义探测器需要花费超过120万个CPU核心小时，如果它运行在单个核心上，则相当于140年。我们相信共享的经验可以极大地节省时间和计算周期，为其他对这个问题感兴趣的人。NIST的杰出表现是对所提出的系统的新颖性和实用性的令人信服的展示。具体地说，本文的新颖性包括系统设计的解决方案和对语义视频搜索的一些实证研究。所讨论的技术也可能有益于其他相关的任务，如视频摘要和推荐。综上所述，本文的贡献有两方面:

——我们分享我们的意见和教训，建立一个先进的0Ex事件搜索系统。

——我们的试点研究为事件搜索的模式贡献、语义映射方法和检索模型的比较提供了令人信服的见解。

2相关工作

多媒体事件检测是一个有趣的问题。已经提出了一些研究来解决这个问题，使用几个训练例子(通常是10或100个例子)[3,9,11,14,19,35,39,41,43,49]。一般来说，在最先进的系统中，事件分类器是由低级和高级特性进行训练的，最终的决策来自于单个分类结果的融合。例如，Habibian等发现了一些关于训练分类器的有趣的观察，只有语义概念的特征。通过子类判别分析，学习了线性SVMs的表示，得到了1-2个数量级的加速。Wang等在2012年的TRECVID中讨论了一个值得注意的系统，其特点是将特征选择应用于所谓的运动相对性特征。Oh等提出了一种潜在的SVM事件检测或支持时间证据定位。Jiang等提出了一种从数据中学习“最优”空间事件表示的有效方法。事件检测与零训练检查，称为0Ex。它类似于一个真实的视频搜索场景，用户通常在没有任何示例视频的情况下开始搜索。0Ex是一个未被充分研究的问题，最近才提出了很少的研究[6,10,18,20,21,25,28,45]。Dalton等讨论了概念和文本检索的查询扩展方法。Habibia等.通过结合单个概念的标签数据进行训练的复合概念，提出了索引视频。Wu等介绍了一种语义概念和文本特征的多模式融合方法。在一组有标记的视频中，Mazloom等讨论了一种检索方法，将标签传播到未标记的视频中，以便进行事件检测。Jiang等研究了伪关联反馈方法，有效地提高了原始检索结果。现有的相关作品激励了我们的系统。然而，据我们所知，没有关于0Ex系统架构的研究，也没有对每个组件的分析。另一个相关的研究课题叫做“零射学习”，目标是学习一种分类器，它可以预测训练集中省略的新类。它本质上是一个多类分类问题，不可见类的训练示例数量为零。一般来说，零距离学习和零样本搜索是相关的，而一些方法，如本文所评估的向量嵌入，可以在两个问题中使用。

因此，本文提出的一些技术也可以用于0 -shot学习。然而，这两个问题之间存在着许多不同之处。首先，在多级分类设置中设置零炮学习。学习一个分类器，它可以独立的看到和看不见的类。相反，零示例搜索是一项检测任务，即从可能不属于任何类的背景视频中找到相关视频。其次，类定义的粒度是不同的。0 -shot学习中的类通常是可视对象。有些对象可能没有任何训练数据，因为很难收集，例如，我们可以使用“dog”和“horse”的训练示例来对“cat”进行分类。无论如何，由于视觉类的数量有限，仍然有可能为不可见的类收集训练数据。然而，zero-example搜索中的“类”(查询)通常是一个复杂的事件，其中包含许多对象、场景、人员等。我们用“街道”、“群众”、“游行”、“旗帜”、“步行”来检测“游行”。由于用户信息需求总是可以变得更具体，例如从“游行”到“户外游行”，所以不可能获得每个“类”的培训数据。从“市区的户外游行”到“在市区的户外游行，我们看到一个小女孩在哭”。第三，课程的复杂性是不同的。zero-example学习中的类定义更复杂，因为它可以包含人物、对象、动作等的逻辑和时间关系。例如，用户可以像“在看到狗或猫后停止哭泣”这样的查询。注意，在这个复杂的查询中，用户显式地使用了布尔逻辑运算符“或”和时间运算符。

3框架

在视频中的语义搜索可以被建模为一个典型的检索问题，在其中给定一个用户查询，我们有兴趣返回一个相关视频的排名列表。该系统包括视频语义索引(VSIN)、语义查询生成(SQG)、多模态搜索和伪关联反馈(PRF)/fusion等四个主要组件，其中VSIN为离线索引组件，其余为在线搜索模块。VSIN组件从输入视频中提取语义特征，并对其进行索引以进行高效的在线搜索。通常情况下，视频剪辑首先由低层次的特征来表示，例如密集的轨迹特征，用于视觉模式或深度学习特征。然后将低层特性输入到现成的检测器中以提取高级特性。高级别特征的每个维度都对应于在视频中检测语义概念的信心得分。

由于底层特性，高级特性具有更低的维度，这使得它们对存储和计算都具有经济意义。视觉/音频概念、自动语音识别(ASR)和光学字符识别(OCR)是系统中的四种高级功能，其中ASR和OCR是文本特征。ASR为具有声学证据特征的事件提供补充信息。它特别有利于近镜头和叙事性活动，如“市政厅会议”和“问路”。OCR在低回忆但精度高的视频中捕捉角色。被识别的字符通常不是有意义的单词，但有时可能是细粒度检测的线索，例如区分“婴儿淋浴”和“婚礼淋浴”。高级特征词典词汇的结合构成了系统词汇。用户可以以各种形式表达查询，比如一些概念名称、一个句子或一个结构化的描述。NIST以事件-kit描述的形式提供了一个查询，其中包括名称、定义、解释和可视化/声学证据(见图2的左角)。SQG组件将用户查询转换为多模式系统查询，所有这些词都存在于系统词汇表中。由于词汇量通常是有限的，解决词汇问题是SQG面临的主要挑战。用户和系统查询之间的关系通常是在一个本体(如WordNet和Wikipedia)的帮助下实现的。例如，一个用户查询“黄金猎犬”可能会翻译成它最相关的“大型狗”，因为在系统词汇表中可能不存在原始的概念。给定系统查询，多峰搜索组件的目标是检索每个模式的排序列表。作为一项试点研究，我们有兴趣利用研究好的文本检索模型进行视频检索。为了适应语义特征和文本特征之间的差异，我们对多种语义特征的经典检索模型进行了实证研究。然后我们将模型应用到它最合适的模式。这样做的一个显著好处是，它可以轻松地利用最初设计用于文本检索的现有基础结构和算法。PRF(也被称为“重播”)通过重新播放其视频来优化排名列表。一个通用的PRF方法首先选择一些反馈视频，并给它们分配假定的正或负的标签。由于没有使用地面真值标签，假定的标签被称为伪标签。然后使用伪样本来构建一个重新运行模型，以改进最初的排序列表。最近的一项研究表明，重新运行的模型可以被建模为一个自定进度的学习过程，在这个过程中，重新运行的模型会从简单到更复杂的样本中迭代地构建。简单的样本是排名在顶部的视频，通常比排名较低的视频更有相关性。除了PRF外，标准的后期融合应用于我们的系统。

4系统实现

魔鬼在细节之中。谨慎的实现常常成为许多系统的基石。为此，本节将详细讨论每个组件。

4.1大规模语义索引

概念探测器可以在静止图像或视频上进行训练。由于最小的域差异和动作和音频检测的能力，后者更可取。在我们的系统中，一个可视的/音频的概念被表示为一个多模态的文档，其中包括一个名称、描述、类别、可靠性(精确度)和顶部检测到的视频片段的例子。这个定义为用户的概念提供了更具体的理解。语义检测器的数量(相关性)和质量是影响性能的两个关键因素。相关性是通过对概念词汇表对查询的覆盖来度量的，因此查询依赖。为了方便起见，我们将其命名为质量，因为一个较大的词汇表倾向于增加覆盖率。质量是由探测器的精确度来评估的。由于资源有限，在质量和数量之间存在取舍，即建造许多不可靠的探测器，而不是建造几个可靠的探测器。当有几个训练例子的时候，这个权衡就被研究了。本文提出了一种新的理解，即在没有训练的情况下，如何权衡取舍。这些观察表明，训练更合理准确的探测器往往是一种明智的策略。

大规模视频数据集的训练探测器增加了数量和质量。但事实证明这相当具有挑战性。我们从两个方面着手解决这个具有挑战性的问题。在理论方面，探索了一种新的、有效的自定进度课程学习方法。我们的想法是，相对于一次使用所有样本来训练一个探测器，我们在平衡的数据子集上反复训练复杂的探测器。在每个迭代中选择要训练的样本的方案由一个正则化器控制[16,17,24]，并且可以方便地替换以适应各种问题。在实际方面，通过在大型共享内存机器中存储内核矩阵来优化模块。这个策略在训练中提高了8倍的速度，使我们能够训练3000个探测器，超过200万个视频(和视频片段)。在实践中，为了索引大量的视频数据，探测器需要是线性模型(线性支持向量机或逻辑回归)，非线性模型必须是第一个转换成线性模型(例如:通过显式特征映射[42]。ASR模块是在Kaldi上建立的，通过在视频上使用扬声器自适应训练[29,30,32]来训练HMM/GMM声学模型。为了加速解码，trigram语言模型进行了大幅度的修剪。OCR是由一个商业工具箱提取的。高级特性被索引。ASR和OCR的置信分数被丢弃，而这些单词被标准的反向索引索引。视觉/音频的概念被稠密的矩阵编入索引以保存他们的检测分数。

4.2语义查询的一代

SQG将用户查询转换为多模式系统查询，该查询只包含系统词汇表中的单词。输入用户查询的形式是由国家标准和技术研究所(NIST)提供的。表1显示了事件“E011做三明治”的用户查询(事件组件描述)。其对应的

ing系统查询(手动检查)如表2所示。实际上，正如我们所看到的，SQG是非常具有挑战性的，因为它涉及对用自然语言编写的描述的理解。SQG的第一步是解析查询中的否定，以识别反例。识别的示例可以被丢弃，也可以与系统查询中的“NOT”操作符关联。鉴于TRECVID提供

用户查询以事件-kit描述的形式(见图2的左下角)，事件可以用事件名称(1-3个词)或eventkit描述中的常用单词(删除模板和停止单词后)表示。这些表示可以直接用于ASR/OCR的系统查询，因为它们的词汇量足够大，可以覆盖大部分单词。对于视觉/音频概念，表示用于将词汇表外查询词映射到系统词汇表中最相关的概念。由于概念之间的复杂关系，SQG中的映射具有挑战性。概念之间的关系包括互斥、包容和频繁共存。例如，“云”和“天空”经常是共同出现的概念;“狗”是“terrier”，而“blank frame”则不包括“dog”。我们的系统包括以下映射算法来将用户查询中的一个单词映射到系统词汇表中的概念:准确的单词匹配一个简单的映射是匹配准确的查询词(通常是在词根之后)与概念名称或描述相匹配的。一般来说，对于无歧义的词，它具有较高的精度和低的召回率。WordNet映射这个映射计算两个单词之间在WordNet分类法中的距离的相似度。这个距离可以用不同的方式来定义，比如层次结构的深度，或者同义字之间的共享重叠部

全文共13314字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[13497]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

文本到视频:网络视频的语义搜索引擎外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章