视频图像检索研究进展

资源类型:pdf 资源大小:293.00KB 文档分类:艺术 上传者:胡世群

相关文档

批量下载下列文档

文档信息

【作者】 王莲  张学福 

【关键词】图像检索 视频图像 镜头 

【出版日期】2005-04-25

【摘要】图像检索在信息检索领域是研究热点之一,论文从视频数据的基本组成部分,镜头的切换、运动和检测,镜头内容表示和目标切割等方面对视频图像检索进行了较全面的论述。

【刊名】现代情报

全文阅读

1 视频数据的结构视频数据包括幕、场景、镜头和帧。1 1 帧 (frame)是一幅静态的图像 ,是组成视频的最小逻辑单元 ,将时间上连续的帧序列按等间隔连续播放 ,就形成了动态视频。关键帧是最能代表镜头的特殊的帧 ,关键帧可以是一个 ,也可以是多个帧的集合。1 2 镜头 (shot)是由一系列帧组成的一段视频 ,它描绘同一场景 ,表示的是一个摄像机动作 ,一个事件或连续的动作。1 3 场景 (scene)包含有多个镜头 ,针对的是同一环境下的同一批对象 ,但拍摄的角度不同、表达的含义不同 ,它是由一系列相关的场景组成一个故事情节。特殊的情况下 ,一个场景可以只包含一个镜头。1 4 幕 (act)又称为视频节目 (program) ,是由一系列相关的场景组成的一段视频 ,包含一个完整的事件或故事。任何视频都是由一个个镜头衔接起来的 ,因此镜头是视频检索的基本单元 ,往下就是镜头中对象的运动或图像帧 ,往上是场景。为了检索需要 ,必须将视频分成一幕幕或一个个场景以及一个个镜头 ,因此对视频中的镜头划分是视频处理中最基本的内容。2 镜头的切换镜头切换是指一个镜头到另一镜头的转换 ,镜头切换主要有突变和渐变两种。突变是指一个镜头与另一个镜头之间没有过渡 ,由一个镜头的瞬间直接转换到另一个镜头的方法 ,即一个镜头猛然切换到另一镜头 ,也叫直接切换。直接切换可使画面的情节和动作发生直接的跳跃 ,不存在时间上的差异 ,给人以轻快、利索的感觉。渐变是指一个镜头到另一镜头的渐渐过渡过程 ,没有明显的镜头跳跃。渐变包括淡入 (fadein)、淡出 (fadeout)、慢转换 (dissolve)、扫换 (wipe)等。将画面逐渐加强称为淡入 ,将画面逐渐关闭消失称为淡出 ;一个画面消失的同时另一个画面逐渐出现称为慢转换 ;图像从画面的某一部分开始逐渐地被另一画面取而代之的方式称为扫换。3 镜头的运动在拍摄时根据剧情的需要 ,一个镜头可以采用多种摄像机运动方式对镜头进行处理 ,这样就得到具有不同运动状态的镜头。镜头的运动包括 :摇镜头、推拉摄影、跟踪、移动镜头等。3 1 摇镜头 (panning)是指摄像机的拍摄位置不变 ,在拍摄过程中 ,以云台为轴心改变拍摄方位。3 2 推拉摄影 (zooming)是指从远处开始 ,逐渐推近到拍摄对象 ,这种镜头运动称为“推” ;从近处开始 ,逐渐地拍成全景 ,这种镜头运动称为“拉”。这两种方式可以用运动摄影的方式实现 ,也可以用变焦的方式实现。3 3 跟踪 (tracking)是指镜头跟踪着被拍摄对象移动 ,形成追踪的效果。3 4 移动镜头 (translation)是指摄像头的位置跟着拍摄对象移动 ,但不旋转角度。移动又可分为水平移动 (horizontaltranslation)和垂直移动 (verticaltranslation)。另外 ,镜头运动还包括仰视、侧视拍摄 ,近摄、远摄等。4 镜头检测视频数据是一个二维图像流序列 ,它是非结构化的。要对视频数据进行计算机管理 ,首先就需要将这样一个非结构化的图像流变成一个结构性的数据。对于视频图像数据 ,目前公认比较合适的检索单元是一段中间没有摄像机信号中断、连续拍摄得到的视频镜头。因此 ,视频图像数据分析的第一步就是镜头检测 ,然后抽取有效代表镜头内容的关键帧 ,这时可以用静态图像检索的技术来检索关键帧 ,从而达到检索视频的目的。基于内容检索的视频处理 ,首先要将视频自动地分割为镜头 ,以作为基本的索引单元 ,这个过程就称为镜头检测。镜头实际上是一段时间的视频信号 ,在这段时间内 ,摄像机可以有各种运动及变焦等操作 ,但没有摄像机信号的中断 ,因此 ,一段镜头内的图像内容不会有大的变化。但当镜头切换时 ,视频数据将发生一系列的变化 ,表现在颜色差异突然增大、对象形状的改变和运动的不连续性等各个方面 ,镜头检测的目的就是寻找这些变化的规律。镜头边界检测算法的研究是视频分析与检索中最活跃的研究领域之一 ,其算法主要可分为模板匹配法、直方图法、基于边缘的方法和基于模型的方法等 4种。模板匹配法的缺点是对噪声和镜头或物体运动非常敏感 ,因为它严格地局限于像素的位置。噪声和物体运动都会使帧间差增大 ,从而导致错误的场景切换检测。直方图法是使用得最多的计算帧间差的方法 ,它不考虑像素的位置信息 ,而使用像素亮度和色彩的统计值 ,因而抗噪声能力比模板匹配法要强。但它的缺点是 ,有时会漏掉场景切换 ,因为两幅图像可能有完全不同的结构 ,但其颜色直方图却很接近。基于边缘方法的基本思想是 ,在发生镜头切换时 ,新出现的边缘应远离旧边缘的位置 ,同样旧边缘消失的位置应远离新边缘的位置。上述 3种检测方法都是通过计算帧间差自下而上来进行镜头边界检测的 ,对于突变检测可以取得较好的效果 ,但对于渐变检测则有一定的困难 ,因为它在很大程度上忽略了渐变切换中帧之间结构上的相关性。基于模型的方法是利用对镜头编辑的先验知识 ,对各种镜头切换建立一定的数据模型 ,自上向下地进行镜头切换的检测。因此 ,这种方法对镜头渐变的检测往往能取得较好的效果。5 视频镜头内容表示目前 ,镜头的表示主要有两类方法 :关键帧表示和基于拼接技术的背景表示。5 1 基于关键帧的表示关键帧表示法是在构成镜头的图像序列中选择能描述镜头内容的关键图像 ,反映了镜头的主要内容。关键帧的选取方法很多 ,比较经典的有帧平均法和直方图平均法。帧平均法是从镜头中取所有帧在某个位置上像素值的平均值 ,然后将镜头中该点位置的像素值最接近平均值的帧作为关键帧。直方图平均法则是将镜头中所有帧的统计直方图取平均 ,然后选择与该平均直方图最接近的帧作为关键帧。这些方法的优点是 ,计算比较简单 ,所选取的帧具有平均代表意义 ;缺点是 ,从一个镜头中选取一个关键帧 ,无法描述有多个物体运动的镜头。显然 ,关键帧的选取应与镜头内容的变化有关 ,当一个镜头内部存在较大的运动时 ,用一个关键帧不能很好地代表该镜头的内容 ,常需用几个关键帧来表示。显然关键帧的选取应与镜头内容的变化有关 ,变化剧烈的镜头应以较多的关键帧表示。Zhang提出了基于视频特征变化的方法 ,在图像的累积颜色或运动变化大于某一阈值时 ,就多选取一个关键帧。Wold和Gresles则分别采用基于运动和内容相对变化的方法 ,以运动或内容相对变化在时间上的极小值点作为关键帧的位置。Zhang则用聚类的方法 ,它的基本假设是 :如果某一内容比较重要 ,就会有较多的帧来表现它 ,因此每一个大的聚类应有一个关键帧。5 2 基于图像拼接技术的背景表示关键帧是表示视频镜头的一种非常方便的方式 ,它可直接从原始视频数据中抽取出来 ,但它不可避免地会出现数据冗余 ,如选择不当 ,还有可能漏掉某些重要的内容。而融合多幅图像的背景信息通过图像拼接 (MOSAIC)技术而生成一幅全景图 ,是一种紧凑且完全的镜头背景内容表示方法。通过这种方法 ,结合运动目标提取技术 ,每个镜头片段都可以用一幅全景图和一些重要的运动目标来共同表示。这种表示方法具有数据量小 ,包含信息多的特点 ,具有较好的应用前景。与此同时 ,还可以获得摄像机运动参数及目标运动轨迹等信息 ,这些都是理解视频内容的重要线索。视频图像拼接技术的关键是对摄像机运动的估计。摄像机运动参数除了可用于图像拼接 ,也可直接用作描述镜头的特征 ,或检索。由于 3 D场景下任意的摄像机运动估计非常困难 ,因此一般算法都对场景或摄像机运动作了某些限制 ,以使两图像帧之间的坐标变换可用某种简单的参数模型表达。例如包含平移、旋转及尺度变化的 4参数模型。视频图像拼接技术的困难还在于 :5 2 1 由于视频图像数量很多 ,虽然相邻帧间的运动估计可能很准确 ,最终的累积误差却很大。Irani用动态拼接方法来解决此问题 ,即每帧图像都与前面生成的拼接图配准 ,而不是与原来的前一帧图像配准。5 2 2 视频图像中常包含目标运动 ,它们会对摄像机运动的估计产生影响 ,一般采用鲁棒性技术来消除这些影响。6 目标分割目标分割的结果对视频图像分析具有重要的意义。一个视频场景通常由背景和目标组成。而视频序列中的活动目标往往是视频图像序列的重要组成部分 ,常常是查询的事件主体。目标分割是计算机视觉最困难的问题之一 ,目前提出的方法很多。这里 ,主要就具代表性的方法作一介绍。Colonnese利用高阶矩对一组序列图像中的相邻帧间变化区域进行检测 ,得出四阶矩变化区域图 ,然后用之估计相邻帧间的运动矢量。用整组序列图像的运动矢量估计值作比较 ,以确定运动和静止区域。Mech首先估计出相邻两帧间的变化区域掩码 (CDM)。在这个掩码中 ,只有目标运动对应的变化点才被标注为变化区域。然后在得到的CDM中用层次块匹配方法估计每一点的运动矢量 ,以此找到上一帧的对应点并判定其是否属于目标掩码OM。最后把前面得出的OM边界调整到空域分割得到的边界 ,以提高分割结果的准确性。Jae用数学形态学滤波器作图像简化和求形态梯度 ,得到图像的空域分割区域。然后对相邻两帧间的变化图像进行Neyman Pearson检测而得出变化区域掩码。再把这个变化区域掩码覆盖到前面空域分割的图像中。若一个区域中的多数点属于变化区域掩码 ,则这个区域属于目标 ,否则属于背景。以上三种方法是MPEG组织所推荐的三种视频目标分割方法。这三种方法都利用了相邻两帧间的时域差分来得到目标的运动信息 ,再用统计学方法消除噪音的干扰。这对于摄像机固定的情况是适宜的 ,对于摄像机运动的情况 ,则需在摄像机运动补偿后再进行时域差分 ,但时域差分的可靠性严重地依赖于摄像机运动估计的正确性 ,因此 ,若出现难以正确估计摄像机的运动参数的情况 (如摄像机运动过大或场景复杂运动模型难以描述 ) ,则以上方法不可行。另一大类方法是基于视频图像的运动估计和分割 ,目标是要把图像中存在的运动估计出来 ,并根据运动一致性准则把序列图像分割成不同的区域。这些方法基本上可以分为两类 :外在方法 (按一个全局方案估计多运动模型 )和隐式方法 (用一个局部方案确定运动的不连续性 )。其中外在方法又可以分为序列方法和同步方法。序列方法是单运动估计方法的简单拓展。其基本思路是 ,先用鲁棒性运动估计方法估计出主运动 ,用主运动去配准图像 ,得到去掉主运动后的分割区域 ,在分割区域中再估计相对主运动 ,如此循环直至收敛。序列方法的主要问题是 :6 1 局部运动不能太大 ,这是由鲁棒性估计子的崩溃点决定的。6 2 相对主运动的估计严重地依赖于前一级主运动估计的精确性。6 3 这里区域的分割完全依赖于运动估计 ,而运动估计很易受到噪音的干扰 ,且运动估计的运动边界往往是不精确的。相对序列方法而言 ,同步方法能给出更精确的结果。Jepson和Yuille使用鲁棒性方法和混合模型 ,把图像用不同运动对应的层次来表示 ,不同的层次有着不同的运动模型。他们假设数据点在参数空间的分布满足混合模型 ,用EM算法来检测和分离属不同运动的区域 ,同时估计出每一区域中运动模型参数。这实际上就是不断地交替进行分割和参数估计 ,直至得到满意的结果。上面的方法都是试图从整幅图像中找出最优的运动估计 ,即属于外在方法。与此不同的是 ,隐式方法试图用一个局部方案确定运动的不连续性。其中最简单的是基于光流场进行聚类而得出多运动估计和分割的方法。这种方法首先计算稠密的光流场 ,然后用运动模型去匹配到光流场以得到分割结果。这个方法的问题在于 ,准确地计算稠密的光流场本身就很困难且需要很大的计算量 ,此外 ,由于估计和分割是分开的 ,估计造成的误差很容易传到分割阶段。针对上述缺点 ,Ju局部地引入了参数化模型 ,他们在图像局部的区域中应用EM算法估计多个仿射运动 ,给出所谓的“壳与骨”模型 ,能得出光滑的层化运动模型。这种方法在光流估计灵活性与参数化模型估计的精确性和鲁棒性中取了一个平衡。李毅等利用多尺度数学形态学工具 ,采用了自上而下的空域分裂策略 ,根据不同的运动复杂度使用

1 2

问答

我要提问