视频
事件
分析
理解
裴明涛
赵猛著
内 容 简 介视频事件的分析与理解是计算机视觉领域的重要研究内容之一,具有重要的理论研究意义和实际应用价值。本书首先介绍了视频事件分析与理解所涉及的目标检测、目标跟踪以及事件识别的研究现状,分析了视频事件分析与理解中的关键问题,然后重点介绍了作者研究团队在视频事件分析与理解领域的研究工作和成果。本书可供计算机、自动化、模式识别等领域的科研人员参考,也可作为高等院校计算机、自动化、电子信息等专业的教学参考书。版权专有 侵权必究 图书在版编目(CIP)数据 视频事件的分析与理解/裴明涛,赵猛著.北京:北京理工大学出版社,2019.3 ISBN 978-7-5682-6819-6.视.裴 赵.视频系统-监视控制-研究.TN948.65 中国版本图书馆 CIP 数据核字(2019)第 041430 号出版发行/北京理工大学出版社有限责任公司社 址/北京市海淀区中关村南大街 5 号邮 编/100081电 话/(010)68914775(总编室)(010)82562903(教材售后服务热线)(010)68948351(其他图书服务热线)网 址/http:/经 销/全国各地新华书店印 刷/三河市华骏印务包装有限公司开 本/710 毫米 1000 毫米 1/16彩 插/4印 张/14责任编辑/陈莉华字 数/245 千字文案编辑/陈莉华版 次/2019 年 3 月第 1 版 2019 年 3 月第 1 次印刷责任校对/周瑞红定 价/62.00 元责任印制/李志强图书出现印装质量问题,请拨打售后服务热线,本社负责调换彩插图 2-8 FPPI 曲线图(a)INRIA;(b)ETH;(c)TUD;(d)Caltech1图 3-9 各算法在 8 个视频序列上的中心位置误差图(a)caviar;(b)squat;(c)playground;(d)girls;(e)clutters;(f)wander;(g)woman;(h)walking2图 3-15 12 种跟踪算法在 Benchmark 测试集上的整体性能分析(a)精确度分析;(b)成功率分析图 3-16 基于属性的精确度分析3图 3-16 基于属性的精确度分析(续)4图 3-16 基于属性的精确度分析(续)图 3-17 基于属性的成功率分析5图 3-17 基于属性的成功率分析(续)6图 3-18 采用不同 H 的跟踪算法在精确度和成功率方面整体性能的比较图 3-19 采用不同 A 的跟踪算法在精确度和成功率方面整体性能的比较7前言视频事件的分析与理解由于在智能监控、智能人机交互等领域有着广泛的应用前景,成为计算机视觉领域备受关注的前沿方向之一。目前的视频事件分析与理解方法存在两个问题有待解决:一是事件模型多是人工指定,不能准确反映事件的内在特征;二是现有的事件分析方法多是针对底层的动作或者高层的事件进行分析,没有将动作、事件以及场景理解进行有机的结合。对于视频事件的分析与理解,有一类方法是直接将视频数据作为输入,提取特征,进而进行视频事件的识别。这样做的一个问题是视频中包含了大量的与事件无关的信息,例如背景中的无关物体以及与事件无关的人的运行等,直接将视频作为输入可能会导致无关信息对事件识别产生干扰,使得事件的分析与理解无法得到满意的效果。因此本书中采取的视频事件分析与理解方法是首先检测视频中感兴趣的目标(包括人和事件涉及的物体),并对这些目标进行跟踪,得到感兴趣的目标在每一帧的位置和大小等信息,根据每一帧中人的姿态以及与感兴趣物体的位置关系来检测原子动作,进而进行视频事件的分析与理解。本书详细介绍了作者近年来在视频事件分析与理解方面所做的工作,主要包括以下 3 个方面的内容。(1)场景中的物体检测方法研究。检测出场景中的人以及感兴趣的物体是进行后续视频事件分析与理解的前提和基础,我们采用基于深度通道特征的行人检测方法对场景中的行人进行检测,采用特征共享的联合 Boosting 方法进行场景中其他感兴趣物体的检测。(2)视频中的目标跟踪方法研究。检测到场景中的行人及感兴趣物体后,需要对它们进行跟踪,得到它们的轨迹,这些信息是后续的视频事件分析的基础。针对行人的特点,我们基于多分量可变部件模型对视频中的人进行跟踪,而采用半监督的基于锚点标签传播的跟踪方法对视频中其他物体进行跟踪。2 视频事件的分析与理解(3)基于时序与或图的视频事件分析与理解方法。在得到了场景中人及其他物体的轨迹后,我们采用基于人的姿态以及人与物体的位置关系的一元及二元关系来表示原子动作,使用时序与或图来建模事件,表现子事件以及原子动作之间的层次关系和原子动作之间的时序关系,研究事件时序与或图模型的自动学习方法、基于时序与或图模型的事件解析方法以及基于环境上下文信息的事件解析方法。本书结构如下。第 1 章介绍了视频事件分析与理解的研究现状,主要包括目标检测的研究现状、目标跟踪的研究现状以及视频事件分析与理解的研究现状。第 2 章介绍了视频中的目标检测方法,包括基于深度通道特征的行人检测方法以及基于特征共享和联合 Boosting 方法的物体检测方法。第 3 章介绍了基于多分量可变部件模型的行人跟踪方法和基于锚点标签传播的物体跟踪方法。第 4 章介绍了事件的时序与或图模型及其自动学习方法。第 5 章介绍了基于时序与或图模型的事件分析方法。第 6 章介绍了基于关键原子动作和上下文信息的事件识别方法。本书总结了作者和研究组成员在视频事件分析与理解这一研究领域所取得的学术成果,其中包括贺洋、刘钊在行人检测方面的研究成果(第 2 章),刘钊在行人跟踪方面的研究成果和武玉伟在一般目标跟踪方面的研究成果(第 3章),裴明涛在事件与或图模型学习及事件解析方面的研究成果(第 4、5章),赵猛、王亚菲在基于关键原子动作和上下文信息的事件识别方面的研究成果(第 6 章)。本书中的工作得到了国家自然科学基金(No.61472038)以及中国博士后科学基金(No.2018M642680)的资助。本书是对视频事件分析与理解这一重要问题所涉及的理论和方法的研讨与总结。可以给读者提供一个有益的参考,以普及对于视频事件分析与理解的认知和理解,进而推广其应用。本书对同行研究者,以及对目标检测、跟踪和事件识别相关领域的研究者和爱好者,也具有一定的参考意义。由于作者水平所限,书中难免存在疏漏和不当之处,敬请读者不吝指教!裴明涛2018 年 11 月于北京理工大学目录第 1 章 引言1 1.1 视频事件分析与理解的背景和意义1 1.2 目标检测的研究现状3 1.2.1 基于 HOG/SVM 的行人检测4 1.2.2 基于可变形部件模型的行人检测6 1.2.3 基于深度神经网络的行人检测7 1.2.4 基于特征融合的行人检测8 1.2.5 行人检测中的分类器8 1.2.6 行人检测数据集9 1.3 目标跟踪的研究现状12 1.3.1 目标表示13 1.3.2 统计建模16 1.3.3 目标跟踪数据集23 1.4 视频事件分析与理解的研究现状25 1.4.1 视频事件中的相关术语27 1.4.2 视频事件的特征表示29 1.4.3 视频事件的建模方法30 1.4.4 视频事件数据集37 1.5 关于本书42第 2 章 视频中的目标检测算法44 2.1 基于深度通道特征的行人检测方法44 2.1.1 深度卷积神经网络与稀疏滤波45 2.1.2 深度通道特征49 2.1.3 深度通道特征的提取522 视频事件的分析与理解 2.1.4 基于深度通道特征的行人检测53 2.1.5 实验结果54 2.2 基于特征共享和联合 Boosting 方法的物体检测方法59 2.2.1 基于滑动窗口和二分类器的物体检测框架59 2.2.2 二分类 Boosting 方法62 2.2.3 共享特征与多分类 Boosting 方法64 2.2.4 实验结果67 2.3 本章小结71第 3 章 视频中的目标跟踪算法73 3.1 基于多分量可变部件模型的行人跟踪方法73 3.1.1 行人可变部件模型及其初始化74 3.1.2 多分量可变部件模型78 3.1.3 基于多分量可变部件模型的跟踪算法79 3.1.4 自顶向下与自底向上相结合的跟踪框架81 3.1.5 实验结果84 3.2 基于锚点标签传播的物体跟踪方法93 3.2.1 问题描述94 3.2.2 求解最优 H95 3.2.3 求解软标签预测矩阵 A98 3.2.4 软标签传播99 3.2.5 基于标签传播模型的跟踪算法100 3.2.6 实验结果104 3.3 本章小结120第 4 章 事件时序与或图模型的学习122 4.1 事件模型的定义123 4.1.1 一元和二元关系124 4.1.2 原子动作126 4.1.3 时序与或图模型129 4.1.4 子节点之间的时序关系130 4.1.5 解析图130 4.2 事件模型的学习131 4.2.1 一元和二元关系的检测131目 录3 4.2.2 原子动作的学习134 4.2.3 事件模型的学习135 4.3 实验结果139 4.3.1 实验数据139 4.3.2 时序与或图学习结果140 4.3.3 所学的模型有益于场景语义的识别140 4.4 本章小结143第 5 章 基于时序与或图模型的视频事件解析144 5.1 时序与或图与随机上下文相关文法144 5.2 Earley 在线解析算法147 5.3 改进的 Earley 解析算法148 5.4 事件解析的定义151 5.5 对事件的解析153 5.6 实验156 5.6.1 原子动作识别156 5.6.2 事件解析159 5.6.3 意图预测161 5.6.4 事件补全162 5.7 本章小结163第 6 章 基于关键原子动作和上下文信息的事件解析165 6.1 基于关键原子动作的事件解析166 6.1.1 原子动作权值的学习167 6.1.2 带有原子动作权值的事件解析图168 6.1.3 基于原子动作权值的事件可识别度169 6.1.4 实验结果170 6.2 基于社会角色的事件分析173 6.2.1 相关工作174 6.2.2 角色建模与推断175 6.2.3 基于角色的事件识别176 6.2.4 实验结果176 6.3 基于群体和环境上下文的事件识别180 6.3.1 相关工作1814 视频事件的分析与理解 6.3.2 基于场景上下文的事件识别182 6.3.3 基于群体上下文的事件识别183 6.3.4 基于场景和群体上下文的事件识别184 6.3.5 实验结果184 6.4 本章小结188参考文献189第 1 章引言1.1视频事件分析与理解的背景和意义视频事件的分析与理解,是指让计算机能够像人类一样通过视觉感知外部环境,自动对视频中发生的事件进行分析与理解,知道周围环境中发生了什么事件、事件持续了几个阶段以及每阶段分别发生了哪些行为,从而帮助或辅助人类完成许多重要的任务,如智能视频检索、智能视频监控、高级人机交互、智能环境构建等。视频事件的分析与理解是计算机视觉和模式识别的重要研究内容,涉及人工智能、计算科学和认知科学等多个学科领域,属于多学科交叉前瞻性研究。此研究具有重要的学术意义。从人工智能的角度看,了解智能的本质并制造出与人类智能相似的智能机器是人工智能的最终目标,根据底层视频处理的结果获得人类可以理解的语义符合人类智能的一般过程,而视频事件的分析与理解正是解决如何跨越底层视觉信息到高层语义信息之间“语义鸿沟”的问题。从计算科学的角度看,进行数学模型的构建和定量分析以及利用计算机分析和解决科学问题是其关注的重点。视频事件的分析与理解研究不同层次不同粒度的事件模型构建,通过建立数学模型解析不同层间的信息传递关系,用定量优化算法进行模型的学习与推理,可以丰富计算科学领域的建模理论与数值计算方法,促进计算科学的发展。从认知科学的角度看,使计算机利用类似人类视觉感知的方式,对多个视频分段进行处理和分析,在很大程度上实现底层数据结构化、语义化的表达,这与人的认知过程相呼应。因此,从事件分析与理解的角度探索人在认知过程