【干货+视频】图像认知的挑战

2021-05-28 18:59:00 阅读：154 来源： 互联网

在过去的一年中，“RONG”系列论坛成功举办多场，“RONG”这一词语已成为清华大学数据科学研究院连接校内各院系间及校外资源的纽带。如今“RONG 2.0”带来的新一次思想碰撞又拉开了序幕。RONG系列论坛旨在促进校内外不同院系、不同学科间围绕大数据科研课题的相互认识、沟通交流，以促进校内外科研力量的联合，科研资源利用率的提高，让产业资源与科研资源得以对接，了解产业应用现状、应对产业挑战，最终实现促进清华大数据科研“顶天、立地”的目标。

2015年11月26日，RONG2.0迎来这一系列的首场论坛——“图形图像处理与大数据技术”专场。论坛由数据科学研究院和遥感大数据研究中心共同主办。来自校内外的150余位相关领域的研究者参与了论坛。

下面是活动干货，点击“阅读原文”可观看现场视频。

本讲座选自清华大学电子工程系副教授马惠敏于2015年11月26日在 RONG v2.0---图形图像处理与大数据技术论坛上所做的题为《图像认知的挑战》的演讲。

内容摘要：

马惠敏：电子工程系副教授，研究领域：三维图像识别、三维系统仿真、图像认知心理学。马惠敏从检测显著性物体、识别部件、识别3D 物体方面介绍了图像认知迎来的挑战。

大家好，今天我给大家带来题为《图像认知的挑战》的演讲。先给大家放一段优酷的视频。我想大家一眼就能看出来视频中有一架飞机。但是让小孩子们来看，可能就有一点困难了，因为孩子们认的更准的是飞机侧面的姿态。如果我把它换个角度，让尾翼遮挡住，这时大家再想认出它就更困难了。这是我们面临的一个挑战：三维物体姿态变化的挑战。现在我放一块云上去，在这种情况下，大家基本无法认出这是飞机了，真实的世界到处存在着有遮挡的图像。对于简单的图像,用深度学习的方法已经能处理得很好，目前识别率已经达到百分之九十多了。然而真实的世界中，干净背景的简单图像是很少的，有遮挡的情况是非常多的。在这种有遮挡的情况下，大家还能认出这是飞机吗？现在很多前沿的研究也是定位在这种有遮挡情况下的图像识别，我们实验室这么多年来瞄准的方向只有两个：姿态和遮挡。这是图像识别的两大难题，这也是为什么我叫它“认知的挑战”，因为单纯靠图片本身，在不考虑人类认知的情况下计算机是很难做到正确识别的。

这里我放了三张图。先看第一张，虽然前面云雾缭绕，大家依然知道这是古建筑，但如果让计算机来识别这张图就很困难。大家还能在这张图片上看到什么？是的，后面还有城市。哪个是显著性的目标？对图像本身来说，很多人会认为古建筑是显著的，因为它在图像的中间而且对比度最强。为什么云不是显著的？如果有人会关心云,云就应该是显著的。还有同学说我关注的是城市，为什么后面的城市不是显著的呢？仅仅因为它在图像中表现比较弱，它就不显著了吗？下面我们来看第二张图，这个人带着彩烟跑，看样子还挺开心，然而却给监控带来了非常大的挑战。再看第三张图，在这种情况下，我们还能认出这是一辆汽车吗？

今天我想和大家讲讲我们是如何在复杂环境下识别目标的。我整理了三个部分，也是图像领域的三个热点研究。第一个就是显著物体检测。第二个是部件检测。第三个是三维物体检测。我们实验室提出了三维物体检测识别模型，在有较强遮挡情况下取得了很不错的成果。究竟遮挡到什么程度还能让我们认出这是一辆汽车？这是我们现在一个重点基金在做的事情：对遮挡的评价、评估。

人对图像中语义的理解可分为中层、低层和高层。传统的图像识别是下面绿色的部分，其中包括边缘、角点、颜色、纹理、形状。这是我们的基石，也是过去几十年来取得成果最多的地方。低层特征的识别在我们这样的任务中显然是不够的，于是，近些年出现了很多关于可鉴别部件“PART”的研究工作，这是近七八年来的一个新方向。我个人认为“PART”只是一个过渡，但是在我们找到认知的模型前还必须对它进行研究。“PART”之上是结构，结构是为了解决在识别时如何把“PART”组织在一起，还有动作、场景、定位、分类、姿态的问题。关于显著性物体检测，我认为涉及到场景和定位两方面。这也是我们拿到图以后要做的第一件事，首先要知道在哪里，然后再判断它是什么。

自底向上的方法是一个经典办法，例如使用中心与周围之间的差异对比模型，判断它是什么样的，背景是否鲜艳，边缘的背景是不是更多一些，物体是不是集中？

自底向上方法的缺点也很明显。比如说这头牛，大家没有人会把它的尾部看作是背景。可是大家一起看看现在最有代表性的几个算法对它识别后的结果是什么，其实这些算法没有一个能够完整的识别出牛身子的。再看刚才的汽车，大家一眼就看到它是有窗户的，然而显著性检测却没办法将这个汽车区域统一标出来，这里所面临的问题是自底向上的方法无法解决的。我们如何抑制图像中的噪声，如何标出有语义的整个物体是很有挑战的研究。中间的图像是人标出来的显著区域，下面的是目前计算机能做到的显著区域的检测结果。

我们的想法是引入一个自顶向下的认知模型。

有想法，还得有行动，我们借用Bayesian网络的框架来实现噪声的抑制。标识整个目标的难度很大，这还需要我们分析两个区域是一个物体两个部分的可能性。

对于邻近的地方，我们可以根据它的颜色、纹理等特征的相似性和边界的空间位置关系定义。对于不邻近的，经常是有遮挡发生的情况，所以不邻近的地方未必就不是一个物体。我们引入加权测地距离的Bayesian模型，引入这个模型后大家可以看到一个非常好的结果。我们发在ICIP2015上，这是我们领域的一个盛会。

我们使用经典的方法得到初始区域，然后在它基础上加入两个模型,可以看到比每一种都有显著的提高。我们把认知的想法变成模型加进去就得到了这样的结果。左侧是理想中人标出的汽车，右侧上面一行是识别的现状，右侧下面一行是我们对上面一行的提升，可以看到我们对整个车身的显著性标注是最好的。包括这个马，几乎接近于人工标出的显著区域。

这是今年9月底我们在魁北克的ICIP会议上作的一个报告。红色是我们的结果，提升还是非常显著的。

如何才能做到比较理想的显著性检测呢？我们一直在想人是怎么做的呢？我们识别的一定是跟任务有关的，在任务的基础上跟我们具备的物体知识也有关系，然后才是一个检测的任务，这上面有很多事情大家可以继续做，我们也在继续奋战。

我们第一步是找到显著的东西，找到之后就面临第二个挑战——遮挡。我放第一张的时候，很少有人敢说这是飞机。放到第二张的时候，有了天空，很多人就认出来这是一个飞机。但是让计算机认出这是一个飞机是比较难的。因为人的脑海中有一个完整的飞机形象，有一个结构在引导我们认识它。我们能不能把这个结构找到？现在我们并没有一个好的认知模型描述自然界所有的物体。人在自然中认知的第一因素是部件，第二因素是结构，第三因素是环境，我们所有的工作都是围绕着这个展开的。

为什么我们会识别出这是一个自行车？因为它有两个轮子一个座。关于这个结构怎么构建？我们奋战了很多年。

我们实验室在这方面做了一件事情，既然是描述结构，我们希望找到他最少的语义部件来构建这个结构。

我们用深度学习学出了一大堆部件：一个车轮学了这么多、人脸学了这么多、汽车的轮子学了这么多,我们发现用这些部件表达一个物体不现实。

我们人记忆物体绝对不会记一大堆自行车的轮子长什么样，轮子一定是这个样子。我们把它进行语义压缩，然后再辨别是否由几个“PART”来组成一个物体。

我们实验室有一个特别有意思的工作，我们定义了一个结构模型。这是一个全新的模型，以前还没人这样提过。我们认为在所有图像中的动作都可以用椭圆的关系描述它。真正决定这是在“弹吉他”、这是在“骑马”，只关乎这个椭圆内部的信息，找到这两个椭圆以后，椭圆中间的东西才是核心。模型里有一些参数，轴、径，还有上下的关系。我们用这些信息描述动作，所以我们实验室把某些动作已经做到了最好。我们做了一个测试，得到了一个明显提高的结果。

这个是乐器演奏库上的实验，红色的是我们的结果。

我们要在部件的基础上做识别，还有一个非常大的问题，那就是在这种复杂的环境下能不能有效果？

目前用CNN、深度学习达到什么水平了呢？

ImageNet库中是非常简单的图像，这是斯坦福建立的差大规模图像测试库，另外还有Pascal、 VOC图像测试库，现在的研究水平能够做到在这个库上检测没有问题。但对于多目标、遮挡、小目标，大家猜检测度能达到百分之多少？在微软的COCO库上的测试结果又怎么样？

使用RCNN的深度学习做的并不是很好。为什么会是这样一个结果？其实是物体的检测精度上出了问题。PASCAL是95%的精度，KITTI是75%，COCO我们没有提交，服务器CPU不够用，算不过来，实际结果是小于40%。为什么？就是因为它是小目标、强遮挡的图像，在这种情况下怎么解？有一个解法就是把目标Proposal做的更好。

我在这儿分享一个小故事。我们把认知又引来了，大家都在忙着用人标注的结果的时候，我们干了一件事情，我们把标注的框拿出来分析人的标注有什么规律，我们分析的结果是人标的框根本就不是偏峰的，而背景是偏锋的，其中的物体占的面积和框的比值却不是。现在的检测算法，全是偏峰的。

我们根据这个发现做了一个小模型。原先的算法在物体面积和物体检测框的重叠率到0.7就几乎不能用了，直接把这条类目标检测曲线推成了这个形状。当时亚马逊的学者看了我们的Poster说马教授你这个东西太好了，我们能直接用。今年新出了一个方法叫“bing++”，其中的第二个“+”就是把我们这个模型放进去了。

在这种情况下还不够，因为这个曲线还是在这个曲线上面，一定要用三维的思想和先验知识来指导我们的监测和识别。这个世界是三维的，我们的二维成像信息丢失太多了。

我们在KITTI库上做了一个测试，它分困难、中等和简单三个库做检测。我们把三维空间的语义模型加了进来。你们现在看到我，很大程度上你们知道我该长这么高，跟桌子比例有这么多，该站在这个位置上，这就是先验知识，我们把预测加了进来。

我们建立了三维的上下文模型。一是点云的密度，什么地方应该很密，什么地方应该稀疏？二是自由空间，成像应不应该有东西，是否被遮挡了？三是高度先验，图像中的高度意味着实际有多高？四是物体高度跟周围环境高度的比较。

我们在KITTI库上测，6月份提交以后，6项评测里面我们有4项世界第一。百度、斯坦福、加州大学圣地亚哥分校、德国的马普研究院都在上面测试。我们的汽车排在第三，但是行人和自行车排在第一，超过了原先排第一的百度。

什么是人在图像认知中最重要的因素？我认为是部件、结构、环境。

欢迎大家登陆我们实验室的网页 http://3dimage.ee.tsinghua.edu.cn查阅相关的研究。

标签：视频,遮挡,物体,认知,检测,干货,图像,我们
来源： https://blog.51cto.com/u_15127682/2827671

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

【干货+视频】图像认知的挑战