ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

李飞飞计算机视觉学习总结一(附经典论文链接)

2019-11-30 13:56:26  阅读:733  来源: 互联网

标签:李飞飞 分割 检测 目标 图像 视觉 数据 链接


内容

第一节课——简介

  1. 什么是计算机视觉——就是针对视觉数据的研究
    1.1. 百度知道

    计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息。计算机视觉既是工程领域,也是科学领域中的一个富有挑战性重要研究领域。计算机视觉是一门综合性的学科,它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学,神经生理学和认知科学等。

  2. 计算机视觉课程的重要性
  3. 海量视觉数据(YouTube为例)
  4. 讲师介绍以及相关课程(cs131等)

第二节课——视觉发展史

  1. 动物视觉发展史
  2. 机器视觉发展史——目标分割概念

    Block world 视觉世界简化为简单形状

  3. 计算机视觉发展史——论文以及Adaboost实时人脸检测

    "SIFT"& Object Recognition, David Lowe, 1999
    Spatial Pyramid Matching, Lazebnik, Schmid& Ponce,2006
    Histogram of Gradients(hog), Dalal& Triggs,2005
    Deformable Part Model Felzenswalb McAllester, Ramanan 2009
    https://pan.baidu.com/s/1B06-0quirEwrxhdrwbgSbg(百度云链接

  4. 两个著名的数据集合

    ImageNet / Pascal Voc数据集合(解决过拟合问题)

  5. 学习指南

    a. 掌握猫视觉实验的结论:(电生理学研究:电极控制)视觉处理是始于视觉世界的简单结构

b. 掌握目标分割概念(备注1)

c. 了解 Adaboost实时人脸检测算法如何实现

d. 了解 mageNet、 Pascal Voc数据集合(备注3)包含的图片种类及类别

第三节课——卷积神经网络的发展

  1. 图像任务简介

    图像分类、图像检测、 image captioning

  2. Imagenet大赛中使用的模型

    传统提取特征-->SVM(备注4)
    神经网络(2012年Alexnet是一个大的突破)
    趋势是越来越深
    最早使用CNN的 Le是 Cun用来做手写数字识别

  3. 展望计算机视觉发展的方向(存在的问题)
  4. 学习要点指南:
    突破性事件是2012年的 Alexnet
    神经网络迅速发展的条件(GPU和数据)

作业

  1. 图像的数据主要来源有哪些 (列举几个即可)

    ImageNet , PASCAL VOC , Labelme , COCO等
    https://blog.csdn.net/u012966194/article/details/79676516 (连接)

  2. sift feature 是什么,可以用来干什么?金字塔匹配思想是什么,可以用来干什么?hog特征是什么,可以用来干什么?

    2.1. SIFT:即尺度不变特征变换(Scale-invariant feature transform,SIFT),是用于图像处理领域的一种描述。这种描述具有尺度不变性,可在图像中检测出关键点,是一种局部特征描述子。 SIFT用来检测图像的局部特征点
    https://baike.baidu.com/item/SIFT/1396275?fr=aladdin(SIFT百科
    2.2. 图像金字塔是以一种多分辨率来解释图像结构,通过对原始图像进行多尺度像素采样的方式,生成N个不同分辨率的图像,把具有最高级别分辨率的图像放在底部,一金字塔形状排列,往上是一系列像素逐渐降低的图像,一直到金字塔顶部只含有一个像素点的图像,这就构成了传统意义的图像金字塔,图像金字塔更多的是一种不同尺度空间的思想,还可以用在光流,slam姿态估计和加速模型匹配等等
    2.3. Histogram of Oriented Gridients,缩写为HOG,是目前计算机视觉、模式识别领域很常用的一种描述图像局部纹理的特征。这个特征名字起的也很直白,就是说先计算图片某一区域中不同方向上梯度的值,然后进行累积,得到直方图,这个直方图呢,就可以代表这块区域了,也就是作为特征,可以输入到分类器里面了。 HOG可以用来做检测,主要用于行人检测,车辆检测,跟踪等情况

  3. 神经网络早就存再为什么神经网络最近才(提示:从数据和硬件方面考虑)

    3.1. 从硬件角度来说:计算机硬件数量级的提升
    3.2. 从数据角度来说:人工智能的数据以及他带来的方法,技术有很大的改变

  4. 图像任务有哪些,解决什么样的图像问题(eg:图像分类就是看图片中的物体具体是什么。)

    常见图像任务有图像分割,图像分类(看图像中的物体具体是什么),目标检测(在给定图片中找到物体位置),姿态检测,语义分割(识别图像中存在的内容和位置),实例分割(在一定像素级对图像进行识别轮廓的任务)等,主要解决不同场景不同尺度的图像问题

注解

备注1:
视频目标处理涉及的目标分割、目标识别、目标检测和目标跟踪都是指什么?

  1. 目标分割

    应该是Target Segmentation,应该是data/image segmentation的一种,任务是把目标对应的部分分割出来。对于一般的光学图像而言,分割像素是一个比较常见的目标,就是要提取哪一些像素是用于表述已知目标的。这种Segmentation可以是一个分类(classificatio)问题,就是把每一个pixel做labeling,提出感兴趣的那一类label的像素。也可以是clustering的问题,即是不知道label,但需要满足一些optimality,比如要cluster之间的correlation最小之类的。当然,答主也见过一些针对其他数据的目标分割,比如hyperspectral data,也需要分割哪些频率或者通道对应的是目标。比如视频流,那段时间对应是目标。

  2. 目标识别

    应该是Target Recognition。        这是一个基于分类(Classification)的识别(Recognition)问题,即是在所有的给定数据中,分类出哪一些sample是目标,哪一些不是。还是拿图片作为数据举例,这个分类的层面往往不是pixel,给定的一些segment,或者定义的对象(Object),或者图片本身。

  3. 目标检测

    应该是Target Detection。        最早的detection system应该是搞雷达的人首先提出并且heavily study的,最简单的任务就是从看似随机(random)又充满干扰(interference)和噪音(noise)的信号中,抓取到有信息的特征(information-bearing pattern)。最简单的一个栗子,就是当你拿到一段随机的雷达回波,可以设置一个threshold,当高于这个threshold,就认为是探测到了高速大面积飞行器之类的高回波的目标。当然,这里面的threshold该怎么设计,涉及到False Alarm和Miss Detection之间的平衡。人们往往需要寻找最佳的transform或者domain去对信号进行分析。

  4. 目标追踪

    应该是Target Tracking。        这个任务很重要的第一点是目标定位(Target Locating),而且这个任务设计到的数据一般具有时间序列(Temporal Data)。常见的情况是首先Target被Identify以后,算法或者系统需要在接下来时序的数据中,快速并高效地对给定目标进行再定位。任务需要区别类似目标,需要避免不要的重复计算,充分利用好时序相关性(Temporal Correlation),并且需要对一些简单的变化Robust,必须旋转,遮盖,缩小放大,Motion Blur之类的线性或者非线性变化。

备注1来源:https://www.zhihu.com/question/36500536

备注2:
Adaboost实时人脸检测算法如何实现
https://blog.csdn.net/guyuealian/article/details/70995333

备注3:
计算机视觉标准数据集整理—PASCAL VOC数据集
https://blog.csdn.net/xingwei_09/article/details/79142558

备注4:
支持向量机(Support Vector Machine, SVM)

支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)
SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),是一个具有稀疏性和稳健性的分类器 [2]  。SVM可以通过核方法(kernel method)进行非线性分类,是常见的核学习(kernel learning)方法之一 
SVM被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在人像识别、文本分类等模式识别(pattern recognition)问题中有得到应用 [5-6] 

https://baike.baidu.com/item/%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA/9683835?fromtitle=SVM&fromid=4385807&fr=aladdin

标签:李飞飞,分割,检测,目标,图像,视觉,数据,链接
来源: https://www.cnblogs.com/feng2019/p/11962177.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有