标签:机器 函数 卷积 梯度 像素 学习 图像 整理 像素点
机器学习新手小白,在学习过程中积累基础知识概念,先整理出来,当作纪念自己学习的脚步
关于模型概况
- 无监督学习:训练样本不需要人工标注。
- 有监督学习:使用人工标注的训练集训练。
- 迁移学习:将一个任务训练好的参数拿到另一个任务作为初始参数。
- val集:用于验证是否过拟合调节训练参数等,相当于测试集中的验证集。
- 对齐:像素点对应(多部分网络不同部分得出的结果整合时需对齐)。
- 像素误差:真实中心和预测中心的欧氏距离。
- epoch:每个样本被测次数。(即充分数据集训练多少次)。
- batch:每多少个样本更新一次参数。
- batchsize:每个batch内有多少张图像。
关于模型细节
- 卷积:将图像效果叠加(图像周围及本身的像素点用一个像素提现,增加感受野)
- 卷积步长:卷积时卷积核移动的步幅
- 卷积核:卷积时用的矩阵 (卷积过程即卷积核矩阵和原矩阵做矩阵乘法)
- 感受野:相关性,后层像素点与前层像素点的关联范围,后层像素点能够表示的前层的范围。
- 填充:在原图像边缘填充0像素点,以保证边缘的卷积能够进行,保障图像保持原大小(不填充边缘不能作为卷积中心只能作为卷积边缘)
- 卷积层:多个卷积核构成
- 全连接层:综合前面所有特征输出,激活神经元,整合特征分类。
- 丢弃层:随机将一些特征检测器忽略。
- 下采样层:降低特征维度并保证有效信息,避免数据集中少数据类问题识别的准确率。(用元数据中的部分与少数据类构成新数据集)
- 上采样层:将提取到的特征向上反卷积为原始图像大小,可看成卷积池化的逆操作。
- 反卷积:因子为f的上采样即为原始图像步长为1/f的卷积,经典方法有:插值法,转置卷积法。
- 分类器常见有:softmax,SVM,贝叶斯。
- SVM:支持向量机,按监督学习方式对数据流进行分类的广义线性分类器。对于线性可分问题找到最大超平面。
- DPM:分类器的一种:先作直方图,再通过SVM方法。
- softmax层:根据前层输入对其分类(前一般为全连接层)
- Relu函数:激活函数,修正线性单元,(Relu函数可以增加非线性元素,增加表达力),更好拟合,同时Relu函数负输入为0,所以只激活部分神经元。
- 损失函数:评估差距的标准,反向传播更新参数。降低损失值,即接近拟合,也就是说,训练参数在损失函数中结果越小,拟合效果越好,故训练结束即损失函数达到最小值时。
- 多任务损失、交叉熵损失:多任务共享损失函数,如分类和回归结合共享损失参数。相对熵(KL散度)为P(x)(预测值)与Q(x)(真实值)的差距,交叉熵=KL散度+信息熵(期望)(当数据集固定后,信息熵为常量)
- 梯度下降:寻找损失函数极小值的方法之一。
- 反向传播:输出层误差可求(损失函数得到),而非输出层的误差则需要依赖于后一层的误差得到,某个神经元上的误差对偏置的偏导则等于该神经元的误差,某神经元上的误差对权值的偏导与该神经元误差和上一层输入的激活函数有关。
- 动量:避免抖动,考虑本次及上次的下降方向,避免局部极小值导致无法下降的情况,动量越大考虑之前的改变方向就越大(也能够避免下降角度太锐)(梯度
W[k+1]=W[k]-a*f(W[k])
=>Z[k+1]=b*Z[k]+f'(W[k])
、W[k+1]=W[k]-a*Z[k+1]
,b为动量) - 学习率:迭代步长,每次对参数更新的改变量的多少(需要合理,太小则很难收敛,太大则容易在极小值附近左右徘徊。)(梯度
W[k+1]=W[k]-a*f(W[k])
,a为学习率) - 衰减:动态学习率,让学习率从大到小动态变化。
- 量化:将浮点数取整。
- 池化作用:降维,用一个点表示更多原图像素点 (池化过程即从矩阵中的一个区域内取规定值代替该区域)
- ROI池化:提取相同大小的特征图向后输出,(适用于全连接)
- 最大池化:取局部接受域中的最大值代替局部接受域
- 均值池化:取局部接受域中的均值值代替局部接受域
- 正则化:防止过拟合,在损失函数中加上某些限制缩小解空间。
- 归一化:量纲转变(归一化后的像素点值=(所有像素点值-均值)/方差),能有效避免梯度消失和梯度爆炸。
- 梯度消失:反向传播中得到的梯度值接近于0,一般梯度消失的原因有卷积层数过深,损失函数不合适。
- 梯度爆炸:反向传播中得到的梯度值特别大,一般梯度爆炸的原因有卷积层数过深,权值初始化过大。
- 退化:随着网络深度增加,拟合度趋于饱和,不再增加或反向增加。
- 过拟合:拟合过程学习到了噪声因素,训练集的表现很好,但测试集很差,训练集和测试集差距很大。
- 滤波器:即滤波矩阵,用于强化图像中的部分,过滤掉无关信息,让图像信息更容易被获取。
- 难例挖掘:重复标签为页的难以训练的样本(得分高的类型的样本训练)
关于目标检测和目标分割
(楼主目前只看了这两部分的一些)
-
边框回归:减小定位误差,让建议窗口回归后更接近grandtruth,即一个函数输入为建议窗口输出为回归窗口,使其更接近真实窗口。
-
减掉RGB均值的目的:将像素点减去共同值,使得中心点为0,(改变中心点位置)。
-
IOU:交并比,是计算预测边框和真实边框的交集和并集的比值,是目标检测中的重要指标之一。(FCN文章中将其称为IU)
-
recall:查全率,测试集中应被识别的目标中被识别出的比例。
-
precision:查准率,识别出的图片中正确的识别率。
-
mAP:mean Average Precision,综合准确率和召回率,即检测出正确目标前的错误率,AP上升则代表错误率降低。
-
非最大抑制:搜索局部最大值,抑制非最大值。即在重复同一目标的边框中选择置信度最好的(效果最好的),其他的(IOU大于阈值的)认为是在对同一目标的检测,从而删除,避免重复。
-
密集预测:预测图像中每个像素的所属类别(图像语义分割工作)
-
超像素:具有相似的纹理颜色亮度特征的相邻像素构成的有一定视觉意义的不规则像素块。
-
掩码:将图像每个像素点和掩码做与运算。
-
掩码分支:以像素到像素的方式分割掩码。
-
RPN锚点:用于预测对应区域的点(一般为中心点)。
-
实例分割:专注所需分割的物体和数量。
-
语义分割:专注所需分割的类别(可不区分同一类别不同物体),但要求尽量区分出所有不同类别。
一些论文的核心意义
- FNN(前馈神经网络):各层级间单向传播,无反馈(不代表无反向传播)。
楼主也明白的不透彻欢迎大佬指点 - R-CNN:深度卷积网络提取特征,目标检测经典网络。
- SPPNet:提出空间金字塔池化层,不再需要固定尺寸的全连接层。
- ResNeXt:用残差网络将单路卷积变成了多路卷积,在融合结果。
涉及的数学知识
- SVD:奇异值分解,对角线元素为奇异值。(线性代数)
- 随机场:由a={0,1,2...G-1}取样构成的随机变量X,构成X后w属于a,f(w)>0成立,则称f为一个随机场。
- 双线性插值:用该点周围的四个点分别对目标点的XY坐标进行预测(一般用于目标点处于非像素点上,即该处本无像素点,通过其他点模拟该点)。
- 双三次插值:比双线性精度更高的插值,用临近16个点权重估计产生插值。
标签:机器,函数,卷积,梯度,像素,学习,图像,整理,像素点 来源: https://www.cnblogs.com/Vincent-bo/p/AI-conception.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。