不行,看完还是对于底层原理和具体过程不清楚,主要是因为没要相关的理论基础 先了解个大概 外部链接: Faster RCNN理论合集 视频1 RCNN IOU交并比 交集/并集 视频2 FastRCNN 减少了计算冗余 如果你的样本里面全是一种样本,就类似于你100个题目里面有98个选A,那么你不需要任何知识,
1、样本不均衡可能带来的问题 模型训练的本质是最小化损失函数,当某个类别的样本数量非常庞大,损失函数的值大部分被样本数量较大的类别所影响,导致的结果就是模型分类会倾向于样本量较大的类别。咱们拿上面文本分类的例子来说明,现在有1W条用户搜索的样本,其中50条和传奇游戏标签有关
深度图像分类模型通常以监督方式在大型带注释数据集上进行训练。随着更多带注释的数据加入到训练中,模型的性能会提高,但用于监督学习的大规模数据集的标注成本时非常高的,需要专家注释者花费大量时间。为了解决这个问题,人们开始寻找更便宜的标注的标签来源,是否有可能从已经公开的数
摘要 本文是早期的对抗文章,本文最最主要的工作是:提出了一个生成对抗样本的算法--JSMA(Jacobian Saliency Map)。然后在实验阶段,作者首先证明了这个方法使用的扰动很小,但对抗性很强,然后给出了一系列的方法用于计算不同的自然样本和不同的类别被攻击的难易程度,最后证明了JSMA 对抗样本
ROC曲线含义 ROC 曲线含义 ROC 全称 receiver operating characteristic curve,受试者工作特征曲线 针对二分类任务,有 True Positive Rate 和 False Negative Rate 也就是真阳率(TPR)和假阳率(FNR) 二分类任务,输出的是样本被预测为1的概率,对于这个概率有一个阈值,比如 f(x) > 0.3的时候,
kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数数以一个类型别,则该样本也属于这个类别,并具有该类别上样本的特征。该方法在确定分类决策上,只依据最近邻的一个或者几个样本的类别来决定待分样本所属的类别。 1.鸢尾花分类问题 from sklearn.neighbors im
原文:https://learning.oreilly.com/library/view/digital-signal-processing/9780750674447/xhtml/B978075067444750042X.htm 摘要: 大多数DSP技术都是基于一种叫做叠加的分而治之的策略。被处理的信号被分解成简单的组成部分,每个组成部分都被单独处理,然后将结果重新组合。这种方法
小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现 上一章我们聊了聊通过一致性正则的半监督方案,使用大量的未标注样本来提升小样本模型的泛化能力。这一章我们结合FGSM,FGM,VAT看下如何使用对抗训练,以及对抗训练结合半监督来提升模型的鲁棒性。本章我们会混着CV和NLP一起来说,V
弗里德曼-迪亚科尼斯规则 在统计学中,Freedman-Diaconis规则用于确定直方图中的条柱宽度, 它以David A.Freedman和Persi Diaconis的名字命名。该规则定义: \[条柱宽度 = 2 \times \frac{IQR}{\sqrt[3]{n}} \]其中,IQR是四分位距,n是观测样本数目。 偏度(Skewness) 偏度用来度量随机变量
写这个博客的时候已经来实习三天了~~~晚上没那么快想睡觉就写一下。应该也只有我的学弟学妹们会看吧,但是我还是认真记录一下下,不然就快忘记了~~ 首先贴一下这个招聘岗位的详情,现在看看招聘的要求我还是觉得自己找到实习是真的运气很好!!!找实习一定要多投!!!说不定运气就来了呢~
1 分布式机器学习概述 大规模机器学习训练常面临计算量大、训练数据大(单机存不下)、模型规模大的问题,对此分布式机器学习是一个很好的解决方案。 1)对于计算量大的问题,分布式多机并行运算可以基本解决。不过需要与传统HPC中的共享内存式的多线程并行运算(如OpenMP)以及CPU-GPU计算架构
前面机器学习:决策树(上)已经学习了构造决策树的基本流程、三个常见算法、以及划分属性的方法,下面将学习如何优化一个决策树 1、剪枝处理 剪枝(pruning)是决策树学习算法应对过拟合的主要手段。因为决策树模型太强大了,很可能把训练集学得太好以致于把训练集本身的特性也给学习了(特别是
在深度学习中,对训练数据进行标准化和归一化处理,可以加快模型的收敛速度,而且更重要的是在一定程度上缓解了深度网络中梯度消失的问题,从而使深层网络的训练更加容易。 归一化 归一化的作用是统一样本的统计分布性。把数据样本范围压缩至某个范围之间。 主要是为了方便处理不同的数
1、《针对深度学习的对抗攻击综述》-密码学报-2021年8月 ①通过对原始样本加入微小扰动所生成的对抗样本能够有效欺骗深度学习模型,并将生成对抗样本的方式称为对抗攻击。 ②对抗攻击能够使深度学习以高置信度的方式给出错误的输出,实现针对深度学习检测服务的逃逸攻击。 ③深度学习
1、基本流程 决策树中决策过程的每一次判定都是对某一属性的“测试”,决策最终结论则对应最终的判定结果。 一般一棵决策树包含:一个根节点、若干个内部节点和若干个叶子节点 每个非叶节点表示一个特征属性测试。 每个分支代表这个特征属性在某个值域上的输出。 每个叶子节点存放一
NER技术是工业界落地比较多的NLP技术,文本数据的结构化都依赖NER技术,本文总结下常用的NER技术。 一、词典匹配 词典匹配是工业界最常用的NER技术,尤其是垂直领域的NER任务。词典匹配的优点是速度快,可解释性强,且精度高。但是词典无法解决歧义性问题,为了降低词典匹配的歧义性问题,
目录完全随机区组设计Kruskal-Wallis秩和检验基本思想检验步骤第一步:提出原假设第二步:构造检验统计量第三步:计算伴随概率第四步:做出统计推断大样本近似检验Jonckheere-Terpstra检验基本思想检验步骤第一步:提出原假设第二步:构造检验统计量第三步:计算伴随概率第四步:做出统计推断大样
XGBoost算法 文章转载自microstrong的深入理解XGBoost 1. XGBoost简介 XGBoost的全称是eXtreme Gradient Boosting,它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具,它是目前最快最好的开源 boosting tree工具包,比常见的工具包
第一章绪论 ` 1.2基本术语 数据集:各种数据的一个集合 样本: 每条记录是关于一个事件或对象(这里 是 一个西瓜)的描述 特征:反映事件或对象在某方面的表现或性质的事项,例如"色泽""根蒂" "敲声" 属性值:属性上的取值,例如"青绿" "乌黑" 样本空间:学得模型后,使用其母行预测的过程 特征向
Datawhale 吃瓜教程 Task01打卡 感觉西瓜书蛮新手友好的,前两章都是在不厌其烦的介绍基础概念。 数据集就是我们要让机器学习的东西,希望机器能从中学习到“经验”,产生模型,从而在面对新情况(数据集以外的数据)也能做出有效的判断与决策。 特征(属性):反应事物或对象在某方面的表现或性
三种贴图方式: 海量图片随机贴图、相似图片随机贴图、相似图片在空白区域贴图 以上三种贴图方式无法说明哪一种更有优势,针对某种logo可能有自己合适的贴图方式,如a类logo适合海量图片随机贴,b类logo适合相似图片随机贴 专门测试某一种贴图方式的效果时,不应当仅使用某个类别的更新,因为
Contrastive loss 最初源于 Yann LeCun “Dimensionality Reduction by Learning an Invariant Mapping” CVPR 2006。 该损失函数主要是用于降维中,即本来相似的样本,在经过降维(特征提取)后,在特征空间中,两个样本仍旧相似;而原本不相似的样本,在经过降维后,在特征空间中,两个样本仍旧
摘要 作者从鲁棒优化(robust optimization)的角度研究了神经网络的对抗鲁棒性(adversarial robustness)。基于鞍点公式(min-max)本文提出了一种防御任何对抗样本的方法。 1 介绍 本文的主要贡献: 对抗样本的生成、对抗训练(即攻击与防御)是同一的,这是一个鞍点公式(下文的公式(1))的优化问题
模型评估与选择 1、经验误差与过拟合 错误率:分类错误的样本数占样本总数的比例。 精度=1-错误率。 误差:学习器的实际预测输出与样本的真实输出之间的差异。 训练误差/经验误差:学习器在训练集上的误差。 泛化误差:在新样本上的误差。 2、评估方法 ⭐留出法:直接将数据集划分为两个互
分享嘉宾:罗景 58同城 高级架构师 编辑整理:洪鹏飞 内容来源:DataFun AI Talk《连接效率优化实践》 出品社区:DataFun 导读:本次分享由以下几个部分构成—— 58的业务背景 综合排序框架 效率优化框架 基础数据流程(数据) 策略优化路径(算法) 效率优化平台(工程) 总结和思考 -- 01 58的业