样本

Faster RCNN理论2022-07-15 10:03:30

不行，看完还是对于底层原理和具体过程不清楚，主要是因为没要相关的理论基础先了解个大概外部链接： Faster RCNN理论合集视频1 RCNN IOU交并比交集/并集视频2 FastRCNN 减少了计算冗余如果你的样本里面全是一种样本，就类似于你100个题目里面有98个选A，那么你不需要任何知识，
15、样本不均衡2022-07-11 20:02:17

1、样本不均衡可能带来的问题模型训练的本质是最小化损失函数，当某个类别的样本数量非常庞大，损失函数的值大部分被样本数量较大的类别所影响，导致的结果就是模型分类会倾向于样本量较大的类别。咱们拿上面文本分类的例子来说明，现在有1W条用户搜索的样本，其中50条和传奇游戏标签有关
使用 CLIP 对没有标记的图像进行零样本无监督分类2022-07-09 11:39:50

深度图像分类模型通常以监督方式在大型带注释数据集上进行训练。随着更多带注释的数据加入到训练中，模型的性能会提高，但用于监督学习的大规模数据集的标注成本时非常高的，需要专家注释者花费大量时间。为了解决这个问题，人们开始寻找更便宜的标注的标签来源，是否有可能从已经公开的数
【论文笔记】（JSMA）The Limitations of Deep Learning in Adversarial Settings2022-07-02 18:31:58

摘要本文是早期的对抗文章，本文最最主要的工作是：提出了一个生成对抗样本的算法--JSMA（Jacobian Saliency Map）。然后在实验阶段，作者首先证明了这个方法使用的扰动很小，但对抗性很强，然后给出了一系列的方法用于计算不同的自然样本和不同的类别被攻击的难易程度，最后证明了JSMA 对抗样本
机器学习基础知识2022-07-01 20:31:32

ROC曲线含义 ROC 曲线含义 ROC 全称 receiver operating characteristic curve，受试者工作特征曲线针对二分类任务，有 True Positive Rate 和 False Negative Rate 也就是真阳率（TPR）和假阳率（FNR）二分类任务，输出的是样本被预测为1的概率，对于这个概率有一个阈值，比如 f(x) > 0.3的时候，
机器学习—最近邻算法2022-07-01 13:04:39

kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数数以一个类型别，则该样本也属于这个类别，并具有该类别上样本的特征。该方法在确定分类决策上，只依据最近邻的一个或者几个样本的类别来决定待分样本所属的类别。 1.鸢尾花分类问题 from sklearn.neighbors im
数字信号处理：工程师和科学家的实用指南：5 线性系统2022-06-29 08:00:41

原文：https://learning.oreilly.com/library/view/digital-signal-processing/9780750674447/xhtml/B978075067444750042X.htm 摘要：大多数DSP技术都是基于一种叫做叠加的分而治之的策略。被处理的信号被分解成简单的组成部分，每个组成部分都被单独处理，然后将结果重新组合。这种方法
小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现2022-06-28 21:31:09

小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现上一章我们聊了聊通过一致性正则的半监督方案，使用大量的未标注样本来提升小样本模型的泛化能力。这一章我们结合FGSM，FGM，VAT看下如何使用对抗训练，以及对抗训练结合半监督来提升模型的鲁棒性。本章我们会混着CV和NLP一起来说，V
数据分析知识扩展2022-06-28 02:01:13

弗里德曼-迪亚科尼斯规则在统计学中，Freedman-Diaconis规则用于确定直方图中的条柱宽度, 它以David A.Freedman和Persi Diaconis的名字命名。该规则定义： \[条柱宽度 = 2 \times \frac{IQR}{\sqrt[3]{n}} \]其中，IQR是四分位距，n是观测样本数目。偏度（Skewness）偏度用来度量随机变量
样本分析运营实习面试总结2022-06-27 00:31:58

写这个博客的时候已经来实习三天了~~~晚上没那么快想睡觉就写一下。应该也只有我的学弟学妹们会看吧，但是我还是认真记录一下下，不然就快忘记了~~ 首先贴一下这个招聘岗位的详情，现在看看招聘的要求我还是觉得自己找到实习是真的运气很好！！！找实习一定要多投！！！说不定运气就来了呢~
分布式机器学习：同步并行SGD算法的实现与复杂度分析（PySpark）2022-06-26 11:32:12

1 分布式机器学习概述大规模机器学习训练常面临计算量大、训练数据大（单机存不下）、模型规模大的问题，对此分布式机器学习是一个很好的解决方案。 1）对于计算量大的问题，分布式多机并行运算可以基本解决。不过需要与传统HPC中的共享内存式的多线程并行运算（如OpenMP）以及CPU-GPU计算架构
机器学习：决策树（下）2022-06-26 07:31:23

前面机器学习：决策树（上）已经学习了构造决策树的基本流程、三个常见算法、以及划分属性的方法，下面将学习如何优化一个决策树 1、剪枝处理剪枝（pruning）是决策树学习算法应对过拟合的主要手段。因为决策树模型太强大了，很可能把训练集学得太好以致于把训练集本身的特性也给学习了（特别是
特征工程的归一化和标准化2022-06-25 16:03:05

在深度学习中，对训练数据进行标准化和归一化处理，可以加快模型的收敛速度，而且更重要的是在一定程度上缓解了深度网络中梯度消失的问题，从而使深层网络的训练更加容易。归一化归一化的作用是统一样本的统计分布性。把数据样本范围压缩至某个范围之间。主要是为了方便处理不同的数
论文阅读：针对深度学习的对抗攻击综述-2021年8月2022-06-21 11:02:07

1、《针对深度学习的对抗攻击综述》-密码学报-2021年8月 ①通过对原始样本加入微小扰动所生成的对抗样本能够有效欺骗深度学习模型，并将生成对抗样本的方式称为对抗攻击。 ②对抗攻击能够使深度学习以高置信度的方式给出错误的输出，实现针对深度学习检测服务的逃逸攻击。 ③深度学习
机器学习：决策树（上）2022-06-19 00:01:29

1、基本流程决策树中决策过程的每一次判定都是对某一属性的“测试”，决策最终结论则对应最终的判定结果。一般一棵决策树包含：一个根节点、若干个内部节点和若干个叶子节点每个非叶节点表示一个特征属性测试。每个分支代表这个特征属性在某个值域上的输出。每个叶子节点存放一
NER技术总结2022-06-15 16:34:01

NER技术是工业界落地比较多的NLP技术，文本数据的结构化都依赖NER技术，本文总结下常用的NER技术。一、词典匹配　　词典匹配是工业界最常用的NER技术，尤其是垂直领域的NER任务。词典匹配的优点是速度快，可解释性强，且精度高。但是词典无法解决歧义性问题，为了降低词典匹配的歧义性问题，
非参数统计：第四章多样本数据2022-06-15 00:35:08

目录完全随机区组设计Kruskal-Wallis秩和检验基本思想检验步骤第一步：提出原假设第二步：构造检验统计量第三步：计算伴随概率第四步：做出统计推断大样本近似检验Jonckheere-Terpstra检验基本思想检验步骤第一步：提出原假设第二步：构造检验统计量第三步：计算伴随概率第四步：做出统计推断大样
XGBoost算法原理2022-06-14 20:03:02

XGBoost算法文章转载自microstrong的深入理解XGBoost 1. XGBoost简介 XGBoost的全称是eXtreme Gradient Boosting，它是经过优化的分布式梯度提升库，旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具，它是目前最快最好的开源 boosting tree工具包，比常见的工具包
西瓜书学习笔记一（第一章第二章）2022-06-14 05:00:12

第一章绪论 ` 1.2基本术语数据集：各种数据的一个集合样本：每条记录是关于一个事件或对象(这里是一个西瓜)的描述特征：反映事件或对象在某方面的表现或性质的事项，例如"色泽""根蒂" "敲声" 属性值：属性上的取值，例如"青绿" "乌黑" 样本空间：学得模型后，使用其母行预测的过程特征向
Datawhale 吃瓜教程 Task01打卡2022-06-14 02:04:12

Datawhale 吃瓜教程 Task01打卡感觉西瓜书蛮新手友好的，前两章都是在不厌其烦的介绍基础概念。数据集就是我们要让机器学习的东西，希望机器能从中学习到“经验”，产生模型，从而在面对新情况（数据集以外的数据）也能做出有效的判断与决策。特征(属性)：反应事物或对象在某方面的表现或性
关于样本增强贴图的实验结果思考2022-06-13 13:00:56

三种贴图方式：海量图片随机贴图、相似图片随机贴图、相似图片在空白区域贴图以上三种贴图方式无法说明哪一种更有优势，针对某种logo可能有自己合适的贴图方式，如a类logo适合海量图片随机贴，b类logo适合相似图片随机贴专门测试某一种贴图方式的效果时，不应当仅使用某个类别的更新，因为
contrastive loss对比损失函数及梯度计算2022-06-12 12:33:27

Contrastive loss 最初源于 Yann LeCun “Dimensionality Reduction by Learning an Invariant Mapping” CVPR 2006。该损失函数主要是用于降维中，即本来相似的样本，在经过降维（特征提取）后，在特征空间中，两个样本仍旧相似；而原本不相似的样本，在经过降维后，在特征空间中，两个样本仍旧
【论文笔记】Towards Deep Learning Models Resistant to Adversarial Attacks2022-06-12 06:00:10

摘要作者从鲁棒优化（robust optimization）的角度研究了神经网络的对抗鲁棒性（adversarial robustness）。基于鞍点公式（min-max）本文提出了一种防御任何对抗样本的方法。 1 介绍本文的主要贡献：对抗样本的生成、对抗训练（即攻击与防御）是同一的，这是一个鞍点公式（下文的公式(1)）的优化问题
机器学习：模型评估与选择2022-06-11 19:04:18

模型评估与选择 1、经验误差与过拟合错误率：分类错误的样本数占样本总数的比例。精度=1-错误率。误差：学习器的实际预测输出与样本的真实输出之间的差异。训练误差/经验误差：学习器在训练集上的误差。泛化误差：在新样本上的误差。 2、评估方法 ⭐留出法：直接将数据集划分为两个互
罗景：连接效率优化实践2022-06-11 12:34:24

分享嘉宾：罗景 58同城高级架构师编辑整理：洪鹏飞内容来源：DataFun AI Talk《连接效率优化实践》出品社区：DataFun 导读：本次分享由以下几个部分构成—— 58的业务背景综合排序框架效率优化框架基础数据流程（数据）策略优化路径（算法）效率优化平台（工程）总结和思考 -- 01 58的业

首页 < 1 2 3 4 5 6 7 8 > 尾页

ICode9

Faster RCNN理论2022-07-15 10:03:30

15、样本不均衡2022-07-11 20:02:17

使用 CLIP 对没有标记的图像进行零样本无监督分类2022-07-09 11:39:50

【论文笔记】（JSMA）The Limitations of Deep Learning in Adversarial Settings2022-07-02 18:31:58

机器学习基础知识2022-07-01 20:31:32

机器学习—最近邻算法2022-07-01 13:04:39

数字信号处理：工程师和科学家的实用指南 ：5 线性系统2022-06-29 08:00:41

小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现2022-06-28 21:31:09

数据分析知识扩展2022-06-28 02:01:13

样本分析运营实习面试总结2022-06-27 00:31:58

分布式机器学习：同步并行SGD算法的实现与复杂度分析（PySpark）2022-06-26 11:32:12

机器学习：决策树（下）2022-06-26 07:31:23

特征工程的归一化和标准化2022-06-25 16:03:05

论文阅读：针对深度学习的对抗攻击综述-2021年8月2022-06-21 11:02:07

机器学习：决策树（上）2022-06-19 00:01:29

NER技术总结2022-06-15 16:34:01

非参数统计：第四章 多样本数据2022-06-15 00:35:08

XGBoost算法原理2022-06-14 20:03:02

西瓜书学习笔记一（第一章第二章）2022-06-14 05:00:12

Datawhale 吃瓜教程 Task01打卡2022-06-14 02:04:12

关于样本增强贴图的实验结果思考2022-06-13 13:00:56

contrastive loss对比损失函数及梯度计算2022-06-12 12:33:27

【论文笔记】Towards Deep Learning Models Resistant to Adversarial Attacks2022-06-12 06:00:10

机器学习：模型评估与选择2022-06-11 19:04:18

罗景：连接效率优化实践2022-06-11 12:34:24

数字信号处理：工程师和科学家的实用指南：5 线性系统2022-06-29 08:00:41

非参数统计：第四章多样本数据2022-06-15 00:35:08