样本

数据预处理-离群值处理2022-03-01 09:32:49

@数据分析预处理离群值检测回归 3σ法样本x和样本均值μ之间的距离，而且这个距离以标准差σ为单位进行计算：Z-score(x)=(x-μ)/σ 得到样本的Z-score值后，通常将满足条件|Z-score(x)|>3的样本视为离群值称为3σ法。箱线图是检验样本数据中异常值的常用方法,与3σ法不同,箱
常用机器学习解释性算法：特征权重，feature_importance, lime，shap2022-02-28 18:02:47

目录 1.线性回归中的特征权重β： 2. 树模型中的feature_importance： 3. lime: 4. shap: 5. 各种算法对比： 1.线性回归中的特征权重β：线性模型中，特征可以归类为：数值特征（比如气温）、二进制特征（性别0/1）、范畴特征（天气：下雨、阴天、晴天，使用one-hot编码，让具体类别有自己的二进制选项）
torch.var()、样本方差、母体方差2022-02-28 16:01:17

文章目录方差的分类torch.var 方差的分类这两者有显然的区别，为什么会有这个区别呢？区别有二，这两个区别互相联系，不可分割：数据的多少。上面这个只有一部分样本，而下面这个是有完整数据，即总体，母体。目的。你是要算这部分数据的方差，还是要估计总体的方差。如果是前者，那
NTU 课程笔记：CV6422 goodness of fit2022-02-28 12:30:32

1 goodness of fit 一个population 是否有一个特定的分布 (Ho假设）——>观测样本(oi)和期待频率(ei)之间fit的程度如何判断是否满足 v=k-r-1 自由度的chi-square 分布（r是从样本数据中可以估计到的参数个数）这里需要注意：每一个ei都必须≥5（小于的话可以合并成
决策树--信息增益，信息增益比，Geni指数的理解2022-02-27 19:06:03

决策树是表示基于特征对实例进行分类的树形结构从给定的训练数据集中，依据特征选择的准则，递归的选择最优划分特征，并根据此特征将训练数据进行分割，使得各子数据集有一个最好的分类的过程。决策树算法3要素：特征选择决策树生成决策树剪枝部分理解：关于决策树生
Cora 数据集介绍2022-02-25 19:33:01

1 前言　　Cora 数据集由机器学习论文组成，是近年来图深度学习很喜欢使用的数据集。在数据集中，论文被分为以下七类之一：基于案例遗传算法神经网络概率方法强化学习规则学习理论　　论文的选择方式是，在最终语料库中，每篇论文至少引用一篇论文或被至少一篇论文引用（即至少有
模型，算法，数据的结与“解”2022-02-25 11:01:54

前一篇写过关于数据的认知，感觉理解的还是不到位，再写一次。采用周志华老师出版的西瓜书来阐述相关概念：数据（raw data/data）：一般包括未经处理的样本（图片，文本，声音，视频），经过处理（数值，向量），也是客观事物的属性、数量、位置及相关关系的抽象表示。数据集，样本（记录），特征（反应对象在某方面
金融风控实战——不均衡学习2022-02-23 19:02:00

上采样/下采样下采样，对于一个不均衡的数据，让目标值(如0和1分类)中的样本数据量相同，且以数据量少的一方的样本数量为准。上采样就是以数据量多的一方的样本数量为标准，把样本数量较少的类的样本数量生成和样本数量多的一方相同，称为上采样。下采样获取数据时一般是从分类样本
对比学习论文综述2022-02-23 11:58:29

目录对比学习论文综述【论文精读】_哔哩哔哩_bilibili 1. 百花齐放 2.CV双雄 3. 不用负样本 4. Transformer 对比学习论文综述【论文精读】_哔哩哔哩_bilibili 1. 百花齐放 18-19年中方法、模型、目标函数、代理任务都还没有统一。（1）InstDisc：https://arxiv.org/abs/1805.
基本的K均值聚类算法matlab代码，给了一组样本数据作为例子，注释详细2022-02-22 21:02:17

基本的K均值聚类算法matlab代码，给了一组样本数据作为例子，注释详细，聚类的样本数据可以进行修改。编号:7415643229030781浪迹天涯
制作目标检测训练样本的方案2022-02-22 20:31:41

1.做感受野分析，确定能够检测目标边长范围这一步得自己算。现成的网络都能搜到别人算好的结果，拿来直接用。 2. 用最终特征图的尺寸反推训练样本图像的尺寸这一步也得自己算。有了目标边长范围，选择大于目标框最大边长2倍左右的训练样本图像的尺寸。 3. 对原始样本图像进行旋
利用DP-SSL对少量的标记样本进行有效的半监督学习2022-02-22 17:03:42

©作者 | Doreen 01 介绍深度学习之所以能在图像分类、自然语言处理等方面取得巨大成功的原因在于大量的训练数据得到了高质量的标注。然而在一些极其复杂的场景（例如:无人驾驶）中会产生海量的数据，对这些数据进行标注将会产生大量的时间成本和人工成本。近些年，研究人员提出了act
各常用分类算法的优缺点总结:DT/ANN/KNN/SVM/GA/Bayes/Adaboosting/Rocchio2022-02-22 11:34:27

1决策树（Decision Trees）的优缺点决策树的优点：一、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。二、对于决策树，数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化，比如去掉多余的或者空白的属性。三、能够同时处理数据型
深度学习之常用模型评估指标（一）—— 分类问题2022-02-20 09:34:13

深度学习入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。如何评价这个模型对解决你这个问题的“可用”程度，这需要对模型进行测量和评估。每个模型都有他的特别之处，并随因素变化而表现不同，因此需要选择合适的评估指标来进
XGBoost算法2022-02-14 16:48:49

文章转载自microstrong的深入理解XGBoost 1. XGBoost简介 XGBoost的全称是eXtreme Gradient Boosting，它是经过优化的分布式梯度提升库，旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具，它是目前最快最好的开源 boosting tree工具包，比常见的工具包快10倍以上。在数
决策树学习笔记2022-02-10 22:33:22

参考资料：《机器学习》周志华《统计学习方法》李航 1. 决策树生成算法决策树的算法如图所示：第2行和第4行是对新生成节点进行类别标记。第9行开始是循环分裂node节点，为最优特征的每一个值生成叶子节点。第8行是重点，它决定了决策树的生长方式：当我有不止一个特征时，我该如何
机器学习随记【day19】2022-02-10 20:02:38

评估假设分割数据集，典型比例为7：3，通常先打乱再分割，下标m表示样本来自测试集线性回归逻辑回归模型选择用训练集训练出来的模型再训练集上不能预测出其对于新样本的泛化能力，因此把数据集分成训练集、验证集、测试集，典型为6：2：2 诊断偏差与方差
YOLO_V1总结2022-02-10 18:59:13

前文链接：图像分类和目标检测中的正负样本划分以及架构理解在前文中，我们对目标检测有了基本的认识。本文是在前文的基础上，梳理下YOLOv1算法，v1是理解v2-v5的基础。本节将不再详细介绍v1的论文理解，而是只梳理算法的关键部分。部分细节，请参考：【精读AI论文】YOLO V1目标检测，看我就
从小样本学习出发，奔向星辰大海2022-02-10 17:00:49

本文为大家带来的演讲主题是：从小样本学习出发，奔向星辰大海。主要分为五个部分：小样本学习方法及其重要性小样本学习的三个经典场景小样本学习的应用领域小样本学习的定义及难题 PaddleFSL助你实现小样本学习王雅晴，2019年博士毕业于香港科技大学计算机科学及工程学系，研究方
k-prototypes聚类算法2022-02-10 14:35:10

1 k-prototypes聚类 https://github.com/nicodv/kmodes.git 1 k-prototypes算法 K-prototype是K-means与K-modes的一种集合形式，适用于数值类型与字符类型集合的混合型数据。 k-prototypes算法在聚类的过程中，是将数据的数值型变量和类别型变量拆开，分开计算样本间变量的距离，再将两者
独立小样本两个总体均值差的估计2022-02-09 20:35:19

独立小样本两个总体均值只差的估计小样本：或条件：总体服从正态分布，随机样本是从两个总体独立选取的。如果：自由度= ：总体1 -方差，：总体2 -方差：样本1 -均值，：样本2 -均值：样本1 -样本数量，：样本2 -样本数量：样本1 -样本方差，：样本2 -样本方差：t分布值，若取95%置信
对比学习(Contrastive Learning) (2)2022-02-09 14:03:12

《Supervised Contrastive Learning》该工作将原来自监督学习(self-supervised)的对比学习思想扩展到全监督学习(full-supervised)，相比于上一篇SimCLR，SupCon在数据增强，encoder，投影网络的设计上没什么区别，在正样本与负样本的定义上稍有不同：在一个batch中，对于每一个选择的锚样
融合零样本学习和小样本学习的弱监督学习方法综述2022-02-09 11:03:40

融合零样本学习和小样本学习的弱监督学习方法综述人工智能技术与咨询来源：《系统工程与电子技术》，作者潘崇煜等摘要: 深度学习模型严重依赖于大量人工标注的数据，使得其在数据缺乏的特殊领域内应用严重受限。面对数据缺乏等现实挑战，很多学者针对数据依赖小的弱监督学习方
数据挖掘学习笔记5-支持向量机SVM2022-02-08 23:59:50

支持向量机主要原理是在分类器可以将两类样本分开的基础上，通过最大化两类样本之间的间隔来选取分类器。距离算法如下对于线性有重叠的样本，可采用软间隔，即放宽y（wx+b）≥1的条件，增加一个宽限值，使一些重叠样本也能被分类器分开。对于线性不可分问题，SVM会先将样本输入映射到一个
常用风控评估指标汇总（混淆矩阵/AUC/ROC/KS/PSI/Lift/Gain等）2022-02-08 12:00:26

本文主要汇总一些常用于机器学习的评估指标，针对每个指标由浅入深，从”一句话解释“、定义及公式、计算/绘制步骤等方面一一总结。这些指标本身可用于很多业务场景，但因为我从事风控行业，本文涉及的例子都是风控的案例，重点介绍这些指标如何评估风控模型的效果。 1. 混淆矩阵一句话

首页 < 3 4 5 6 7 8 > 尾页

ICode9

数据预处理-离群值处理2022-03-01 09:32:49

常用机器学习解释性算法：特征权重，feature_importance, lime，shap2022-02-28 18:02:47

torch.var()、样本方差、母体方差2022-02-28 16:01:17

NTU 课程笔记：CV6422 goodness of fit2022-02-28 12:30:32

决策树--信息增益，信息增益比，Geni指数的理解2022-02-27 19:06:03

Cora 数据集介绍2022-02-25 19:33:01

模型，算法，数据的结与“解”2022-02-25 11:01:54

金融风控实战——不均衡学习2022-02-23 19:02:00

对比学习论文综述2022-02-23 11:58:29

基本的K均值聚类算法matlab代码，给了一组样本数据作为例子，注释详细2022-02-22 21:02:17

制作目标检测训练样本的方案2022-02-22 20:31:41

利用DP-SSL对少量的标记样本进行有效的半监督学习2022-02-22 17:03:42

各常用分类算法的优缺点总结:DT/ANN/KNN/SVM/GA/Bayes/Adaboosting/Rocchio2022-02-22 11:34:27

深度学习之常用模型评估指标（一）—— 分类问题2022-02-20 09:34:13

XGBoost算法2022-02-14 16:48:49

决策树学习笔记2022-02-10 22:33:22

机器学习随记【day19】2022-02-10 20:02:38

YOLO_V1总结2022-02-10 18:59:13

从小样本学习出发，奔向星辰大海2022-02-10 17:00:49

k-prototypes聚类算法2022-02-10 14:35:10

独立小样本两个总体均值差的估计2022-02-09 20:35:19

对比学习(Contrastive Learning) (2)2022-02-09 14:03:12

融合零样本学习和小样本学习的弱监督学习方法综述2022-02-09 11:03:40

数据挖掘学习笔记5-支持向量机SVM2022-02-08 23:59:50

常用风控评估指标汇总（混淆矩阵/AUC/ROC/KS/PSI/Lift/Gain等）2022-02-08 12:00:26