ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

机器学习(1)--基础知识

2022-04-03 16:33:17  阅读:150  来源: 互联网

标签:样本 机器 训练 -- 分类 基础知识 学习 聚类 数据


基础知识

基本术语

有所了解:

  • 数据集 : 100个西瓜
  • 样本 : 一个西瓜
  • 特征向量(我们把一个示例(样本)称为一个特征向量)
    • 样本空间
    • 颜色、大小、敲起来的振幅......
    • 维度
  • 属性(反映事件或对象在某方面的表现或性质的事项如:色泽、根蒂、敲声,称为属性或特征;)
    • 颜色
  • 属性值(属性上的取值如青绿、乌黑......)

通过某种学习算法

  • 学习
  • 训练

得到模型

  • 有监督学习

    • 分类 (分类是机器学习的一项主要任务,主要是将实例数据划分到合适的分类中。)
      • 二分类(西瓜的例子【西瓜的好坏】是一个二分类问题)
      • 多分类(多分类指的是数据不止两个类别,它有多个类别。)
    • 回归(机器学习的另外一项任务是回归,主要是预测数值型的数据,比如通过数据值拟合曲线等。)
      • (回归任务的目标是预测一个连续值,编程术语叫作浮点数。)如果在可能的结果之间具有连续性,那么它就是一个回归问题,比如说价格。
  • 无监督学习

    • 聚类(聚类属于无监督学习,它是指我们的数据只有输入,没有输出,并需要从这些数据中提取知识。)

    我们现在手里的数据只有色泽、根蒂、敲声这几个特征,我们通过这三个特征,把性状相似的西瓜分到一个组,这就是一个聚类问题。聚类问题与分类问题的本质区别就是有没有标签。

假设空间

科学推理手段

归纳

从一般到特殊

演绎

从特殊到一般

归纳偏好

同一个数据训练出不同的数据模型

原则:奥卡姆剃刀-->选最简单的那个

模型评估与选择

一种训练集一种算法

经验误差与拟合

简述手写数字识别为例:

  • m为样本数量
  • Y为样本正确结果
  • Y'为预测样本结果数量
  • a个发生错误
  • \(error\) $ rate:E = a / m$
  • 精度:\(1 - E\)
  • 误差:\(|Y-Y'|\)
评估方法
  • 训练集,验证集与测试集
    • 训练集
    • 测试集
      • 留出法
      • k折交叉验证
      • 自助法
    • 验证集
性能度量

一种训练集多种算法

多种训练集一种算法

标签:样本,机器,训练,--,分类,基础知识,学习,聚类,数据
来源: https://www.cnblogs.com/fjqqq/p/16096306.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有