机器学习(二)
1.1 机器学习的流程
1.2 UCI数据集
- 常用的机器学习标准测试数据集:
UCI:http://archive.ics.uci.edu/ml/index.php
1.3 数据预处理
- 数据预处理流程
1.3.1 数据清理
初始数据可能存在以下问题:
- 数据含噪声。这类数据(尤其是孤立点和异常数据)不能随随便便轻易的删除,可能孤立点的数据正是我们要找的异常数据。
- 数据错误。可以根据数据情况对错误数据进行更改、删除或者直接丢弃这类数据。
- 缺失数据。可根据数据情况进行数据的补缺,常用线性插值法或者回归的方法。
- 数据冗余。找出具有最大影响属性因子的属性数据,其余属性可以删除。
1.3.2 数据的集成和融合
1.3.3 数据变换
- 多维数据进行降维处理,消除数据在空间、属性、时间及精度等特征表现上的差异。这类方法对原始数据有损,但比较实用。
1.3.4 数据规约
- 数据规约策略基本包括维度规约、数量规约、数据压缩。
1.4 机器学习的经典算法
1.5 监督学习和无监督学习
- 监督学习算法,是在样本标签已知的情况下,进行分类器的设计。常见的KNN、SVN、BP神经网络和线性回归算法都属于监督学习算法。
- 无监督学习算法,没有样本标签的样本集开始进行分类器设计。聚类、关联规则分析、深度学习算法都属于无监督自主学习算法。
- 除此之外,还有一种学习叫强化学习。强化学习每次作出的预测不会得到是否正确的结果,只会收到看似没有关联关系的反馈。
标签:机器,1.3,规约,监督,学习,算法,数据 来源: https://blog.csdn.net/weixin_43693650/article/details/120274809
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。