机器学习---P1

2021-06-26 13:58:04 阅读：164 来源： 互联网

前言：
项目驱动学习：爱奇艺个性化实时推荐系统----项目的落地实现
市场需求：推荐系统庞大的需求应用
学习方法：知识图谱的制作、对学习的东西进行总结，每次听完课之后就要进行总结；讲了几个模块、几个知识点、几个技术，总结到思维导图中XMind5；
今天上课的内容：为了日后的推荐系统做铺垫、常见的面试问题、以及常见的公式推导
抓住老师的上课思路，跟着老师的节奏来，这是属于大数据的一门课程，可以一边学习架构一边学习大数据
老师介绍：张富强（Javaweb—》Hadoop–》Spark）
前言技术：hdfs yarn hive hbase spark (spark core sparksql sparkstreaming) flume(数据采集) sqoop(关系型数据库和非关系型数据库的转换) kafka(mq)
hdfs：不适合查询
HBase：擅长存储半结构化的数据、非结构化的数据，而且适合查询，改进了hdfs的缺点
Yran：资源管理框架
框架之间的整合和关系
海量数据的存储-----》海量数据的计算总结统计 BI-----》总结与展望机器学习

1.机器学习学习介绍、原理及应用场景
1.1 引入机器学习
总结已学习的技术：之前的技术是用于海量数据的存储和计算
引出机器学习：根据这些数据进行总结和展望
1.2机器学习的应用场景
2016年IBM–“沃森”
推荐系统：亚马孙32%，京东17%
AlphaGo：哈萨比斯
谷歌的无人汽车，百度无人汽车，特斯拉无人汽车
科普：5G时代的到来，为基站时代，边缘计算：八角鱼，区块链实现边缘计算；
1.3机器学习的原理？为什么机器学习可以展望未来？
机器学习（手段）—》使得机器变得智能----》人工智能（目标）
类比人类：如何从什么都不懂变得------》智能
例子：人是如何学会做饭的？
100次做饭的失败经验+思维总结=规律
机器变得智能： 数据（大数据来收集和计算数据）+算法（机器学习）=规律（人工智能），机器学习就是一个个的算，用算法来训练模型就是来找规律
技术来源于生活
改善模式的三个手段：提高数据量和算法、提高数据量、牛逼算法；数据量决定了模型的高度，算法只是逼近这个高度，大数据是机器学习的根基
人工智能岗位：为了业务而做人工智能的公式才是有意义的公司；
之前学的技术是对数据进行总结，是BI，对数据的展望就是人工智能就是AI；
人工智能是目标，是一个交叉学科，实现的手段是大数据+机器学习
深度学习（神经网络）：有一个个神经元组成，一个神经元就是一个算法，可以实现更加复杂的算法，使用神经元的方式将我们的算法连接起来；

2.简单的线性回归算法
大数据的机器学习和人工智能的机器学习是有交集的
大数据的机器学习是为了后面的推荐系统来做铺垫的
这节课来了解简单的线性回归算法-----是一个简单的一元线性方程

y = w0 + w1*x
由
x=1 y=2
x=2 y=3
确定 w0 和 w1
求出这条直线的方程

错题
x=1 y=2
x=2 y=3
x=3 y=5
无法求出一条直线是同时通过这上个点的，这是一个错题
但这是一个机器学习的题目
假如有三亿组这样的（x,y）数据，要求出一条最好的线，这条直线就是我们的目标函数h = w0 + w1*x
先定义什么是最好的一条直线？----空间的点到直线的距离最近的直线
那么如何求出这样一条最好的直线呢？也就是如何在这三亿组数据中找到规律？----机器学习（手段）
规律就是求出直线的w0和w1
量化空间的距离：量化公式J(θ)，公式包含w0 和 w1
使得距离最小就是：量化公式的值最小，即min J(θ),此时的w0和w1就是我们要找的规律，它们表示的直线就是最好的直线；

问题转换

那么有了量化公式J(θ)之后，我们如何找到最小的min值呢？
第一步：确定公式的函数特性（凹凸性、单调性等）
可以验证：J(θ)是一个凹函数，是存在min的，极小值
第二步：求J(θ)最小值的方法
理想的方法：
1）求参数的偏导数
2）令偏导数为0
在海量数据下，如果x特别多，通过偏导数为0来求解w参数基本不可能，需要很多算力；
通过导数=0-----》反推w是不行的；

正常的方法-----梯度下降的方式
正向来式的方法来求得参数的值
1）随机初始化w0 w1的值，
2）将随机的参数w和3亿组数据（训练集数据）带入到误差函数J(θ)中
3）人为的设置容忍的误差值，如0.01，如果此时的误差值小于0.01，那么此时的参数就是可行的；如果此时的误差大于0.01，那么更改参数值（调参），重新的计算误差；
到此为止，模型训练完毕，接着就可以用这个模型来预测数据了；

求出求J(θ)最小值的方法的关键是调参，通过不断的调整w的值，来一步步逼近完美的直线；
机器学习工程师也叫调参工程师
可以把人工智能想象成**找规律**，而机器学习就是找到这种规律的手段和技巧；
调整参数的方法：------梯度下降法（下节课的重点）

三个函数
目标函数：h = w0 + w1*x，是要找的规律的模型；
量化函数：J(θ)，也是叫loss函数，损失函数，误差函数，关注的是点到y的距离，而不是点到直线的距离；
优化函数：梯度下降算法，找出所有可能的loss函数中，loss最小的函数；

本节课的重点：机器学习训练模型的惯用套路
在这里插入图片描述

标签：学习,P1,机器,---,算法,w1,w0,数据
来源： https://blog.csdn.net/jly_0707jly/article/details/118241041

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

机器学习---P1