ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

机器学习笔记(二):理解简单线性回归与最小二乘法误差判定

2019-01-25 12:04:50  阅读:375  来源: 互联网

标签:误差 函数 回归 最小 笔记 判定 线性 最优 乘法


毕设需要做一个文本二分类器,涉及python和机器学习及其相关知识,参考西瓜书和李航的《统计学习方法》,嗯,一大堆不太友好的公式,万事开头难,加油。

(一)首先了解一下机器学习的各部分组成:

1.知识:大量的数据集
2.算法:公式(神经网络各种算法来帮助机器选择算法)
3.模型:参数
4.预测:得到最优模型参数后,带入新的数据进行计算得到结果

(二)如何做线性回归?

1.理解回归:

A : 回归问题主要关注确定一个唯一的因变量(需要预测的值)和一个或多个数值型的自变量(预测变量)之间的关系

B: 广义线性回归如逻辑斯蒂回归,呃…后面会学到,是二分类问题的重点

C: 简单线性回归:y = a*x + b

假设蓝色直线为某个简单线性回归的最优模型
圆圈为样本真实值,直线上的值为预测值

假设蓝色直线为某个简单线性回归的最优解
x:影响y的因素,维度
例如.有X1Y1 , X2Y2 , X3Y3, X4Y4 四组数据
用任意两组X,Y来求出两组a和b,当这两组a,b最接近时,即为最优解,a,b为最优模型

D: 做机器学习,就是要以最快的速度(使用各种算法公式)找到误差最小的最优解,等同于找误差函数最小的那一时刻。

而找最小误差函数需要引入最小二乘法

2.最小二乘法

在这里插入图是片描述

A:引入目的:尽可能的让预测函数穿过全部样本点

B:“尽可能”的含义是使得误差最小,如上图所示,设共有m个样本点(圆圈),i∈m,yi为样本点真实值,y^i为样本点对应横轴对应的蓝色直线上的预测值。
在这里插入图片描述
εi代表每个样本点的误差

目标函数=损失函数=Loss=
在这里插入图片描述
C: 当目标函数最小,即真实值与预测值的误差最小。
根据最小二乘法求得误差,反过来误差最小的时刻的a,b就是最终最优解模型。

学到这里,我的个人理解,就是首先要得到一个完整的数据集(在我的毕设里即用python爬取网页信息并处理为有效数据集),然后以简单线性回归方程 y=ax+b 为例子,带入数据集,求出无数条直线段,即所有可能的最优解模型,再用最小二乘法来求出目标函数即Loss函数,此值代表着误差,选出目标函数结果最小的模型(即上图的蓝色直线),即为这个数据集的最优解模型。*

但现实中的事件往往具有很多个影响因素,列举周志华《机器学习》一书中的例子,判断一个西瓜是否为好瓜,要从色泽,根蒂,敲声等几个方面综合考虑,而上述呃对简单线性回归方程只有一个x(即只有一个影响因素,如敲声),明显不能更准确的得到预测结果,于是便引入了下面的 “多元线性回归”

emmm…下午要出去玩,晚上回来整理多元线性回归以及公式推导,还有到底为什么最小二乘法公式中误差的绝对值要加平方呢??
会在下一篇 《机器学习笔记(三):多元线性回归与正态分布最大似然估计》中讨论。

标签:误差,函数,回归,最小,笔记,判定,线性,最优,乘法
来源: https://blog.csdn.net/qq_33174752/article/details/86638960

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有