马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本帖最后由 一一 于 2021-8-5 15:21 编辑
来源:网络
1.什么是回归分析(Regression)
1.1定义:确定两种或两种以上变量间相关关系的一种统计分析方法。回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。
1.2.分类
按照涉及的变量的多少,分为一元回归和多元回归分析;
按照因变量的多少,可分为简单回归分析和多重回归分析;
按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
2.线性回归的步骤
- 散点图判断变量关系(简单线性)
- 求相关系数及线性验证;
- 求回归系数,建立回归方程;
- 回归方程检验;
- 参数的区间估计;
3.评价回归线拟合程度的好坏
在统计学中有一个术语叫做R^2(叫判定系数、拟合优度,决定系数,R^2是“R的平方”),用来判断回归方程的拟合程度。
判定系数R^2来判断回归方程的拟合程度,表示拟合直线能多大程度上反映Y的波动。
相关系数R(这个没有平方,学名是皮尔逊相关系数,因为这不是唯一的一个相关系数,而是最常见最常用的一个),用来表示X和Y作为两个随机变量的线性相关程度,取值范围为(-1,1)。 - 当R=1,说明X和Y完全正相关,即可以用一条直线,把所有样本点(x,y)都串起来,且斜率为正,
- 当R=-1,说明完全负相关,及可以用一条斜率为负的直线把所有点串起来。
- 如果在R=0,则说明X和Y没有线性关系,注意,是没有线性关系,说不定有其他关系。
4.变量的显著性检验 - T检验用于对某一个自变量Xi对于Y的线性显著性,如果某一个Xi不显著,意味着可以从模型中剔除这个变量,使得模型更简洁。
- F检验用于对所有的自变量X在整体上看对于Y的线性显著性
- T检验的结果看P-value,F检验看Significant F值,一般要小于0.05,越小越显著(这个0.05其实是显著性水平,是人为设定的,如果比较严格,可以定成0.01,但是也会带来其他一些问题,不细说了)
|