逐步判别法,也叫逐步回归过程(stepwise regression procedure),是一种建立回归模型的方法。从候选变量集合中添加或移除(以逐步的方式)进入模型,直到没有理由在模型中添加或移除任何变量。
详细步骤
首先
设置逐步模型决定接受一个候选变量的显著性水平(significance level),称作Alpha-to-Enter显著性水平,记作𝜶E。设置从逐步模型中移除一个候选变量的显著性水平,称作Alpha-to-Remove显著性水平,记作𝜶R。
许多软件包都将𝜶E和𝜶R设置为0.15,而不是一般的0.05。使得候选变量不至于太难进入模型或者很容易地从模型中被剔除。
步骤一
- 拟合每一个单预测因子模型,即在x1上回归y,在x2上回归y,…,在xp-1上回归y。
- 在那些t检验P值小于𝜶E=0.15的预测因子中,选择t检验P值最小的预测因子作为逐步模型中的第一个预测因子。
- 如果没有任何预测因子的t检验的P值低于𝜶E=0.15,则结束。
步骤二
- 假设x1具有最小的t检验的P值,且低于𝜶E=0.15,因此认为它是第一步产生的”最佳”单一预测因子。
- 拟合每个包含预测因子x1的双预测因子模型,即在x1和x2上回归y,在x1和x3上回归y,…,在x1和xp-1上回归y。
- 在这些t检验的P值低于𝜶E=0.15的预测因子中,选择t检验的P值最小的预测因子作为第二个预测因子加入模型。
- 如果没有预测因子t检验的P值低于𝜶E=0.15,则结束。模型仅有第一步中获得的一个预测因子。
- 否则,假设x2被认为是第二个”最佳”预测因子,因此将其加入模型。
- 现在,由于x1是模型中的预测因子,回退观察逐步模型中加入预测因子x2是否在某种程度上影响了预测因子x1的显著性。检查𝜷1=0时,t检验的P值。如果P值变得不显著,即P值大于𝜶R=0.15,将x1从逐步模型中移除。
步骤三
- 假设x1和x2入选了双预测因子模型,且未被剔除。
- 拟合每个包含预测因子x1和x2的三预测因子模型,即在x1,x2和x3上回归y,在x1,x2和x4上回归y,…,在x1,x2和xp-1上回归y。
- 在这些t检验的P值低于𝜶E=0.15的预测因子中,选择t检验的P值最小的预测因子作为第三个预测因子加入模型。
- 如果没有预测因子t检验的P值低于𝜶E=0.15,则结束。模型仅有前两步中获得的两个预测因子。
- 否则,假设x3被认为是第三个”最佳”预测因子,因此将其加入模型。
- 现在,由于x1和x2是模型中的预测因子,回退观察逐步模型中加入预测因子x3是否在某种程度上影响了预测因子x1和x2的显著性。检查𝜷1=0或𝜷2=0时,t检验的P值。如果P值变得不显著,即P值大于𝜶R=0.15,将x1或x2从逐步模型中移除。
示例
注意
- 不保证最终模型在任何特定意义上是最佳的。(非最佳)
- 该程序产生一个最终模型,但一般还有几个同样好的模型。(非唯一)
- 逐步回归不考虑研究人员对预测因子的知识经验。也许将这些重要的预测因子加入模型是有必要的。
- 不应该对变量入模的顺序进行过度解读。
- 不应该得出这样的结论:所有预测y的重要的预测因子变量都被识别出,所有不重要的预测因子都被消除。这是两种在逐步回归过程中容易犯的错误。
- 由于逐步回归过程中包含了很多𝜷k=0的t检验,因此有很大的概率,我们选中了一些不重要的预测因或删除了一些重要的预测因子。