adaboost算法

adaboost算法中,有一个衡量特征向量在分类时的重要性的评价,请问特征向量重要性是怎么计算的?为什么结果中指标的重要性是用百分比表示的呢?

wgb - 机器学习与数据挖掘从业者

赞同来自: MyPFworld

可以参考一下《The Elements of Statistical Learning》这本书中,10.13.1 Relative Importance of Predictor Variables 这一小节。 在第10版中是367页

wgb - 机器学习与数据挖掘从业者

赞同来自: MyPFworld

Adaboost对于变量相对重要性的度量,其实还是依据单棵决策树对于变量重要性的度量(差别在于Adaboost做了一个平均)。   单棵决策树对于变量重要性的度量,其实就是依据当在做分类的时候,加入这个变量之后,对于分类结果的提高量。其核心思想有点像信息增益的概念!   ps:在Adaboost中,我们选取的绝大多数基分类器都是决策树

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: MyPFworld

根据我做的试验结果,使用Adaboost做的决策树提升,比随机森林更加“锯齿”一些——这个结果无关好坏,只是我试验的客观结果之一。   随机森林:
RF.png
Adaboost:
Adaboost.png
 

MyPFworld

赞同来自:

谢谢!我看了这本书上对变量的相对重要性的解释,没有看的十分理解,请问能否给解释一下呢?谢谢!

lousiainwuhan

赞同来自:

“ps:在Adaboost中,我们选取的绝大多数基分类器都是决策树”这个与 决策树组成的随机森林相比 差异 优劣在哪里呢?

 

MyPFworld

赞同来自:

谢谢各位老师的回答!

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自:

从直观上来看,因为Adaboost加入了样本的权值,可以使得下一个基分类器更加有效的针对尚未分类正确的样本,从这个角度看,似乎Adaboost在这一点上是由于RF的。从我个人的实践而言,相同的样本和基分类器,要在训练集上得到同样的分类精度,往往Adaboost需要的基分类器数目少于RF。 ——多说一句,这仅仅是少数几次试验的结果,勿过于相信。毕竟,在过拟合的问题上,似乎RF又优于Adaboost。

要回复问题请先登录注册