决策树中的ID3,C4.5,基尼指数

请问下这三个算法,各自的优势在哪里?适用的场景又是什么样的呢?或者数据是服从什么样的分布,那个算法比较好点?求解答。

秦曾昌

赞同来自: fish 泽南Alpha

你提到的基尼指数应该是指CART算法吧? ID3适用于特征离散的情况,如性别, 男,女。ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。在ID3中,每次根据最大信息熵增益选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分。 c4.5可以用于连续的特征,如数据集已经处理为高维的特征向量的形式。ID3采用的信息增益度量存在一个缺点,它一般会优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信息增益。为了避免这个不足C4.5中是用信息增益比率(gain ratio)来作为选择分支的准则。信息增益比率通过引入一个被称作分裂信息(Split information)的项来惩罚取值较多的Feature。除此之外,C4.5还弥补了ID3中不能处理特征属性值连续的问题。但是,对连续属性值需要扫描排序,会使C4.5性能下降 CART是一棵二叉树,采用二元切分法,每次把数据切成两份,分别进入左子树、右子树。而且每个非叶子节点都有两个孩子,所以CART的叶子节点比非叶子多1。相比ID3C4.5CART应用要多一些,既可以用于分类也可以用于回归。CART分类时,使用基尼指数(Gini)来选择最好的数据分割的特征,gini描述的是纯度,与信息熵的含义相似。CART中每一次迭代都会降低GINI系数。 总之CART是最新的,ID3是最简单的。 Ref: 李航. 统计学习方法[M]. 清华大学出版社, 2012.

Gagaq77

赞同来自:

谢谢老师

要回复问题请先登录注册