决策树和随机森林中离散输入变量怎么处理

邹老师,那个提供的决策树和随机森林的代码好像输入变量只能是数值型(鸾尾花数据)。提供的代码是不是只能处理数值型的输入变量?对于输入变量含有离散变量的情况下,该如何修改代码?我建议在课程中尽量能使用特征比较多、数量大的数据集作为例子,这样讲代码时也可以顺便讲在算法中特征如何提取。

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自:

这是《机器学习升级版III/IV》中“决策树和随机森林实践”章节的问题。 根据表述,问题中说的“数值型”和“离散型”应该是不同意思。是否是指的:如果数据类型是数值(int/float等),就叫“数值型”;如果数据类型是其他类型(如string),就叫“离散型”? 如果是这样,其实鸢尾花数据本身就是“离散型”了。在读取这个数据的时候,使用了numpy或pandas做了y的变换的(虽然很简单)。如果关注特征,可以参考课程的配套代码6.4.PCA_FeatureSelection.py和6.6.LR.py,涉及更为细致的特征选择问题。

刘慧颖

赞同来自:

邹老师,请问随机森林是否可以同时利用分类变量和数值变量做为解释变量计算对因变量的重要性排序?

要回复问题请先登录注册