关于特征选择重要度的疑问

我在用sklearn,例如随机森林,逻辑回归等,建模之后,查看特征的重要度。如果是数值型是没有问题的,如果是分类变量,已经都转为了很多哑变量,这些哑变量的重要度都很分散,如何还原成原变量的重要度呢?

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: fish 风中摇曳SA

个人感觉,可否使用该特征对应的若干哑变量的加权和?比如,对于“城市”这一特征,分解成“是否一线城市”、“是否省会”、“是否地级中心市”等(从而方便使用one-hot编码),这样,“城市”的特征即上述这些特征的(加权)“和”。

要回复问题请先登录注册