当样本点太少时,有什么造数据的办法么

问题的背景是这样的,想要通过一个公司员工的网络行为来判断这个员工所属的部门,也就是个多分类问题。但是小公司的员工有限,就几十最多几百个。因此想到把一个员工一天的网络行为作为一个样本,然后将一段时期的数据点拼接起来,不知道这么想靠不靠谱
已邀请:

Eric_Jiang - 我是小象的搬运工!!!

你想解决什么问题?  如果只是判断是那个部门, 而且还是小公司. 我觉得没有实践意义.
你是要判断员工的异常行为, 然后判断是哪个部门?  你这样进行异常值检测, 然后对异常的对应部门不就好了?
 不明白你的原问题是什么.
原始问题是: 想通过员工的网络行为判断是哪个部门。但是目前只能用自己公司的数据去训练,拿不到别的样本。可以把这看成是一个练习题……

邹博 - 计算机科学博士,深谙机器学习算法原理

如果是对于样本有限的问题,的确是可以“造数据”的,如SMOTE方法。
在《机器学习升级版》的“不平衡数据”内容中也涉及了相关问题;如果是这样的场景,SMOTE也可以只针对少数类做数据合成。

1478911733799.png


 
恩恩,好的。我先去学习下,谢谢邹博老师,谢谢姜半仙

要回复问题请先登录注册