时间序列数据如果前后数据之前有较强的关系,是否需要加工一些新的特征。

比如股票数据,包括股票id,股票价格、收盘开票价格、交易量,交易额度,但是股票涨跌的原因跟前一段时间的数据有比较大的关系,是否还需要加工一些特征,比如前30天平均交易量,最大、最小价格等等。

cunywei

赞同来自: fish intersaga

相邻时间的信息肯定有用,建议看下LSTM进行时间融合方面的知识应该会有帮助。我试过临近特征LSTM用于视频行为监测的例子,效果增加的还是很明显的

cunywei

赞同来自: intersaga

LSTM需要样本在时间上具有连续性,常用的处理方法是通过CNN或别的特征提取方法将原始样本用某种一维特征表达,然后将一位特征送到LSTM网络入口,你选择只要最后一时刻的LSTM输出活着所有时刻的。最终直接把这个输出接到DNN网络进行回归或者分类。 要了解更多可以看下LSTM,CNN结合的文章 比如 ​http://www.cv-foundation.org/o ... r.pdf

intersaga

赞同来自:

我对LSTM的还不是很理解,目前其他的深度学习网络都是针对一个一个的样本进行独立学习,比如卷积神经网络学习图片,隐藏层学习一些边的性质或一小部分面的性质,其信息来源都在图片中有所体现,但时间序列样本需要学习的信息来自于多个样本之间,LSTM是需要把这些相关的样本都整合到一个样本中才能把这种序列关系学习出来吗。

intersaga

赞同来自:

谢谢老师的回答,我先看看文章,顺着这个话题还有两个问题:一个是用深度学习,数据还需要归一化吗,如果两个特征的取值范围差别比较大,比如一个特征的取值范围为-10-10,另一个特征的取值范围为0-1000000。第二个问题是对于一些字符类型的特征如何处理,如果特征取值范围就几十个,可以采用one-hot编码,如果特征取值范围是上亿个,就无法采用one-hot编码了,那么这种特征是直接丢掉,还是有其他处理方法?

cunywei

赞同来自:

(1)归一化对深度学习也比较重要,图片处理中经常会有图片减去平均值除以255的操作。(2)one-hot encoding没有用过,特征范围多了主要分析特征之间的联系吧,用较少的比较特征代替直接对应特征比如pca的主向量或者word2vec这种(直观感觉)。

intersaga

赞同来自:

另外,深度学习对于非常不平衡的数据需要处理吗,比如正例和反例的比例万分之一。

cunywei

赞同来自:

平衡性深度学习中非常重要,不平衡数据会造成非常严重的偏差。需要尽量使T/F例子平衡。

要回复问题请先登录注册