为什么ReLu对线性不可分的数据集起作用

问题1:为什么ReLu对线性不可分的数据集起作用呢?ReLu并不是非线性变换呀。
问题2:sigmoid和tanh的偏导都是在0值附近比较大,那dropout去掉的正是数值较小的,这样不会对梯度值产生较大影响吗?
问题3:用基于LSTM的RNN做事件时间序列建模,输入是一些属性特征。由于属性数目巨大,输入向量很稀疏(只有少量几维为1,其余为0),这种情况下,在进入RNN前需要做embedding吗?标注向量在多维上都有数值,如果我想在输出层使用softmax,以及使用cross-entropy做loss,标注向量是使用  (A) [1,1,1,0,0,0] 、(B)[1/3,1/3,1/3,0,0,0],哪一种形式呢?
我是新手,非常感谢您的帮助!

shixing

赞同来自: 谈jiao fish

1. RELU可以将负值边成0,这本身就是非线性的操作。 2. dropout并不是按照数值去drop的,而是根绝概率去drop的,跟这一维的值没有关系 3. RNNLM里面,我们是对每个词都embedding了。应该选(B)

要回复问题请先登录注册