shixing

shixing

威望 : 72 赞同 : 70 感谢 : 9

擅长话题

更多 »回复

0

语音方面我不太了解,所以没有办法回答你  

1

多层LSTM的hidden size是一样的

1

不是h4, 就是h5, 这个需要注意,你仔细推导一下cross_entropy的偏导的公式就懂了。

0

不加转置,结果是错误的吧。。。

0

一般来说 y = f(Wx+b), x和y中的每个数字都可以叫做神经元,一个中间向量的每个值都是神经元。所以LSTM中, ct, ht,甚至forget gate, input gate等各个gate的值,都可以叫神经元。    feature本质上就是某一个...

0

一般来说,word2vec有input-embedding, output-embedding, output-embedding-bias. 貌似一般用input-embedding作为feature.    其他的参数中肯定也有信息,但是如果要跟word对...

1

对于两层的lstm, dropout 发生在input embedding 到第一层;第一层到第二层;第二层到softmax

2

以后直接使用tf.variable_scope即可

0

python dict足以

0

你的命令是“python run.py”么? 都没有任何参数? 

0

LSTM层中不同位置的参数theta是一样的,但是在backprop的时候不同位置得到的dJ/d theta不一样。所以最后对theta的gradients是将不同位置的dJ / d theta加起来。

1

一般来说是相当的。当然你也可以认为的设置成不等。

1

loss =  \sigma_i - 1 * log(p_i).    ppx = exp ^ ( - 1/N * \sigma_i log(p_i)) = exp( loss / N )

1

请详细看create_model的函数内部是什么。    当时force_decode的时候,我们同样要画模型的计算图,但是要从保存的模型中load进来参数的数值。

0

应该没有区别吧,都是不考虑每个字在文章中的顺序,同时每个词的权重换成了tf-idf

更多 »发问

没有内容

更多 »动态

发问

回复

文章

最新动态

我的交易

类型 时间 数额 支付方式 状态 描述

提现记录

时间 金额 卡号 银行 持卡人 手续费 状态 描述

审核记录

时间 类型 状态 描述
更多 » 关注 8

admin ChinaHadoop 木舟 fish 傲风寒

更多 » 29 人关注

jichen kbwzy Sunshine阳光 realike 小鸡仔

关注 0 话题
主页访问量 : 2267 次访问