one-hot encoding遇到向量空间外新词

在用one-hot encoding计算句子相似性时,如果遇到了句子中的词在向量空间中,之前并没有出现过,就需要增加向量的维度。
 
如果这时候vector space已经非常大了,每遇到一个新词,都要更新一次vector space,那时间上岂不是非常慢,在实际工作应用中,是怎么处理的?
遇到没有出现过的词语,就当做<UNK>来处理就好了。在你训练集足够大的时候,UNK的概率不高。如果当你遇到很多UNK的时候,就是时候考虑一下把这些词考虑进来,也就是增大训练数据重新训练。(我不太了解如何进行增量的学习,但是貌似也有方法可以做)。另外,增加新词,并不是增加向量的维度。维度一般来说是不变的。属于hyperparameter。
1.更新一次vector space,应该是在用Seq2Seq 之前的预处理环节,更新字典不费事。 2.Seq2Seq 模型里面需要需要反复修正参数,参数空间都是V*D。有GPU不算事。

要回复问题请先登录注册