还有一事不解 , 在一个word不存在于已有的词典的情况下 pw_s 和pw_n是怎么设定的呢?还有那个0.47,还有取15个词的设定是怎么定出来的, 是不断调出来的吗?有没有大概的设定范围?


300.jpg

 

秦曾昌

赞同来自: wangxiaolei

这个问题之前在群里讨论过,这些参数都是一些工程经验,如果实在想要得到最优的模型可以利用格点搜索与交叉验证的方式去调节超参数

小康康

赞同来自:

0.47是先验概率的值,和取的样本的数量有关,span邮建数量,norm邮建数量

时间不再回头 - 一句话介绍

赞同来自:

取0.5也可以吧?应该是考虑到其他点取了0.47,应该也可以看看垃圾邮件的词的发布,然后取个均值,这样比较复杂

左左c90

赞同来自:

当一个词不存在于已有词典的情况下,就用样本数量来判断概率,不合适吧……   还有0.01是怎么来的...目前这个模型的accuracy到94%,如何判断用朴素贝叶斯的方法来做垃圾邮件分类的瓶颈呢,以上的参数无论怎么调,精度上限在哪里呢?

要回复问题请先登录注册