你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
输入关键字进行搜索
搜索:
发现
问题
笔记
话题
登录
注册
自然语言处理之序列模型
文本分类,但是每一个类别的数据量差别很大,应该怎么处理,需要让所有类的文本数量都差不多吗?
假设训练集中
1类有1万个
2类有1千个
3类有5千个
训练集是不是每个类都只取一千个左右。
与内容相关的链接
提交
1 个回复
shixing
赞同来自:
莫尕坤
、
fish
方法一: 每个类都取1000个 方法二: 每个类赋予不同的weight, weight_1 = 1.0 weight_2 = 10.0 weight_3 = 2.0. 就是在你算loss的时候加入这些weight 但是我的经验是,这种问题很难解决,个别类别的数据量太少就是先天的缺陷。最好的解决方法就是继续收集数据。。。
要回复问题请先
登录
或
注册
发起人
莫尕坤
相关问题
第二课《2 分布式数据收集:Flume 原理与应用》
大学生去阿里巴巴总部参观应该关注哪些问题?各位上班人士,多多建议!非常感谢!
大数据的走向会无休止吗?spark之后有flink,在之后呢?
DCon2015 中国大数据技术嘉年华——资料导航帖
第五课贝叶斯垃圾邮件分类代码部门有处逻辑没看懂,请解答
对历史大数据,进行实时交互式查询(秒级)?
请教一个问题,hive导入hbase时,中文变成了乱码应该如何解决。。
邹博老师在决策树一节回答的问题,在有偏的情况下要“重采样”。为什么在不同类别数据不平均时,要重采样或降采样呢?直接用不行吗?直接用在影响决策树的哪个地方?谢谢!
hbase 大数据存储 内存溢出。
启动Hadoop集群: Step1 : 在各个JournalNode节点上,输入以下命令启动journalnode服务: sbin/hadoop-daemon.sh start journalnode Step2: 在[nn1]上,对其进行格式化,并启动: bin/hdfs namenode -format sbin/hadoop-daemon.sh start namenode Step3: 在[nn2]上,同步nn1的元数据信息: bin/hdfs namenode -bootstrapStand
Hive中千亿行数据的group by操作无法作业的问题
问题状态
最新活动:
2017-08-11 02:05
浏览:
253
关注:
3
人
1 个回复
shixing
赞同来自: 莫尕坤 、fish