@Robin_TY 关于kaggle竞赛泰坦尼克号幸存预测的问题

您好,梁老师:
      python人工智能课程已经学习了4个课时,根据您的建议在kaggle上找了一个入门的机器学习竞赛 -- Titanic: Machine Learning from Disaster。通过之前学习的知识以及翻阅资料完整的对一个数据进行数据处理,数据分析,特征抽取,建模以及预测。提交预测结果发现得分很低,但后续优化方向不是很清楚,现有几点疑问:
  1. 该数据年龄缺失较为严重,但分析年龄和幸存的相关性较大,且数据量少,需要补填该值。目前选择的方式是通过性别,登船港口,船票等级和船票费用等级(分箱后)分组取中位数。这种方式感觉比较粗暴,是否该选择一个模型来预测缺失年龄呢,那么有该怎么哪种模型呢?
  2. 在模型选择上面,用了第4课时中的几种(逻辑回归,决策树,支持向量机,K-近邻算法,随机森林),发现每种模型的预测结果相差挺大,而同一种模型不同参数也有很大差异。现在是否需要花费大量时间去了解每种模型原理或者参数?
  3. 神经网络或者深度学习对这种二分类问题是否有更好的效果?
  4. 是否应该在特征工程上面再想法子?

附件是我分析该问题的代码,请梁老师给予一些建议和指点!

要回复问题请先登录注册