各位大佬,这个数据分析题目怎么解,题目所有数据在附件中

任务四、根据现有数据,编写分析报告,分析电影市场情况并预测观众群对“四合影业”计划投拍的电影《青春的竞赛》的评分。(30分)
    请从arg04子目录中选取需要的数据文件,依据观影俱乐部的观众评分(评分为10分制),利用统计图表分析说明影片类型、导演等因素对观众的影响,以及导演擅长的电影类型,最后预测某观影俱乐部中的5位会员对于《青春的竞赛》的评分范围,本赛题需要提交分析报告和相关程序,本题的赛前抽取参数是5个会员ID(保存于id04.txt文件中)和数据文件。
分析报告和所提交的程序的要求:
1、    利用WPS或WORD软件完成分析报告,文件名为anl0400.doc或anl0400.docx,报告中需要明确描述分析方法,分析过程。
2、    分析报告中用明确的表格显示以下数据,评分最高值,评分最低值,评分中位数,评分均值 。
3、    分析报告中至少包含三种图,分别能够表达“各种类型片票房收入比较”,“导演票房收入比较”,“导演执导过的影片类型”的内容。
4、    提交支撑程序名为ans0400.py,要求程序运行后不可做任何人为操作,自动完成以下任务:
1)    在一个子图系统中输出要求3中所提及的三种图,该子图水平排列,顺序以要求3所列顺序为准,每个子图的具体形式不限。程序能够有提示地输出4个数据:评分最高值,评分最低值,评分中位数,评分均值。
2)    要求按次序将分析得出的评分最高值,评分最低值,评分中位数,评分均值,存入ans0400.dat文件中,要求ans0400.dat只包含所要求的4个浮点型数据,每个数据保留2位小数,英文逗号分隔,不分行,文件样例如下:
9.12,2.65,6.12, 5.68

小象老师

赞同来自:

请问这是那个课的问题?

openyun1

赞同来自:

这个一个竟赛出的题目,数据分析的题

jane3von

赞同来自:

spark的mllib中有很多算法,看起来这个题目可以看看分类和回归方面的算法,推荐的话有协同过滤算法

要回复问题请先登录注册