python数据分析第三期 一些问题

梁老师 好
 我是第三期python数据分析的学员,有几个疑惑想请教。
 大概介绍一下我的背景:
 我的专业背景是物理学,本科和硕士都是物理,统计知识和编程都是自学的,基础一般。
目前在一家保险公司从事数据分析工作。目前接触到的数据都是静态的,大概1T,日常的主要工作就是使用SAS进行数据分析。就目前的数据量,而且是静态的、结构化数据,用SAS应该是够了。
 但大家现在都在说大数据,和人工智能,大数据分析技术也确实很适合保险公司,自然我也关注到这点。
 所以,想请教如果要学习大数据分析的话,需要学习哪些?能否具体推荐一些教材?
1)数据库知识是否必须要掌握?
2)python的数据处理大小是跟内存容量有关的,1T的数据不算大,即使分块到几十个G一个文件,估计python处理起来也费劲吧?
3)不知道梁老师是否用过SAS?我看过《python基础教程》、《集体智慧编程》、《利用python进行数据分析》等一些书,了解比较局限,也没有项目经历。所以,相对SAS或其他统计软件,python到底优势在哪里?
4)另外统计知识需要了解到哪个层次?有具体推荐的参考书吗?对我来说,写什么新算法我是不指望了,够用就好。
5)从您之前的项目经历看,数据分析这一块,哪些软件或者知识用的比较多,如果方便的话,能否一并告知我了解一下?
 
 

Robin_TY - PhD@CSU,研究方向:计算机视觉,模式识别

赞同来自: 吴刚 fish

1) 基本的数据库知识还是必备的,实际项目中的数据不可能全部都来源于独立的文件,有很多都是存在于数据库中的;而且数据分析中有很多是可以利用SQL语句操作数据库从而提高效率的; 2) 主要还是看机器的性能,如果是通过分布式处理的话,Python完全可以胜任,数据量和编程语言没有直接的关系,还是要看硬件设备及是否使用分布式或大数据的相关技术; 3) SAS我个人没有用过。和Python的区别就是,SAS是统计分析软件,Python是一门编程语言,开源,Python除了可以做数据分析,还可以做很多其他编程语言做的事情,比如Web开发,网络爬虫,机器学习,服务脚本等等,同时可以方便的集成到现有的系统中。SAS相对来说就没有这么灵活了,而且是收费的,在公司里用的比较多,但是对于个人来说,价格上是个考虑的因素。 4) 初步的数据分析不需要特别深入的理解统计学知识,关于书籍可以参考免费的电子书:Think Stats( http://greenteapress.com/wp/think-stats-2e  ),里面的例子都是用Python实现的,对Python的熟悉和掌握都很有好处; 5) Excel + Python + 简单的机器学习技巧,基本可以应付大多数的数据分析了。建议多练手Kaggle上的数据集,或者参加一些国内或国际上的数据分析/挖掘的竞赛(不是为了拿名次,而是更多地涉猎不同领域的数据分析问题)。   希望以上回复能帮助到你~~~

吴刚

赞同来自:

谢谢梁老师的回复,关于数据库或者大数据技术能推荐一两本入门书籍吗?

吴刚

赞同来自:

好的 谢谢梁老师

要回复问题请先登录注册