大数据应用大家谈

大数据应用大家谈

开发语言选择

罗江宇 回复了问题 3 人关注 2 个回复 1678 次浏览 2018-03-12 10:05 来自相关话题

海量数据如何去重?

fish 回复了问题 2 人关注 3 个回复 1845 次浏览 2018-03-05 17:40 来自相关话题

日志分析,统计每个人在网站上,点击功能菜单的情况

回复

tl_oni 发起了问题 1 人关注 0 个回复 1366 次浏览 2018-03-03 18:29 来自相关话题

企业中如何选择这种结构化和非结构化的数据仓库

fish 回复了问题 2 人关注 1 个回复 1367 次浏览 2018-01-03 23:09 来自相关话题

Hadoop与Spark如何选择

fish 回复了问题 2 人关注 1 个回复 1387 次浏览 2017-09-10 21:26 来自相关话题

大数据和机器学习在共享单车行业有没有很好的落地场景?

邹博 回复了问题 2 人关注 1 个回复 1479 次浏览 2017-07-13 08:52 来自相关话题

如何利用地点和人物的数据,分析时间

赵波 回复了问题 3 人关注 3 个回复 1686 次浏览 2017-05-08 13:40 来自相关话题

求推荐靠谱第三方推送平台!!!

计算小学生 回复了问题 3 人关注 2 个回复 1666 次浏览 2017-02-21 10:42 来自相关话题

关于网络爬虫 “yield request”的作用

moriweiji 回复了问题 3 人关注 2 个回复 2787 次浏览 2017-02-21 00:34 来自相关话题

求推荐分析型数据库

wlxwolves 回复了问题 3 人关注 2 个回复 2094 次浏览 2017-02-08 17:24 来自相关话题

大的xml数据文件如何存进数据库或者表中

回复

haichao1990 回复了问题 2 人关注 1 个回复 1480 次浏览 2016-12-22 17:05 来自相关话题

日志分析,系统如何设计,我在做系统原型。

fish 回复了问题 3 人关注 4 个回复 1923 次浏览 2016-12-13 16:53 来自相关话题

如何将一个普通的单机程序转为并行程序?

fish 回复了问题 2 人关注 1 个回复 1494 次浏览 2016-10-14 23:53 来自相关话题

推荐系统模型

邹博 回复了问题 3 人关注 1 个回复 2408 次浏览 2016-06-27 22:58 来自相关话题

谁能给几个推荐领域的顶级会议

wgb 回复了问题 2 人关注 1 个回复 1792 次浏览 2016-06-15 21:28 来自相关话题

求一个筛选网页正文的算法

fish 回复了问题 2 人关注 1 个回复 1543 次浏览 2016-05-23 12:35 来自相关话题

NiFi在大数据环境下的企业数据自动化集成是这样的

回复

MikanaCu 发起了问题 1 人关注 0 个回复 21945 次浏览 2016-05-13 01:41 来自相关话题

人工智能交流——吴恩达

回复

傲风寒 发起了问题 1 人关注 0 个回复 1943 次浏览 2016-04-15 21:40 来自相关话题

AlphaGo 真的如此重要么?

回复

Eric_Jiang 发起了问题 1 人关注 0 个回复 1280 次浏览 2016-04-05 09:49 来自相关话题

Zalando邱腾——Big Data Platform as MicroService,DCon2015文字实录

回复

chutium 发起了问题 8 人关注 0 个回复 6753 次浏览 2015-11-18 15:53 来自相关话题

奇虎360傅志华——大数据应用与展望,DCon2015文字实录

回复

tony 发起了问题 10 人关注 0 个回复 8688 次浏览 2015-11-18 15:40 来自相关话题

开发语言选择

回复

罗江宇 回复了问题 3 人关注 2 个回复 1678 次浏览 2018-03-12 10:05 来自相关话题

海量数据如何去重?

回复

fish 回复了问题 2 人关注 3 个回复 1845 次浏览 2018-03-05 17:40 来自相关话题

日志分析,统计每个人在网站上,点击功能菜单的情况

回复

tl_oni 发起了问题 1 人关注 0 个回复 1366 次浏览 2018-03-03 18:29 来自相关话题

企业中如何选择这种结构化和非结构化的数据仓库

回复

fish 回复了问题 2 人关注 1 个回复 1367 次浏览 2018-01-03 23:09 来自相关话题

Hadoop与Spark如何选择

回复

fish 回复了问题 2 人关注 1 个回复 1387 次浏览 2017-09-10 21:26 来自相关话题

大数据和机器学习在共享单车行业有没有很好的落地场景?

回复

邹博 回复了问题 2 人关注 1 个回复 1479 次浏览 2017-07-13 08:52 来自相关话题

如何利用地点和人物的数据,分析时间

回复

赵波 回复了问题 3 人关注 3 个回复 1686 次浏览 2017-05-08 13:40 来自相关话题

求推荐靠谱第三方推送平台!!!

回复

计算小学生 回复了问题 3 人关注 2 个回复 1666 次浏览 2017-02-21 10:42 来自相关话题

关于网络爬虫 “yield request”的作用

回复

moriweiji 回复了问题 3 人关注 2 个回复 2787 次浏览 2017-02-21 00:34 来自相关话题

求推荐分析型数据库

回复

wlxwolves 回复了问题 3 人关注 2 个回复 2094 次浏览 2017-02-08 17:24 来自相关话题

大的xml数据文件如何存进数据库或者表中

回复

haichao1990 回复了问题 2 人关注 1 个回复 1480 次浏览 2016-12-22 17:05 来自相关话题

日志分析,系统如何设计,我在做系统原型。

回复

fish 回复了问题 3 人关注 4 个回复 1923 次浏览 2016-12-13 16:53 来自相关话题

如何将一个普通的单机程序转为并行程序?

回复

fish 回复了问题 2 人关注 1 个回复 1494 次浏览 2016-10-14 23:53 来自相关话题

推荐系统模型

回复

邹博 回复了问题 3 人关注 1 个回复 2408 次浏览 2016-06-27 22:58 来自相关话题

谁能给几个推荐领域的顶级会议

回复

wgb 回复了问题 2 人关注 1 个回复 1792 次浏览 2016-06-15 21:28 来自相关话题

求一个筛选网页正文的算法

回复

fish 回复了问题 2 人关注 1 个回复 1543 次浏览 2016-05-23 12:35 来自相关话题

NiFi在大数据环境下的企业数据自动化集成是这样的

回复

MikanaCu 发起了问题 1 人关注 0 个回复 21945 次浏览 2016-05-13 01:41 来自相关话题

人工智能交流——吴恩达

回复

傲风寒 发起了问题 1 人关注 0 个回复 1943 次浏览 2016-04-15 21:40 来自相关话题

AlphaGo 真的如此重要么?

回复

Eric_Jiang 发起了问题 1 人关注 0 个回复 1280 次浏览 2016-04-05 09:49 来自相关话题

我讨厌与喜欢GNU/Linux的五点地方

MikanaCu 发表了文章 0 个评论 1386 次浏览 2015-11-28 22:15 来自相关话题

译者:孙薇 原文链接:http://www.tecmint.com/things-i-dislike-and-love-about-gnu-linux/ 小象科技原创作品,欢迎大家疯狂转发; 机构、自媒体平台转载务必至后台留 ...查看全部
译者:孙薇
原文链接:http://www.tecmint.com/things-i-dislike-and-love-about-gnu-linux/
小象科技原创作品,欢迎大家疯狂转发;
机构、自媒体平台转载务必至后台留言,申请版权。
 
首先要说明的是,本文的初稿引起了激烈的争论(http://www.tecmint.com/why-i-hate-linux/)因此笔者决定不再使用“讨厌”这个令人不适的词,而改用“不喜欢”。


也就是说,请记得本文的观点完全出自笔者的自身经验,也许与他人相似,也许不同。此外,我很清楚在体验这些所谓的“不喜”时,它们也许恰会成为Linux在实际中的优势。不过在用户尝试改用Linux时,这些事实也经常会成为阻碍。
 
第一不喜:从Windows转到Linux时,学习过程曲折
对于曾将微软的Windows作为生活一部分的人来说,必须在安装新软件前先习惯并理解诸如资源库、依赖、程序包以及程序包管理器之类的概念。
而要不了多久你就会发现,想要单靠对着可执行文件点击鼠标来安装程序几乎是不可能的。如果恰巧连不上网,安装想要的工具就成了超级麻烦的任务。
 
第二不喜:自学会碰到一些困难
与第一点非常相似,自学Linux是一项让人生畏的挑战,至少在一开始是这样。尽管相关的教程与好书成千上万,但对于一名新用户来说,选择哪个来入门还是颇有难度的。
此外,大神驻扎、提供免费良方(纯属兴趣)的论坛也有无数个(例如linuxsay.com),但很不幸,有些时候这些建议无法确保完全可靠,或者与新手的知识水平不相吻合。
除这一事实,加上还存在着一些传播较广的不同发行版与衍生版,让我们很有必要依靠收费的第三方,引导我们开始进入Linux世界,学习这些版本之间的异同。
 
第三不喜:从旧系统/软件迁移到新系统/软件
一旦决定要开始使用Linux——无论家用版还是办公版,个人级别还是企业级别——必须从旧系统迁移到新系统中,将用了很多年、已经熟悉程序换成它们的替代软件。
这些通常会导致矛盾产生,尤其是需要在同类型的多个程序中进行选择时(例如:文字处理器、关系数据库管理系统、图形处理套装),而且用户缺乏专业的指导与现成的训练。
除非通过经验丰富的使用者或者训练公司指导,否则选项过多很可能会导致新人在软件实现上出现错误。
 
第四不喜:硬件开发商的驱动支持太少
不可否认这一事实,Linux从20多年前首次发布到现在,已经取得了长足的进步。随着各个稳定发布版中核心内置的设备驱动越来越多,支持Linux兼容驱动研究与开发的公司也越来越多,我们不会经常碰到设备不支持Linux这种情况了,不过这个可能性仍然存在。
如果你需要的某一款个人电脑或商用电脑不支持Linux,还得切换回Windows或者其他什么能用的OS系统。
尽管可以自言自语地重复“闭源软件糟透了”,却无法抹煞这个不幸的事实:闭源软件仍旧存在,有些时候我们注定得根据业务需求来使用它。
 
第五不喜:Linux的强大主要还是靠服务器
可以这么说:Linux几年前吸引笔者的主要原因就是,它能够让旧电脑焕发生机、重新投入使用。在花了些时间熬过第一和第二个困难之后,我欣喜万分地在一台老电脑上(566MHZ的赛扬处理器、10GB IDE硬盘、仅256MB的内存、运行Debian “Squeeze” OS系统)安装了一个文件-打印机-网络服务器。 
在发现即便负载很大,但htop工具只占用了一半系统资源的情况下,我十分惊喜。
你可能会问:为什么我会在讨论不喜欢的内容时提到这一点?答案很简单,因为目前我还没发现一款能够运行在较旧系统上的Linux 桌面发行版。当然,我并非奢望能够找到一款拥有上述特质的Linux,而是希望能找到一款可运行在不到1GB机器上的美观可定制桌面版,而且运行起来不要慢如蜗牛。 需要再次重申:尚未找到不代表“不存在”。
也许有天,我会找到一款好用的Linux桌面版,可以运行在房间里吃灰的那台老笔记本上。如果有这么一天,我会首先跳出来删掉这些不喜欢,然后点上一个赞。
 
结论
本文中我试着讨论了一些Linux仍旧可以改进的地方。我很喜欢使用Linux,也非常感谢基于这款OS、它的组件还有性能而建立的优秀社区。
再次重申:这些不喜欢只是表面的缺陷,实际上从合适的角度出发,或者在未来可能会成为Linux的优势。在那之前,让我们继续相互支持、相互学习,帮助Linux成长与推广。
 

大数据的五大趋势物联网、机器学习上榜

MikanaCu 发表了文章 0 个评论 1705 次浏览 2015-11-26 21:55 来自相关话题

译者:孙薇 原文链接:http://www.infragistics.com/community/blogs/devtoolsguy/archive/2015/11/20/5-trends-in-big-data.aspx 小象科技原创 ...查看全部
译者:孙薇
原文链接:http://www.infragistics.com/community/blogs/devtoolsguy/archive/2015/11/20/5-trends-in-big-data.aspx
小象科技原创作品,欢迎大家疯狂转发;
机构、自媒体平台转载务必至后台留言,申请版权。
  
大数据的五大趋势物联网、机器学习上榜
 
“大数据”是描述数据指数增长及其可用性的常用术语,囊括了结构化数据与非结构化数据。单指“大的”数据未免有些轻描淡写——据IBM估算仅在2012年,每天所产生的数据就多达2.5EB。不懂EB的概念?1EB=10亿GB的数据,也就是说在2012年所产出的数据就有大约9150亿GB。
 
如果这么些0不太好理解,我们用iPhone6s的最大容量——每台128GB打个比方:想要保存1EB的数据,需要超过71亿台的iPhone。另外不要忘记,这是在2012年——据统计学家预测,移动手机的占有率在2013年将会上涨到61%,在2017年会接近70%。因此毫无疑问这些数字还在继续增长,并且规模远胜从前。
 
那么,我们是否跟得上我们所创造的这些庞大数据的步伐呢?企业能否有效利用这些数据,还是会被它们淹没呢?
 
回顾2001年,Gartner公司的分析师Doug Laney首先将大数据定义为3Vs(量、速、杂),并指出大数据揭示的企业问题。如今在大众共识中,信息的特征远远超过3种,但是这3Vs仍有着重要的核心地位:
 
速:就像数据量的不断增长还不够一样,数据增长的速度也是空前的。智能标签(RFID标签)、传感器还有智能计量都在推动对数据洪流接近实时处理的需求。要按照数据产生的速率来尽快作出反应,这对大多数公司来说都是挑战。
 
杂:各种类型、各种格式的数据都有,包括结构化的、非结构化的、电子邮件、视频、音频等等。管理、统一、调节这些不同类型的数据正是众多公司努力的方向。
 
1
不能落后 
大数据给予企业获得极有价值信息的窗口,从用户的购买习惯到库存状况,再到更好地支持公司并给予客户更好的服务。不过由于在我们前行时,数据相关的一切都在扩展,因此它能为公司所做的事情也同样在发生变化。毫无疑问,在未来几年中信息会改变企业,因此了解下一步会发生什么事情,正是保持与潮流同步的最佳方式。在本文中,我们列出了五点趋势,相信在大数据成为“更大的”数据时,它们会扮演主要的角色。
 
调动所有人
据推测,各种规模的公司在鼓励同事之间的协作及与消费者之间的互动时,将逐渐趋于采用以数据为中心的方法。仅在几年前,大数据工具还只是大公司能用的东西,而现在,大数据将促进各公司重新考虑其员工协作与使用数据确认的方式,并促使他们快速适应机遇与挑战。
 
物联网
Gartner认为,到2017年会有超过20%面对消费者的分析部署系统会利用物联网提供产品追踪信息。如今的客户要求从自己的产品消费者那里获取大量的信息,很大程度是因为Gartner公司所提出的力量的联结(Nexus of Forces)理念——即移动、社交、云与信息。物联网设立的初衷就是随着数据发展的速度而进行快速的扩展,并创建新的面向消费者分析模式——产品追踪方式。通过这种方式,企业可以加强与消费者之间的联系,并向消费者提供诸如地理空间与性能之类的信息。
 
深度学习
深度学习不仅是一套基于神经网络的机器学习技术,还是一种进化的方法。这个概念建立在电脑能够在海量的非结构化二进制数据中识别出感兴趣的物品,并能够在无需特定编程指令的情况下推论出其关系。举例来说,将深度学习算法用在wiki上时,机器可自主发现加州与德州均位于美国,而无需预先建模来了解州或国家的概念。在大数据方面,深度学习可用来识别不同类型的数据,还有塑造未来高级分析方法的其他认知参与能力。
 
数据灵活性
传统数据库的处理速度太慢,处理方式僵硬,而数据仓库也被证明在应对很多企业的需求时太过昂贵耗时。同样的,随着大数据技术发展推动,数据的灵活性也成为了人们关注的焦点。公司开始将注意力从简单获取与管理数据,转移到对数据的积极使用方面。数据的灵活性允许对数据的处理与分析结果作用于公司运营:让公司来应对,并根据客户的偏好、市场状况、竞争行为与运营状态来进行调整。
 
自助式服务
大数据工具与服务的进步意味着,IT不再是掣肘公司用户与数据分析师访问数据的瓶颈。执行自助式大数据服务能够让开发人员、科学家与数据分析师直接进行数据探索。由于自助式服务速度更快,吸纳新数据来源的能力会有所发展,因此高级些的公司会转向其他选择:在实施中进行数据绑定,抛弃中央结构。
 

汪峰抄出新境界,科技圈的半壁江山也归汪峰了

MikanaCu 发表了文章 0 个评论 1251 次浏览 2015-11-25 23:18 来自相关话题

  最近汪半壁又开始撕逼上头条了,在知乎上看到这样一个帖子,《如何看待联想的发布会主题抄袭汪峰fiil耳机的“与声俱来”?》大意是这两天,联想办了个X3系列发布会,发布会主题“与声俱来”居然跟汪老师的耳机撞车了。联想这种行为算不算侵权?联想果然抄袭 ...查看全部

 
最近汪半壁又开始撕逼上头条了,在知乎上看到这样一个帖子,《如何看待联想的发布会主题抄袭汪峰fiil耳机的“与声俱来”?》大意是这两天,联想办了个X3系列发布会,发布会主题“与声俱来”居然跟汪老师的耳机撞车了。联想这种行为算不算侵权?联想果然抄袭汪峰了吗?猛一看联想乐檬手机的“与声俱来”和汪峰fiil耳机的“与声俱来”一个字都不差,但本着尊重事实的原则发挥达人钧钧的八卦特长,我要来扒一扒汪峰和联想之间究竟谁抄袭了谁,因为之前汪半壁的江湖传说也很多。
 


说实话联想乐檬手机这封邀请函的主题与汪峰FIIL耳机发布的主题确实一字不差!抄设计、抄创意并不少见,但是直接抄slogan的,在科技圈还是第一次见。fiil耳机CEO也算是汪峰合伙人彭锦洲微博中低调回应:“这主题看着很眼熟啊,难道要发一款fiil耳机”?我们来看一下微博发布时间是2015年11月12日。


 
联想乐檬邀请函的形式与fiil耳机10月中旬对外发出的邀请函也有些相似。
 

更妙的是fiil耳机邀请函上附诗歌的形式截取莱昂纳德·科恩的歌词,有中英双语;而乐檬邀请函很可能是文案现写的现代诗。相似度也是高的吓人。相似度如此高的广告词在中国品牌届也绝无仅有。更让人好奇是谁抄袭了谁。经过一番仔细地吐血刨坑扒箱底式的地毯式搜索,达人钧钧却发现了这样一个惊人的事实:
 

 
弄了半天,原来汪半壁和联想是真爱啊!从2005年到2015年,汪半壁用了10年的时间和联想恩恩爱爱,用绳命紧跟联想的步伐。我也是惊了!不知道章子怡女士看了啥感想? 
 
汪峰说:《爱是一颗幸福的子弹》,郑钧说:我不想躲闪,你的泪如子弹,联想乐檬说:你的子弹请射向国际章,不要让我躺枪……
 
附:对比郑钧与汪峰的歌单

 
来源:数据挖掘与数据分析、知乎

 

咳咳,草榴!从数据挖掘的角度看草榴社区

MikanaCu 发表了文章 0 个评论 2170 次浏览 2015-11-24 21:58 来自相关话题

原文链接:http://1024data.sinaapp.com 来源:互联网那点事   摘要:本项目是基于“使用PHP语言对网络数据进行采集与分析”的一次实验。可视化结果不包含淫秽色情信息,营造健康上网环境从你我做起! 采 ...查看全部
原文链接:http://1024data.sinaapp.com
来源:互联网那点事
 
摘要:本项目是基于“使用PHP语言对网络数据进行采集与分析”的一次实验。可视化结果不包含淫秽色情信息,营造健康上网环境从你我做起! 采集到的统计数据样本说明 数据来源:草榴网站《达盖尔的旗帜》版块100 页内容, 时间跨度 20150605至 20150907 。选择此版块是因为这个版的内容都是由注册的用户生产的,具有一定的分析价值。
 
 
提示:本项目是基于“使用PHP语言对网络数据进行采集与分析”的一次实验。可视化结果不包含淫秽色情信息,营造健康上网环境从你我做起! 
 
 
 ➤
采集到的统计数据样本说明
数据来源:草榴网站《达盖尔的旗帜》版块100页内容, 时间跨度 20150605至 20150907 。选择此版块是因为这个版的内容都是由注册的用户生产的,具有一定的分析价值。 
8537 条主题帖的标题、发帖时间、每条主题的回帖数量、发帖用户。(共由576个用户生产) 
12,8841 张图片的图床绝对链接地址 
1,4568 页回复帖 
13,0704 条回复的发表用户、回帖日期时间 
1,1250 个用户的用户名、注册时间、最后登陆时间  
 
 
让一起来品味一下这个神秘社区的数据
 
从 8537条主题信息中总共提取出了 576个用户,三个月中平均每个用户发表 14.8篇主题 排名第一的用户发帖数量更是达到了276篇。猜测一下,看来所有的网站都需要一部分活(ban)跃(yun)用(gong)户充实内容啊。 这里面真正的原创帖的比例能占到多少已经不重要了,内容才是王道!!

当我码完这段js代码刷新浏览器查看结果的时候,整个人都不好了!!城会玩!城会玩啊!大家看排名第1和第6的关键词, 把和自己女朋友、老婆XXOO的照片分享出来真的那么好玩儿么。另外,让我们回归到小学语文课,来,请用以上关键词造句…… 你用上面的词组成的句子就是发帖者们所热衷的事情…
可能只看这一张图是没有很大的代表性的,表面上只能看出从8月份开始主题新增数量开始大步的上涨,什么原因导致的呢, 过一会在下面看到用户新增情况图的时候就会恍然大悟,对,大量新用户的加入。
从128841个图片url中提取出来的图片网盘,ihostimg.com 毫无疑问遥遥领先,难道这是CL的副业?这之间到底有什么 千丝万缕的联系我先不瞎猜了,感兴趣的朋友可以自己想办法再去了解(不用梯子也可以访问!)。另外,大家注意排名倒数第二的图片网盘, sinaimg,对,就是你知道的那个新浪,sinaimg是新浪旗下的开放云存储服务, “新浪作为国内10多年领先掌握全国最先进的全分布式系统架构和存储技术之一的公司,为你的 XXOO私密照片存储提供一站式解决方案” 
这张图代表的是11250个用户账号分别是那一年注册的,可以看出2007-2010年和2011-2014年这两个时间段相对数量还是 比较平均的,50.6%的用户是在今年注册的,难道今年大范围的开放注册了。有邀请的码的朋友请联系我,求码!求码!
这张折线图和上面的那张基本展示的信息是类似的,分类精确到每个月。
理论上说,只要是网站继续正常运营下去,且无论统计哪个时间段,这个图会一直保持这个状态,统计数据的基础是11250个 账号的最后一次的登陆时间,每次登陆都会用新的覆盖旧的,右边的顶点越高代表了用户重复登陆的次数越多,网站的运营越正常。
130704条回复帖的时间段分布情况,从8月份开始互动明显越来越多。单独看意义不大,只能看到最近互动增多,但是通过与 每日主题发表数量和新增用户图放在一起看,这三个趋势是成正比的,注册用户增多导致新增主题帖增多,不断的新内容产生带动了论坛的 活跃度,从而产生了更多的互动回复内容。
这张图的数据是从13074条回帖时间统计出来的,其实这张图的最终结果和我预计的还是有挺大差距的,原本我以为用户 访问的高峰期会是晚上的9点-12点,而真实的用户在线高峰期顶点确是上午的10点,10点不是大家刚刚开始投入工作的时间么。 ▽后记:
忘记了从哪里看到过一句话:“互联网上没有垃圾信息,只有放错位置的资源”,web数据挖掘方面还是很值得研究的,开发语言也没有优劣, 用自己最熟悉的语言去解决问题就是最好的实现方式。先解决问题,再优化过程,结果最重要!此次试验仅仅针对CL的一个版块进行了表面数据 的分析,我相信,如果更用心的话还能分析出更多的其他东西。比如:将采集到的10几万张图片下载下来,是不是可以作为图像识别系统识别色情图片的 训练素材?我只是采集了注册用户的用户名、注册时间、最后登陆时间等有限的几个字段,如果把用户在论坛内的等级、贡献值、回帖数量等信息也采集下来 结合其他字段进行加工和分析是不是能得出更多的有意义的结论呢?
 

教程丨给hadoop建立一个快速自定义压缩编解码器

MikanaCu 发表了文章 0 个评论 2673 次浏览 2015-11-22 21:58 来自相关话题

原文链接:http://www.conductor.com/nightlight/how-to-build-a-speedy-custom-compression-codec-for-hadoop/ 译者:林炀               ...查看全部
原文链接:http://www.conductor.com/nightlight/how-to-build-a-speedy-custom-compression-codec-for-hadoop/
译者:林炀              
小象科技原创作品,欢迎大家疯狂转发;
机构、自媒体平台转载务必至后台留言,申请版权。
什么是数据压缩?
    数据压缩提供了一种可以减少数据存储和处理过程间的数据传输的方法,以此提高I/O性能。任何使用过因特网的人都知道下载一个庞大的文件会比下载一个小文件快的多,而压缩就可以用来改善这个问题。
开发人员喜爱的数据压缩格式
使用Gzip进行数据压缩
    Gzip是一种被广泛使用的压缩格式,它可以让文件在压缩前后的空间占用上有一个相当大的差异,也正是因为这种很高的压缩比率,Gzip才得以被为众人所知。
    但是请注意,Gzip会占用大量的CPU资源。虽然使用Gzip对数据进行压缩转移时可以节省I/O时间,但是在压缩和解压缩的时候都需要消耗CPU的性能来进行处理。它最优化了I/O密集型应用的性能,但是未来仍然需要在压缩比率(I/O负载)和压缩速度(CPU负载)之间能达成一个平衡上来进行改进。
    由于Gzip已经普及,并且在数据分析和对数据进行ETL (Extract, Transform, Load)时我们所使用的CPU性能已经非常的强劲,因此目前Gzip成为了我们压缩时的第一选择。
    在数据使用量上,Conductor Searchlight的报表架构允许用户交互的去操作报表数据,但是这要取决于我们的UI服务器是否能访问由我们的ETL管道产生的压缩数据。
    之前我们曾经尝试使用Gzip在服务器上生成报告,但是却发现我们的UI服务器占用了大约三分之一的平均应用程序事务时间用在解压报告并呈现结果给用户上,这通常会导致加载时间变得过长。我们确实可以通过给UI服务器更换更快的CPU或多核的CPU在硬件上直接的扩展机器的性能,并在这些机器上面来生成报告。但是通常来说相比于后台服务器,UI服务器的性能并没有那么重要,而且我们一般也不会去拓展UI服务器的性能。
使用Snappy进行数据压缩
    另外还有一种压缩格式是Snappy,它是由Google开发的。Snappy的解压缩速度相比于Gzip快了大约三倍,但是相对于在CPU占用时间的改进上,它却牺牲了压缩比率。
    我们开始使用Snappy作为我们UI服务器上ETL系统产生的报告数据的压缩格式后,我们明显的看到我们所用的程序响应速度有了一个质的飞跃。当程序运行了一段时间之后,我们注意到在生成报告时服务器的内存使用率突然开始上升,这让我们非常吃惊,因为我们运行的程序在设计时是能将报告数据按“流”的方式传输到用户目录下来的,这并不会需要在服务器内存上保存整个报告。而在我们研究了以后才发现,Snappy在解压时要缓存非常多的数据。
使用Snappy Framing进行数据压缩
    幸运的是,Google在Snappy之上还发布了一个特别的压缩格式,这个格式被成为Snappy framing格式。这种格式修改了Snappy的压缩算法,它可以逐步递增的压缩一个文件,这使得压缩的结果是由压缩块组成并且是独立的,或者这也可以被称为“帧”。在数据压缩和解压的时候都是一帧一帧来进行的,这样也就不用再把整个文件都放到内存中来操作了。
    由于在生成报告时,所需要用到的几个文件可能很大,这相对于要处理所有线程请求的内存来说太大了(可能是好几十个未被压缩的百万字节文件),而且每个用户的事务可能会取决于多个文件,因此我们自然就倾向于选择Snappy framing格式以便更好的管理服务器上的内存使用率。
使用Hadoop生态系统进行数据压缩
    我们曾经使用Hadoop家族的各种工具来构建ETL的整体流程模块。方便的一点是,Hadoop MapReduce过程中可以很轻松的对mappersreducers产生的结果进行配置使其被压缩。Hadoop Java API中已经包含了可以使用的Gzip压缩和Snappy压缩的编解码器,你所需要做的就是将它们配置在你的Hadoop程序中:

 io.compression.codecs
 org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.SnappyCodec,conductor.hadoop.core.io.compression.SnappyFramedCodec
 false
 

  mapred.map.output.compression.codec
  org.apache.hadoop.io.compress.SnappyCodec


  mapred.output.compression.codec
  org.apache.hadoop.io.compress.SnappyCodec

    不幸的是,因为Snappy framing格式只是一个可选的选项(事实上,Google甚至都没有提供一个参考实现),因此你刚装好的Hadoop可能并不支持对Snappy framing的开箱即用,你有两个选择:
A.选择并使用一个Hadoop为你准备好的压缩编解码器
 
B.让自己变身成为一个开发者,并且编写你自己的Snappy framing编解码器,这并不难!
 在Hadoop(Java)中使用自定义数据压缩编解码器Snappy frame的开源Java库    幸运的是,在几个开源项目中,Snappy framing格式已经在Java上实现了。而不幸的是,当我们开始寻找已经实现的编解码器时,却发现并非所有的编解码器都可以用。比如说,一些项目是在Snappy的发布日期与Snappy framing规划阶段期间写的,因此,在这些项目中的Snappy framing格式并没有按照官方最后的规划设计。无论如何,我们找到了snappy-java,它正好符合我们的需求,并且我想它可能也会适合你的项目,其中的SnappyFramedOutputStream和SnappyFramedInputStream类分别包含有你需要的压缩和解压功能。
编写一段新的压缩编解码器
    CompressionCodec是为了编写新压缩编解码器时Hadoop安装配置唯一必须要实现的接口,它可以给你的Hadoop添加一个压缩格式。CompressionCodec的主要职责是创建CompressionOutputStream和CompressionInputStream对象,它们可以对数据分别进行压缩和解压。你所需要做的就是给前述的SnappyFramed 流和相应的Compression流之间提供一个适配器(看看我们的例子 OStreamDelegatingCompressorStream 和IStreamDelegatingDecompressorStream)。没有必要去支持Compressor或者Decompressor,因为MapReduce并不使用它们,可以看一些使用别的方法来解决的例子。
安装新的压缩编解码器
    目前你已经编写好了你自己的新数据压缩编解码器,并且已经准备好在MapReduce上运行它了。可能在你的应用程序完美运行起来之前还有一些其它的工作需要完成,这取决于你集群里的其它Hadoop生态系统程序。比如说,很多Conductor的ETL系统使用Oozie来进行工作流管理并且使用Hive作为可以拓展的数据转换工具。我会给你展示这两种技术是如何利用你的新自定义压缩编解码器的。
在Hive中装入压缩编解码器
   首先,确保你的Hive能够使用你的新编解码器。将含有你编解码器的JAR文件拷贝到Hive的主机上,并且将它的地址配置到HIVE_AUX_JARS_PATH变量中。现在,剩下需要做的就是告诉Hive什么时候要使用这些新格式了。还记的我们之前教的属性配置吗?你要做的就是更新在io.compression.codecs中的编解码器,让它包含新编解码器的完整路径。

   io.compression.codecs
org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.SnappyCodec,conductor.hadoop.core.io.compression.SnappyFramedCodec
   false

   你还需要指定MapReduce的结果(中间或最终结果)来使用新的压缩编解码器,这个可以在单个查询脚本或者全局配置文件里来指定,这取决于你所需的压缩需求。
SET mapred.child.java.opts=-Xmx2048m -XX:MaxPermSize=256M -noverify;
SET mapred.output.compression.codec=conductor.hadoop.core.io.compression.SnappyFramedCodec;
SET hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
在Oozie中装入压缩编解码器
    仅仅在Hive上来运行你的自定义编解码器是不够的,必须让Oozie也能支持新编解码器。需要做的就是添加上述JAR到你的Oozie安装目录下的“libext”目录,如果目录不存在的话就手动创建一个,添加完毕以后运行:
[oozie installation directory]/bin/oozie-setup.sh prepare-war
运行之后会创建一个WAR文件,里面包含了能在Oozie中运行的编解码器,当然你的自定义编解码器也在其中,之后重启Oozie就一切就绪了。
    现在,Google的Snappy Frame格式应该可以支持Hive和Oozie了,必须庆幸一下这些步骤并没有那么复杂。
其它的Snappy Frame相关
· 如果你曾经希望手动检查你的Snappy压缩文件完整性或者类似的其它操作,那么有一个方便的命令行工具,你可以用它来压缩和解压缩文件中的Snappy-frame格式。
· 我们上述的Hadoop Snappy Frame压缩编解码器可以在我们不断壮大的开源库Kangaroo中找到。

财富500强企业通往大数据的三大障碍及攻克之道

MikanaCu 发表了文章 0 个评论 1671 次浏览 2015-11-19 22:54 来自相关话题

译者:孙薇 原文链接:http://www.entrepreneur.com/article/251860 小象科技原创作品,欢迎大家疯狂转发; 机构、自媒体平台转载务必至后台留言,申请版权。   财 ...查看全部
译者:孙薇
原文链接:http://www.entrepreneur.com/article/251860
小象科技原创作品,欢迎大家疯狂转发;
机构、自媒体平台转载务必至后台留言,申请版权。
 
财富500强企业通往大数据的三大障碍及攻克之道
 
大数据的好处都被文档记录得清清楚楚,特别在那些希望为客户打造令人印象深刻的个性化体验的公司里。但是,正如我在前文中所描述的那样,在该领域获得成功的公司寥寥无几,大多公司在品牌与消费者之间仍存在巨大的脱节,而且并未有迹象显示这种脱节能在短时间内获得改善。根据Gartner公司的报告,到2015年财富500强公司中仍有85%无法从大数据中获取竞争优势。
 
那么为什么这些公司还要全力投入大数据这项技术呢?害怕改变,缺乏人力,还是其他什么原因?从我的角度来看,下面这些是最为常见的障碍,我会告诉大家如何解决它们。
 1  进化的能力
时代在变化。消费者想要的商品,还有他们与品牌结缘的方式,与仅仅两年之前的那些都不相同。“我们一直这样做”的心态不再管用,在这个数据驱动的世界,如果想要快速获取有关的实时见解,公司必须拥有灵活和快速的特质,他们希望能够在数据驱动方面更进一步,因此需要深入了解包括机器学习在内的大数据技术。
 
这些技术使得数据在全公司范围内均可访问,而且提高了数据科学家的用途,让他们得以向市场部、CRM组、商业智能组、用户智能组、呼叫中心等各部门传达一致的见解,提高公司的客户导向性。
 
这不仅是技术相关的问题。很多公司认为自己已经拥有了管理数据的技术,但以为现有技术与技能就已够用这样的假设是不现实的。
 2  从管理者层面发起 
大数据项目就像多数大型IT项目一样对业务影响巨大,因此需要真正拥有远见的管理者提出倡议。除非对开局有清楚的定义,并且对商业价值有清楚的理解,否则大多项目都会在启动前胎死腹中。管理级的执行者需要理解并认可这一点:利用客户数据对公司和业务的好处非常巨大。
 
因此,在一家公司内的大数据“布道者”必须与各业务范围、各独立职位的各个员工协作,以确保公司各个部分的利益相关者都已准备好为大数据计划提供支持并从中获益。
 3  改变心态 
要想获得发展,必须着手改变所有人的心态。从管理层的执行者到数据管理者还有数据使用者,所有人都必须对大数据本身还有自己的角色因此发生的变化清楚明了、坚定不移。 
 
举个例子,数据科学家曾经从事模型创建与数据分析工作,在过去一直运行顺利。但是大数据是全新的世界,如果正确使用的话,能够带来新的挑战与新的商业利益。数据科学家需要放弃对数据的控制权(同时也意味着接受“平民数据科学家citizen data scientist”的崛起),并依赖像机器学习这样从根本上改变与公司互动方式的技术,处理并运用数据来进行决策。 
 
机器学习技术的重点在于实时与可扩展的预测分析,使用全自动的通用方式找出趋势与个人偏好。通过这种方式,一些典型的数据科学家工作被改变乃至“简化”——从亲手做事,变成了“管理”获取数据最大价值的过程。
 4  结论 
目前公司正面临一个千载难逢的机会:利用手边的大量用户数据大幅提高产品的用户体验,从而最终提高用户忠诚度,为公司带来销售与利润的提升。
 
那些手握重要数据,却尚未主动采取措施从中获利的公司正在阻碍自身发展的前途。只要能够清晰列出公司的大数据目标,并对现有的技能与技术有诚实的定位,就能打造出一条通往大数据成功之路的明确道路。
 

论大数据对数据库行业的影响

MikanaCu 发表了文章 0 个评论 1783 次浏览 2015-11-13 21:41 来自相关话题

译者:刘旭坤 原文链接:http://www.infoworld.com/article/3003647/database/how-big-data-is-changing-the-database-landscape-for-good.html ...查看全部
译者:刘旭坤
原文链接:http://www.infoworld.com/article/3003647/database/how-big-data-is-changing-the-database-landscape-for-good.html
小象科技原创作品,欢迎大家疯狂转发;
机构、自媒体平台转载务必至后台留言,申请版权。
 
论大数据对数据库行业的影响

 
现在提到数据库,大家第一个想到的恐怕还是统治数据库行业已达三十年之久的关系型数据库。不过这种情形可能很快就会发生变化。
 
向企业数据库发力的众多厂商各自的技术和手段可能有所不同,然而这些厂商都有一个共同点,那就是都聚焦在大数据这一热点之上。
 
数据库厂商对大数据的关注是由数据发展的三个特征所决定的:数据量、数据产生的速度和数据的多样性。显然关系型数据库的概念在提出时并不能考虑到数据在今天的发展,因此根据今天数据发展的特点来发展新型数据库就显得有其必要性了。
 
有些使用关系型数据库的企业发现随着数据量的增多加快,现有系统处理起来显得越来越力不从心,即便添置更多的服务器也只是延缓所出现的问题而不能根治。当这些企业逐步迁移到Hadoop等大数据平台后立即发现系统的容错性、可用性、稳定性和性能都得到了提升,一些帮助企业进行迁移的工具也让企业应用可以平稳地过渡到新平台。分布式计算的应用、64位寻址空间的使用和网络带宽的升级也直接或间接地促成了数据库技术的进步。
 
除了软硬件条件的限制不复存在,更重要的是对数据库的需求也在改变。仅仅十年前互联网中大部分还都只是静态网站,而现在各种web service、在线购物等等已经发展得十分成熟,这些都要求数据库的扩展性必须得到提升。此外企业对于数据的使用也发展到了一个新的阶段。可能从前大部分企业只是记录一下交易数据比如卖了多少货然后生成一下报表,今天有了大数据分析这个工具企业拿数据做的事可就多了去了。
 
从前我们的企业要么是没想到要进行数据分析,要么就是用了并不趁手的工具。
 
在今天看来Hadoop有些过于重量级了。虽然它其实并不是一个数据库,但它却成为了很多企业进行大数据分析的核心。Hadoop让企业可以轻松地运行分布式并行系统,而且扩展也非常容易。容易扩展这一特性使企业可以以较低的开销进行横向扩展而非较昂贵的纵向扩展。
 
关系型数据库一个可能的替代产品是众多的NoSQL数据库。NoSQL数据库中使用最为广泛的是MongoDB,它在数据库流行榜中排名第四。很多NoSQL数据库为了追求速度和性能在一致性上做出了妥协,但对于企业环境而言,数据一致性还是很重要的一点。NoSQL数据库通常也不能使用SQL进行查询,这对于企业中现有系统的集成是一项很大的挑战。尽管NoSQL的扩展型很好,但如果无法与现有系统进行集成那么在企业中的使用进程注定会很缓慢。
 
另一个可能的替代产品是NewSQL,它在保持SQL查询接口和ACID特性的同时提供了较好的扩展性,所以未来几年的发展势头不可小觑。比如DeepSQL就采用了和MySQL一样的API和关系模型,因此对于应用程序来说无需任何改动就可以使用。不过DeepSQL自己使用了机器学习的方式来进行数据库的优化,免除了在不同环境中进行数据库优化所需的人力。
 
此外Algebraix Data提供了一种全新的看待数据的方式。它在集合理论的基础上经过五年的研发创造出了一种将所有数据转化为数学对象并进行运算的方法,这种方法被他们自己起了一个名字叫做数据代数。据称Algebraix Data可以大幅提升计算的速度和性能。
 
这些新技术是否能够适应市场的需求还需要时间来检验,不过在这些替代产品百花齐放的时候传统的数据库厂商也并没有坐以待毙。比如Oracle早在上世纪九十年代就发展出了支持非结构化数据的方法,在2013年发布的Oracle 12c中也加入了对JSON的支持。Oracle认为SQL是供商务分析人员使用的最好工具,他们不必成为程序员就可以从数据库中获得自己需要的信息。市场需要的并不是一个新数据库,而是现有的商业模式发生了改变,市场的大方向仍然是关系型。
 
对于这些新的数据库产品来说,缺少云的支持也是一个严重的劣势,想要托管在别家的云服务中还同时与其竞争将是非常困难的。Gartner分析人员Rick Greenwald称新兴的数据库厂商来说其产品并不能满足市场上客户的所有需求,所以恐怕只能让传统数据库大厂降降价或者添加一些新的特性罢了,想改朝换代还早得很。所以现在这些新兴的数据库厂商恐怕没有几家能够避免被收购或者破产的命运。
 
新技术的出现并不会成为关系型数据库的终结因为关系型数据库自身也在不断的演进中,而且数据中总是会有一部分结构化的数据。不过随着物联网和非易失内存技术NVDIMM的发展新的数据库也会占有自己的一席之地。数据库行业的发展如何,就让我们拭目以待吧。

20个最佳的Java集合框架面试题目

MikanaCu 发表了文章 0 个评论 2540 次浏览 2015-11-11 23:22 来自相关话题

译者:荔枝壳 原文链接:http://www.instanceofjava.com/2015/07/collections-interview-questions-java.html 小象科技原创作品,欢迎大家疯狂转发; ...查看全部
译者:荔枝壳
原文链接:http://www.instanceofjava.com/2015/07/collections-interview-questions-java.html
小象科技原创作品,欢迎大家疯狂转发;
机构、自媒体平台转载务必至后台留言,申请版权。
 1为什么Map接口不继承Collection 接口? 
· Set是无序集合,并且不允许重复的元素
· List是有序的集合,并且允许重复的元素
· 而Map是键值对
· 它被视为是键的set和值的set的组合
· Map被设计为键值对的集合,所以不需要继承Collection 接口
 2HashMap和Hashtable之间的区别? 
· 同步或线程安全
· Null键和Null值
· 迭代值
· 默认容量大小
 3comparable 和 comparator的不同之处? 
· comparable接口实际上是出自java.lang包
· 它有一个 compareTo(Object obj)方法来将objects排序
· comparator接口实际上是出自 java.util 包
· 它有一个compare(Object obj1, Object obj2)方法来将objects排序
 4如何对Object的list排序? 
· 对objects数组进行排序,我们可以用Arrays.sort()方法
· 如果要对objects的集合进行排序,需要使用Collections.sort()方法
 5fail-fast 与 fail-safe 之间的区别? 
· Fail fast快速地报告任何的failure。无论何时任何一个问题都会引发 fail fast系统fails
· 在Java Fail fast 迭代器中,迭代objects集合有时会出现并发修改异常,出现这种情况有2个原因
· 如果一个线程正在迭代一个集合,而另一个线程同时试图修改这个集合
· 在调用remove()方法后,如何我们还试图去修改集合object
 6Iterator、ListIterator 和 Enumeration的区别? 
· Enumeration接口在Java1.2版本开始有,所以Enumeration是合法规范的接口
· Enumeration使用elements()方法
· Iterator对所有Java集合类都有实现
· Iterator使用iterator方法
· Iterator只能往一个方向前进
· ListIterator仅仅对List类型的类实现了
· ListIterator使用listIterator()方法
 7Java 中 Set 与 List 有什么不同? 
· Set是一个不允许重复元素存在的集合
· Set没有索引
· Set仅仅允许一个null值
· Set有类:HashSet、LinkedHashMap、TreeSet
· List有索引
· List允许N个null值
· List可以按插入顺序显示
· List有类:Vector、ArrayList、LinkedList
 8arraylist 与 vector 的区别? 
· Vector 在Java的第一个版本就引入了,也就是说vector是一个合法规范的类
· ArrayList在Java1.2版本引入的,是Java 集合框架的组成部分
· Vector是同步的
· ArrayList是不同步的
 9什么类实现了List接口? 
· ArrayList
· LinkedList
· Vector
 10什么类实现了Set接口? 
· HashSet
· LinkedHashSet
· TreeSet
 11如何保证一个集合线程安全? 
· Vector, Hashtable, Properties 和 Stack 都是同步的类,所以它们都线程安全的,可以被使用在多线程环境中
· 使用Collections.synchronizedList(list)) 方法,可以保证list类是线程安全的
· 使用java.util.Collections.synchronizedSet()方法可以保证set类是线程安全的
 12是否可以往 TreeSet 或者 HashSet 中添加 null 元素? 
· 可以往 hashset 中添加一个 null
· TreeSet 也允许一个 null值
 13解释下Collection的接口继承关系? 
图片1.png


 14Iterator符合哪个设计模式? 
· Iterator 设计模式
 15HashSet 实现了哪个数据结构? 
· HashSet 内部实现了hashmap
 16为什么 Collection 不能继承 Cloneable 和 Serializable? 
· List和Set唯一继承 Collection 接口
· SortedMap 继承了 Map 接口
 17hashCode() 和 equals() 方法的重要性?如何在Java中使用它们? 
· hashCode() 和 equals() 方法定义在"object"类中
· 如果equals() 方法在比较2个对象时返回true,那么hashCode()的返回值必须得一样
 18array 和 arraylist 的区别? 
· Array类似object集合类型,大小固定
· Arraylist是同质和异质元素的集合
 19什么是 Properties 类? 
· Properties 是Hashtable的子类。它被用于维护值的list,其中它们的键、值都是String类型
 20如何将一个字符串转换为arraylist? 
· 使用 arrayList.toArray() 方法
 

分类解读Spark下的39个机器学习库

MikanaCu 发表了文章 0 个评论 2731 次浏览 2015-11-04 22:26 来自相关话题

分类解读Spark下的39个机器学习库 Apache Spark 本身  1.MLlib AMPLab Spark最初诞生于伯克利 AMPLab实验室,如今依然还是AMPLab所致力的项目,尽管这些不处于Apac ...查看全部
分类解读Spark下的39个机器学习库
Apache Spark 本身
 1.MLlib
AMPLab
Spark最初诞生于伯克利 AMPLab实验室,如今依然还是AMPLab所致力的项目,尽管这些不处于Apache Spark Foundation中,但是依然在你日常的github项目中享有相当的地位。

ML Base

Spark本身的MLLib位于三层ML Base中的最底层,MLI位于中间层,ML Optimizer则处于最为抽象的顶层。

2.MLI

3.ML Optimizer (又称 Ghostface)

Ghostware这个项目在2014年就开始进行了,不过从未对外公布。在这39个机器学习库中,这是唯一一个雾件,之所以能囊括在这列表中,全凭着AMPLab与ML Base的地位支撑。

ML Base之外

4.Splash

这是近期2015年6月的一个项目,在运行随机梯度下降(SGD)时这套随机学习算法声称在性能上比Spark MLib中快了25%-75%。这是AMPLab实验室的sp标记项目,因此值得我们去阅读。

5.Keystone ML

KML将端到端的机器学习管道引进到了Spark中,但在近期Spark版本中管道已经趋于成熟。同样也承诺具有一些计算机视觉能力,我曾经在博客中也提到过这也存在一些局限。

6.Velox

作为一个服务器专门负责管理大量机器学习模型的收集。

7.CoCoA

通过优化通信模式与shuffles来实现更快的机器学习,详情可见这篇论文的描述《高效通信分布式双坐标上升》。
框架
GPU-based

8.DeepLearning4j

我曾经的一则博客有进行说明 《DeepLearning4J 增加了Spark gpu的支持》。

9.Elephas

全新的概念,这也是我写这篇博客的初衷。它提供了一个接口给Keras。

Non-GPU-based

10.DistML

模式并行下而并非数据并行的参数服务器(正如 Spark MLib)。

11.Aerosolve

来自Airbnb,用于他们自动化定价。

12. Zen

逻辑斯谛回归、隐含狄利克雷分布(LDA)、因子分解机、神经网络、受限玻尔兹曼机。

13.Distributed Data Frame

与Spark DataFrame类似,但是引擎是不可知的(例如在未来它将运行在引擎上而不是Spark)。其中包括了交叉验证和外部机器学习库的接口。
其他机器学习系统的接口
14. spark-corenlp

封装了斯坦福CoreNLP。

15. Sparkit-learn

给Python Scikit-learn的接口。

16. Sparkling Water

给 的接口。

17. hivemall-spark

封装了Hivemall,,在Hive中的机器学习。

18. spark-pmml-exporter-validator

可导出预测模型标记语言(PMML),一种用于传递机器学习模型的行业标准的XML格式。
附加组件:增强MLlib中现有的算法。
19. MLlib-dropout

为Spark MLLib 增加dropout能力。基于以下这篇论文进行的实现,《Dropout:一个简单的方法来防止神经网络中的过拟合》。

20.generalized-kmeans-clustering

为K-Means算法增加任意距离函数。

21. spark-ml-streaming

可视化的流式机器学习算法内置于Spark MLlib。
算法  
监督学习

22. spark-libFM

因子分解机。

23. ScalaNetwork

递归神经网络(RNNs)。

24. dissolve-struct

基于上文中提到的高性能Spark通信框架CoCoA下的支持向量机(SVM)。

25. Sparkling Ferns

基于以下这篇论文进行的实现,《通过使用随机森林与随机蕨算法的图像分类技术》。

26. streaming-matrix-factorization

矩阵分解推荐系统。

无监督学习

27. PatchWork

聚类的速度比Spark MLlib 中的K-Means算法提升了40%。

28. Bisecting K-Meams Clustering 

可产生更多相同大小簇的K-Means算法,是基于《文档分类技术对比》一文的实现。

29. spark-knn-graphs

通过使用K近邻算法与位置敏感哈希函数(LSH)来建立图。

30. TopicModeling

在线隐含狄利克雷分布, 吉布斯采样隐含狄利克雷分布,在线层次狄利克雷过程(HDP)
算法构建块。

31. sparkboost

自适应提升算法与MP-Boost算法。

32. spark-tfocs

整合到Spark中的TFOCS(一阶圆锥曲线求解器模板),如果你机器学习中的代价函数恰好是凸函数,那么便可以运行TFOCS来解决问题。

33. lazy-linalg

运用Spark MLlib中的linalg包来完成线性代数操作。
特征提取
34.spark-infotheoretic-feature-selection

特征选择的信息理论基础。基于《条件最大似然方法:一种统一的框架用于信息理论下的特征选择》该文的实现。

35. spark-MDLP-discretization

对于数据标签,对其中的一部分连续的数字维度进行“离散化”,通过这样便可以让每箱的数据类相对分布均匀。这是CART与ID3算法生成决策树的基本想法。基于《对分类学习中连续值属性的多区间离散化》该文的实现。

36. spark-tsne

分布式t-SNE算法用于数据降维。

37. modelmatrix

Sparse feature vectors稀疏特征向量。
特定领域
38. Spatial and time-series data

K均值算法、回归算法与统计方法。

39. Twitter data

2015-09-30更新内容: 
正是由于看到reddit.com上的一篇关于Spark深度学习框架Elephas 的文章进而让我动起了编辑这分类列表的念头,其实从中大多数项目都是来自于 AMPLab与 spark-packages.org,还有一对是来自于内存中。之后我会不断关注AMPLab与spark-packages.org的进展以便更新(尽管这博客只是一篇静态列表)。如果想了解如何去保持一个快速发展的Spark生态系统,那么可以来看我在2015年二月所录制的十分钟演讲。
原文地址:http://datascienceassn.org/content/39-machine-learning-libraries-spark-categorized
译者:丘志鹏    
审校:林炀
小象科技原创作品,欢迎大家疯狂转发;
机构、自媒体平台转载务必至后台留言,申请版权。

Spark 中的RDD是个什么鬼,我们为什么需要它?

MikanaCu 发表了文章 0 个评论 1964 次浏览 2015-11-02 23:19 来自相关话题

译者:付军 原文链接:https://dzone.com/articles/what-is-rdd-in-spark-and-why-do-we-need-it 小象科技原创作品,欢迎大家疯狂转发; 机构、自媒体平台转载务必 ...查看全部
译者:付军
原文链接:https://dzone.com/articles/what-is-rdd-in-spark-and-why-do-we-need-it
小象科技原创作品,欢迎大家疯狂转发;
机构、自媒体平台转载务必至后台留言,申请版权。
 
Spark 中的RDD是个什么鬼,我们为什么需要它?
 
就快速执行诸如机器学习这样的迭代处理算法而言,Apache Spark 已经在通常情况下赶超了Hadoop(MapReduce),因为它提供了非常多的好处。 
 
这篇博文中,我们将会试着去理解到底是什么让spark RDD在批处理分析中如此的有用。
 1为什么是RDD? 
当提到分布式迭代计算,例如,通过多个job的计算来处理数据,类似有逻辑回归,K-means聚类,Page rank算法,在多个job中重用或者共享数据,又或者你可能希望在一个共享数据集中执行多个即席查询,这些都相当普遍。
 
在现有的分布式计算系统(比如MapReduce)中实现数据重用和数据共享有一个潜在的问题,即你需要将一些中间结果数据存储在稳定的分布式存储中,比如说HDFS或者Amazon S3。这就使得整个job的计算非常缓慢,因为它在处理过程中涉及到很多的IO操作,数据复制和数据序列化操作。
 

MapReduce中的迭代处理
 
RDDs ,试图在分布式内存计算中启用容错机制来解决这些问题。
 
 

Spark中的迭代处理
 
现在,让我们看一下RDD到底是什么以及它怎样实现容错的。
 2RDD ——弹性分布式数据集 
RDDs 是不可改变的并且已分区的记录集合,它只能够通过类似map,filter,group by等等粗粒度的操作所创建,这意味着,这些操作是被应用到数据集中的所有元素上的。RDDs 只能够通过从一个诸如HDFS这样的稳定存储中读取数据而创建,或者通过在现有RDDs上的转换操作来创建。
 
现在,它是怎样起到容错的作用呢?
 
由于RDDs是通过一系列转换操作创建的,它记录了这些转换操作,而并不是真正的数据。产生一个RDD的转换操作组成的图谱被叫做Lineage Graph。
 
例如:firstRDD=spark.textFile("hdfs://...")secondRDD=firstRDD.filter(someFunction);thirdRDD = secondRDD.map(someFunction);
 

Spark RDD Lineage Graph
 
为了防止我们丢失RDD的一些分区,我们可以在那个丢失的分区上重新运行lineage中的转换操作来实现同样的计算,而不是跨越多个节点重新复制数据。这个特点是RDD最大的利益所在,因为它在数据管理和数据复制方面节省了很多努力,并因此实现了更加快速的计算性能。

MIT研发出超前「数据科学机器DSM」:用人类的方式进行大数据分析工作

MikanaCu 发表了文章 0 个评论 1773 次浏览 2015-10-28 22:02 来自相关话题

译者:孙薇 原文链接:http://www.technewsworld.com/story/82635.html 小象科技原创作品,欢迎大家疯狂转发; 机构、自媒体平台转载务必至后台留言,申请版权。   ...查看全部
译者:孙薇
原文链接:http://www.technewsworld.com/story/82635.html
小象科技原创作品,欢迎大家疯狂转发;
机构、自媒体平台转载务必至后台留言,申请版权。
 
日前,MIT研究人员宣布,他们已经开发了一个算法系统来分析大数据,而这个系统最终有可能在这一领域取代人类。
该系统被命名为“数据科学机器(DSM)”,它能够设计特征集,并寻找大数据中隐藏的规律。MIT表示,DSM的首个原型机在参加一场竞赛时,需要在不熟悉的数据集中寻找预测模式,而它预测获胜者的准确率高达96%;在另外两场竞赛中,准确率也分别达到94%和87%。
Enderle Group的首席分析师Rob Enderle表示:“事实上,在这种情况下它能够代替数据科学家,而数据科学家本身是很稀缺的资源。
即便只有87%,这个数字也要优于未受训练的人员,而且对于数据科学家来说这个结果足够接近细化结果了,从而大幅减少了项目所需时间。”
 
DSM的工作原理 
大数据分析是寻找潜在的规律模式,并从中推算来进行预测,不过研究人员首先需要确定,要找的数据库具有哪些特征。
 
DSM的目标是通过所谓的“特征工程”,自动选出特征集。
 
这项研究是由研究生Max Kanter与自己的论文导师——MIT的计算机科学与人工智能实验室的研究科学家Kalyan Veeramachaneni一同进行的,他们使用了特征工程中的各种技术。
 
其中一个是利用数据库设计的内在结构关系,通过不同表格中的数据来跟踪关联性。DSM将数据从一张表格中导入到另一张,观察其关联,并执行操作来生成特征待选项。随着关联数的增加,通过互相堆叠操作来找到类似最小平均值与总和平均值之类的数据。
 
DSM也会寻找限定在一个有限的范围值中的分类数据,如品牌名称。通过跨类别划分现有特征,从而生成未来可用的待选项。一旦大量待选数据生成,DSM会在其中寻找关联,并剔除掉没有关联的那些,然后对精简过的样本数据特征集进行测试,用各种方式将其结合,来优化预测结果的准确性。
 
深度学习 
Tirias Research的首席分析师Jim McGregor评论:“它确实与深度学习有关,那就是服务器平台分析数据与开发智能算法的能力。”
 
[size=16]DSM的研究“证明了像谷歌、百度、阿里巴巴、微软之类的公司所进行研究的价值,并指出了一些挑战。”开发智能算法“是一种学习的科学”。“无需第一次就必须得出正确答案,随着时间流逝,反馈越多、数据越多,准确率也就越高。”[/size]
 
机器学习和深度学习的潜力无限,并且“由于允许机器与人类更具有生产力,将会改变我们的行业与社会。”
 
飞速解决问题 
MIT称,人类团队通常需要好几个月来创建预测算法模式,而DSM创建每个模型只需2到12个小时。即使在竞赛中DSM的表现逊于人类团队,其结论依旧很有价值。
 
技术分析师Jim McGregor表示,“想想开发对付超级病毒的专杀工具需要多长时间吧,在病毒肆虐前根本没有几个月的时间,只有数天的解决问题时间。”在这种情况下,“我们不是在寻找正确答案,而是去除大量或者大部分的错误答案以便找到可能的答案。”
 
Enderle表示,在十年内,这样的系统“如果继续进步的话,应当能够在准确率上媲美甚至超越人类。”
 
他警告我们:风险在于如果我们继续依赖这样的自动化系统,就可能失去自行解决问题所需要的技能,而无法发现系统犯的错误。“未来系统所产生的重大缺陷可能因无人发现而导致惨痛的结果。”
 
Kanter将在本周于巴黎举行的IEEE数据科学与高级分析国际会议上发表他的论文。
 

MongoDB VS.Cassandra大PK,下一代的NoSQL企业级数据库环境

MikanaCu 发表了文章 0 个评论 2023 次浏览 2015-10-27 23:14 来自相关话题

译者:刘旭坤 原文链接:http://www.amzur.com/mongodb-vs-cassandra-the-next-generation-nosql-enterprise-database-environments/ 小象科技 ...查看全部
译者:刘旭坤
原文链接:http://www.amzur.com/mongodb-vs-cassandra-the-next-generation-nosql-enterprise-database-environments/
小象科技原创作品,欢迎大家疯狂转发;
机构、自媒体平台转载务必至后台留言,申请版权。
 
信息技术日新月异,IT行业的版图时刻都在改变。数据库技术也从传统的关系型数据库发展到了现在的NoSQL数据库。今天我们就来看看NoSQL数据库中的两个佼佼者MongoDB和Cassandra。
MongoDB存储的是JSON文件,它在与很多其他应用进行集成时很容易,Cassandra则被设计为可以一次处理大量数据。下面就让我们一起来看看他们两者之间的异同。

相同点
开源和操作系统兼容程度
MongoDB和Cassandra都是开源数据库,社区也比较活跃,这意味着不幸碰到问题时能得到较多的支持。他们也都支持Linux,Mac OS X和Windows,所以我们不用担心老旧的硬件派不上用场。
 
API和编程语言
MongoDB和Cassandra使用的都是私有协议,也都支持C#和Java等常见的编程语言。这使得开发人员不用担心需要学习新的编程语言,降低了使用的门槛。
 
分区方法
主要的方法是sharding来避免出现单点故障。这在保证性能优化的同时保证了数据的一致性。

不同点
虽然有这么多相同点,但说到底还是两款不同的产品。一个关键的不同的是对用户访问权限的处理。Cassandra可以为每个对象设置单独的用户权限,而MongoDB则只能控制用户的读写权限,所以在多人协作时Cassandra的用户访问控制会显得比较灵活。另一个重要区别是Cassandra不支持在服务器端编写脚本。MongoDB除了支持服务器端脚本外,它所支持的编程语言也较Cassandra为多,比如LISP、Lua、MatLab、Groovy、PowerShell、CodeFusion等。
 
小结
服务器端脚本之所以有用是因为它可以在服务器响应用户请求之前执行,这使得用户可能获得个性化的使用体验,同时也避免了用户对数据库内部的访问。
 
MongoDB和Cassandra都是优秀的NoSQL数据库,我们只能为大家介绍他们的相似和不同。具体的取舍就要根据自己项目和人员的实际情况来选择了。
 

【大数据产业联合会分享】小米工程师常冰琳:Hadoop新型数据库Kudu应用经验分享

MikanaCu 发表了文章 0 个评论 3089 次浏览 2015-10-26 22:21 来自相关话题

kudu应用经验分享 [b]本文是小米工程师常冰琳于10月25日晚10点在“大数据产业联合会”微信群中分享的内容,感谢董西成老师整理,供大家学习。[/b]   小米使用kudu的背景 小米大概在14年中开始和cl ...查看全部
kudu应用经验分享
[b]本文是小米工程师常冰琳于10月25日晚10点在“大数据产业联合会”微信群中分享的内容,感谢董西成老师整理,供大家学习。[/b]
 
小米使用kudu的背景
小米大概在14年中开始和cloudera合作,作为kudu小白鼠用户,帮cloudera在生产环境验证kudu。kudu+Impala可以帮助我们解决实时数据的ad-hoc查询需求。
 
在kudu之前,我们的大数据分析pipeline大概是有这几种:
1. 数据源-> scribe打日志到HDFS -> MR/Hive/Spark -> HDFS Parquet -> Impala -> 结果service
这个数据流一般用来分析各种日志。
2. 数据源 -> 实时更新HBase/Mysql -> 每天批量导出Parquet-> Impala -> 结果serve
这个数据流一般用来分析状态数据,也就是一般需要随机更新的数据,比如用户profile之类。
 
这两条数据流主要由几个问题:
1. 数据从生成到能够被高效查询的列存储,整个数据流延迟比较大,一般是小时级别到一天;
2. 很多数据的日志到达时间和逻辑时间是不一致的,一般存在一些随机延迟。
比如很多mobile app统计应用,这些tracing event发生后,很可能过一段时间才被后端tracing server收集到。
我们经常看到一些hive查询,分析一天或者一小时的数据,但是要读2-3天或者多个小时的日志,然后过滤出实际想要的记录。
对于一些实时分析需求,有一些可以通过流处理来解决,不过他肯定没用SQL方便,另外流式处理只能做固定的数据分析,对ad-hoc查询无能为力
kudu的特点正好可以来配合impala搭建实时ad-hoc分析应用。
 
改进后的数据流大概是这个样子:
1. 数据源 -> kafka -> ETL(Storm) -> kudu -> Impala
2. 数据源 -> kudu -> Impala
数据流1 主要是为需要进一步做ETL的应用使用的,另外kafka可以当做一个buffer,当写吞吐有毛刺时,kafka可以做一个缓冲。
如果应用有严格的实时需求,就是只要数据源写入就必须能够查到,就需要使用数据流2。
 
引入kudu的目的
引入kudu主要是用来替换 HDFS+parquet的。
 
kudu的列存和parquet列存有啥区别?
从功能上说,kudu的列存除了提供跟parquet接近的scan速度,还支持随机读写。支持随机写,数据就可以实时灌入存储中,达到实时查询的效果;但是parquet文件只能批量写,所以一般只能定期生成,所以增大了延迟。kudu的存储类似hbase的lsm存储。
 
为什么说kudu的scan会比kylin快呢
kylin是存储在hbase上的,kudu的scan为什么比hbase快,简单的说kudu是真正的列存储,hbase只是列簇存储。kudu是有schema的,每一列的数据是在文件中已数组的形式保存的,而hbase存储在hfile里面的还是sort好的(rowkey, column, timestamp, value)对,scan是开销要多很多,具体需要看kudu的paper了,在这里文字不好解释。
 
storm 写kudu的吞吐量能到多少,和storm写hbase比呢
我们在71个节点的集群做了测试,随机写性能:随机写26亿条记录:每个节点大概4W 随机写性能。
大概的情况如下:
71 Node cluster
Hardware
CPU: E5-2620 2.1GHz * 24 core  Memory: 64GB
Network: 1Gb  Disk: 12 HDD
Software
Hadoop2.6/Impala 2.1/Kudu
3个大表,其中一个大表每天:
~2.6 Billion rows
~270 bytes/row
17 columns, 5 key columns
storm到kudu,按照每天26亿数据来算,每秒大概30000条记录吧。

这个是我们的应用挑出的6个查询,做的查询性能对比。同样6个查询,查询parquet和查询kudu做的对比。当时kudu的设计目标是接近parquet的scan性能,惊喜的是,目前kudu的scan性能在生产环境下有时还比parquet快一些。
 
像hbase有coprocessor,kudu有类似的计算功能吗?
kudud。kudu有predicatepushdown,目前有impala使用时,scan时是把一些过滤提交给kudu去做的。
 
你们是想用kudu替换hbase还是一起搭配用?
感觉这两个工具目前用来解决不同的问题,hbase还是用来做OLTP类存储跟Mysql类似,kudu则用来升级我们现有的数据分析数据流,主要还是OLAP的workload。
 
Kudu支持随机增加列吗?
只要不是primarykey的列,是可以随时增加的,而且不像mysql增加列时影响其他操作,kudu altertable是异步的,而且对性能影响不大。hbase是无schema的,所以可以成千上万个列,kudu不行的,列的数量也不能过多。我们目前也就试过30多列的,一些300+列的表还没有测试过。
 
Kudu目前有稳定版吗
目前beta版本,不推荐现在在生产环境使用。
 
能否介绍一下小米使用kudu过程中踩过的坑?
目前踩的坑都还在开发阶段,其实都不算什么,而且从大方向上看,我们还是相信kudu这种方式对比之前的数据流优势很明显,对吞吐不是非常高的应用,这种方案是发展方向。其实我们在老的数据流上碰到很多问题,之前提到的数据延迟,数据无序,多个组件之间的兼容性,数据无schema导致灌入数据时缺少验证,其实都希望引入kudu后能够解决。
 
Kudu研发团队目前多大?
cloudera kudu team目前7,8个全职做开发的。对代码有贡献的有十几个吧,这个项目从12年就开始做了,一直保密。
 
特别鸣谢:感谢董西成老师为我们精心整理的分享内容!
 

Hype Cycle预言大数据走向衰落被证错误,因为仅0.5%获得分析和使用

MikanaCu 发表了文章 0 个评论 1746 次浏览 2015-10-24 23:20 来自相关话题

译者:孙薇 原文链接:http://data-informed.com/the-hype-may-be-over-but-big-data-isnt/ 小象科技原创作品,欢迎大家疯狂转发; 机构、自媒体平台转载务必至后台留言 ...查看全部
译者:孙薇
原文链接:http://data-informed.com/the-hype-may-be-over-but-big-data-isnt/
小象科技原创作品,欢迎大家疯狂转发;
机构、自媒体平台转载务必至后台留言,申请版权。
  

 Hype Cycle预言大数据走向衰落被证错误,因为仅0.5%获得分析和使用。
 
【小象科技】在看这篇文章之前首先给大家普及这个知识,什么是Hype Cycle? 

>我们经常叹服于商业领袖们灵敏的嗅觉和对业界走向的准确把握。其实,有了理论工具的帮助,普通人也能在一定程度上做到这样的未卜先知。而早在1995年,美国著名的IT研究咨询机构Gartner就发明了这样一个工具,并用它准确预测了本世纪初互联网泡沫的破灭。这个叫做“炒做周期”(Hype Cycle)的理论,将一项新技术从产生到成熟,再到为市场广泛接受的全过程浓缩为5个阶段。在Gartner公司的主页上,这5个阶段分别被定义如下:
 
1.“Technology Trigger”阶段:新技术产生之初,被业界和媒体广泛关注,曝光率直线上升;
2.“Peak of Inflated Expectations”阶段:概念炒做达到顶峰,技术成熟度和业界应用远远落在后面,媒体对新技术产生了大量不且实际的期望;
3.“Trough of Disillusionment”阶段:泡沫破灭,媒体态度大转弯,从原先的新技术支持者变成声讨者,概念本身渐渐被人淡忘;
4.“Slope of Enlightenment”阶段:虽然新技术已经很少有媒体曝光,但在业界并没有完全死去,不少企业在慢慢推动新技术走向成熟,技术本身的优势和局限逐渐被大家认识;
5.“Plateau of Productivity”阶段:已经达到成熟期的新技术,在市场中找到了自己的位置,虽然不像原先媒体期望的那样具有颠覆性,但却实实在在的改变着人们的生活。 
 
以下为正文:  
 
这周我看到一个大标题:“大数据过时了,现在正流行机器学习。”那篇文章以Gartner的“技术炒作周期(Hype Cycle)”为基础,得出大数据会在2014年大热,而在2015年呈下降趋势的Hype地图。
 
这是否意味着我该开始找新工作了呢?我可不这么认为。
 
那篇文章指出,大数据失败的原因可能是由于所有大数据相关的事儿去年都已启动,不再有什么大事件了,不过那不并代表大数据不再重要了。事实上,这项技术正是包括无人驾驶汽车、机器学习、物联网产品在内的Gartner2015技术成熟度曲线图表所赖以成形的东西——这个图表需要依赖大量的数据。
 
如果有什么变化的话,那就是我们对大数据的依赖会增加,而非减少。这并非媒体第一次过早宣布大数据的死亡了:去年在《科学》杂志上有一篇文章写道:谷歌极力推崇的预测流感趋势的大数据实验过于高估了流感案例,到处冒出来的大标题都在宣称大数据就是一个大错误。不过我们必须了解:大数据不能替错误的分析结果负责,它只是事实存在的东西。
 
大数据最纯粹的形式就是:数据。对围绕大数据的惊人统计数字进行粗略研究便可发现,我们正在大量数据中积极前行,这一点是不会变的:
 
l  在过去两年中所产生的数据,较之整个人类历史所产生的数据还要多。
l  到2020年,地球上每人每秒所创造的新信息大约有1.7MB。
l  到那时我们所累积的数字知识将会从今天的4.4兆兆字节飙升到44兆兆字节(相当44万亿个千兆字节)。
 
问题不在于数据,而在于我们对数据进行合理分析的能力,以及从中得出结论的能力是否能与我们创造数据的速率同步。答案是没问题,我们能够同步。因为我曾见识过大数据与相关数据分析所能达成的商业价值,所以我了解人才和资源都会涌入这个领域,而我们的能力会以惊人的速度得到提高。这就是为什么我并不担心关于大数据的Hype指数到底是升是降。
 
还记得电子商务或者商业智能相关的热词吗?它们都曾获得过度膨胀的评估,并被笃定无法坚持下去,不过事实真相逐渐显现,今天它们已经成为了我们日常生活和商务的一部分。
 
因此这也将是,或者说已经成为了大数据的趋势。hype可能会归于沉寂,因为大量的数据已成了老生常谈的东西。最小的业务甚至可以由单人运行、访问并分析业务相关数据,而在仅仅5年前这一切还无法做到。
 
此时,我们创造的数据中仅有0.5%获得分析和使用。想象一下这个信息的反面所透露出来的潜力吧。据估计,对一家典型的财富1000强公司来说,仅增加10%的数据访问就会带来超过6500万的额外净收入。
 
这个数字是任何公司都无法忽略的,这就是为什么我相信大数据会持续下去,无论hype结果是好是坏,数据不会消失,总有人能够指出如何能够合理地利用它们。唯一的问题在于,哪些公司会是首先获得最多回报的。
 
Bernard Marr拥有多种身份,包括畅销书作者、主讲人、战略绩效顾问、分析学、KPI与大数据大师。他协助公司优化管理、衡量、报告与分析绩效。他的主要工作就是与全球的大公司、组织与政府机构合作,这让他成为了一位广受好评、备受赞誉的主讲人、研究人员、顾问与教师。
 

分析:互联网重塑电影业:大数据+社交网站+电商+多屏

唐半张 发表了文章 0 个评论 1509 次浏览 2015-10-24 10:57 来自相关话题

不断推陈出新的互联网传播形式延伸着电影营销的触角,视频网站、社交网站、电商等全方位与电影业耳鬓厮磨也不是这一两回了,这种暧昧甜蜜终于发展到今年喜结连理——BAT(百度、阿里巴巴、腾讯)前后脚行动迈入电影业。于是大家才惊觉,在电影背后扮演宣传渠道/售票渠道角色收 ...查看全部
不断推陈出新的互联网传播形式延伸着电影营销的触角,视频网站、社交网站、电商等全方位与电影业耳鬓厮磨也不是这一两回了,这种暧昧甜蜜终于发展到今年喜结连理——BAT(百度、阿里巴巴、腾讯)前后脚行动迈入电影业。于是大家才惊觉,在电影背后扮演宣传渠道/售票渠道角色收的蝇头小利不过是稳扎稳打的蔓延渗透,BAT一直在下着盘大棋。当你还在为《小时代3》称霸档期银幕猛敲键盘或笑或骂,互联网对整个电影产业链的改造和影响早已经明晃晃横到了眼前。
BAT入局到底是“狼来了”还是保驾护航?
近期BAT入局在电影产业内掀起的话题风暴绝不亚于《小时代3》的争议,非传统模式的电影公司迅猛崛起,带进未知的机会和危机搅得整个电影业躁动不安。阿里巴巴集团斥资62.44亿收购文化中国传媒并将其更名为阿里巴巴影业,挖来李连杰、王家卫、陈可辛、周星驰等声势浩荡的大牌阵容护航;腾讯将出品《钟馗伏魔:雪妖魔灵》等6部影片;而百度年初就投资了美国洛杉矶的影视制作公司,首个项目是耗资4000万美元改编自《西游记》的3D动画电影《悟空》。近日其旗下的爱奇艺宣布成立爱奇艺影业公司,看似走乐视网旗下乐视影业的老路,但毕竟是含着爱奇艺PPS和百度搜索大数据的金汤勺出世,高起点总令人难以忽视。除了BAT这样的巨头,视频网站优酷土豆集团今年也以联合出品方的身份参与到传统电影产业链上游,从《窃听风云3》、《白发魔女传》到《黄金时代》都可见其身影,且未来还将推出10-15部联合出品的电影。
套用阿里巴巴集团副总裁刘春宁的话:“中国有13亿人口,有近10亿部智能手机,5亿平板电脑,还有5亿家庭电视屏幕,这些屏幕未来都将是我们电影产业持续发展的基础。”互联网巨头入驻电影产业虽说是潮流所至大势所趋,但这典型马太效应的出现,强者愈强弱者愈弱,令人忧心的后果是中小影业的生存空间将被极大程度剥削。互联网巨头们的渠道优势太明显,除了长期培养起来的数目庞大的受众群,像天猫魔盒等客厅多终端设备这种内容衍生销售的重要渠道也尽在互联网巨头掌握中。实际上连电影业内大佬的危机感也陡然飙升,上影集团总裁任仲伦感叹:“我们已经身在电影产业三十余年,但是正在被一些还不太知道怎么做电影的业余选手所替代。”博纳影业总裁于冬也直言:“未来电影公司的发展,就是满足BAT三家的需求,BAT要什么我们就干什么。”
“我们只是想为优秀的内容公司插上翅膀,为电影嫁接互联网思维,创造新的商业模式。”虽然刘春宁对这些担忧做了小心回应,但背后时刻发生的变化却让电影公司根本放不宽心。一方面电影产业链各个环节难得培养出的人才分分秒秒都在被“土豪”互联网公司前赴后继重金挖走,一方面互联网公司投资电影,必定会重点服务网络院线,未来走进电影院的观众群或一定程度被网络院线分割。但凡事有两面,反过来讲,虽然互联网公司有平台有渠道有数据,但是他们在内容制作方面的薄弱也会成为牵制其发展的大阻力,而网络院线的发展必定会促进实体影院服务的自我提升,毕竟无论视听效果还是集体观影的仪式感,或者在社交需求方面的满足都是实体影院的独特核心优势
大数据电影的价值:艺术属性如何套进数字框架计算?
“科幻小说之父”乔治.威尔斯曾预言:在未来社会,统计学思维将像阅读能力一样成为社会人必不可少的能力。BAT入驻后大数据电影必定有全新发展,阿里巴巴的电商数据、百度的搜索数据都会助力电影在萌芽阶段就紧贴受众需求。这种“大数据思维”拍片的路子国外Netflix网站已经做得风生水起,他们每天收集网上产生的3000多万个用户行为,包括看视频会在哪里暂停、回放、快进、评论和搜索请求,并将大量数据运用到电影和电视剧的制作、营销、发行等环节,前段时间在四十多个国家大热的《纸牌屋》就是典范。“大数据电影”关键在强调观众和市场的重要性,强调电影产品尊重观众的消费者服务意识,这种服务意识,本质上也是互联网思维的集中体现。
目前国内在大数据电影制作方面虽然与好莱坞的运作方式还差距甚远,但毕竟意识已经萌发且积极投入实践。近期被定义为首部互联网电影的《老男孩之猛龙过江》就大力推销自己的大数据制作过程。电影制作中优酷搜集了自2010年来用户观看《老男孩》微电影时的各种数据,从停留的时间点推测喜欢的桥段,从转发的用户推测观众群,优酷提供的超过100条数据中75%都已经被转化到电影里面。包括后期的电影推广《老男孩》也以用户评论数据源进行分析,之所以会推出《小苹果》先打头阵亮出名号,是因为从以往《老男孩》微电影的评论看,提到“音乐”的有149万个,“梦想”的有103万个,“青春”有102万个。一曲俗烂《小苹果》在优酷推出24小时播放量就超过500万红遍大江南北也再次印证了大数据的威力。
对于“大数据电影”的出现,业界评论走两个极端。有的认为“大数据”降低电影投资的风险。比如阿里巴巴光是淘宝天猫平台上就有2.31亿活跃买家用户,通过前期对用户行为习惯的了解,从演员挑选到剧本内容再到后期的营销方式,投资方都有本可查有据可依,大佬们砸钱也砸得更有底气。但另一方面,不满大数据电影的声音也不绝于耳,美国影评人兼制片人杰拉尔德·皮尔就表示:“通过统计数据来认知现实世界从来都不可能完美,现实中存在着样本和数据偏差等种种,过于乐观和简单的理解都可能助长大数据迷信。”电影是有艺术属性的,要去量化和精确捕捉艺术属性几乎不可能,设想我们置身在一个由数据主导和决策的世界,那人类自身“自由意志”还如何发挥,商家竞逐利益投资千遍篇一律的同款,天才们“误打误撞”意外制造出伟大和惊喜的机会必定会被极大削弱。
社交网站营销抱紧粉丝经济名导演价值暴跌?
《小时代3》零点场拿下750万票房创了国产电影历史最佳夺人眼球,同时它在微博预售中也卖出4万张票刷新了国内社交平台的预售纪录。电影上映之前其微博专题页面被点赞超过40万次,话题阅读量超过11亿。微博借此大力宣传自身的“影片宣传推广—售票—分享观影感受”的闭环营销平台,推出了不少宣传稿自夸6月初刚上线的电影点评产品对电影口碑的带动和对票房的影响。今年暑期档通过微博发起预售活动的还有《窃听风云3》、《变形金刚4》和《分手大师》。
这其中《分手大师》的互联网营销最值一提,毕竟能赶着跟《变形金刚4》这种人见人躲的超级大片同天上映并蹭到至今(7月21日)6.4亿票房,片方思维绝对该属“不正常”范畴。如今电影的营销期已经不单固定跟传统的院线时间走,《分手大师》也是选在制作阶段就极度拓展各方面宣传,其中微博是主战场,平均每月都制造新话题热点期期不落:2013年11月杨幂公开感情状况《分手大师》就火急火燎公布杨幂与邓超的婚纱照大借舆论东风;2014年4月杨幂被传香港待产,《分手大师》又推出“为杨幂做过最蠢的事”招揽粉丝心,最新的话题是“邓超回家当奶爸我们帮你撑票房”。整个宣传过程极大发挥两位人气明星的强大号召力(偶尔还带上家里那位宛娘娘助阵),6月开始主创频繁接受视频网站专访,利用视频网站的大流量带动电影热度。从热点话题到事件营销都进展得风生水起。
谈到“粉丝经济”的挖掘,郭敬明和他的《小时代3》是个中翘楚。除了一众已经被纸醉金迷里萌萌哒养眼美颜攻陷的少女心,这次请到天后蔡依林献唱主题曲《万花瞳》、前EXO成员吴亦凡来唱片尾曲《时间煮雨》,并抓住上映前黄金时间在微博大推也是猛招,毕竟吴亦凡面临解约风波本来歌迷就很心疼,何况这还是他第一次单独献唱,粉丝们肯定是百感交集非支持不可。所有《小时代3》的最新物料几乎都是导演郭敬明的微博第一时间推出,跟影迷们互动频繁,在电影首映当天还特意曝光一支“首映狂欢全纪录”的视频,展现主创与影迷们同看影片同笑同哭的瞬间,煽情指数极高。除了利用微博,《小时代3》在人人网、QQ空间、QQ炫舞秀等社交平台也举办了各种活动,稳抓目标受众群。
看完以上两部,再对比下《归来》平淡如水的2.9亿票房就会发现,目前的内地市场,演技好老戏骨都是浮云,有粉丝才是王道。花4天半时间拍完的《爸爸去哪儿》没有知名导演也毫无演技,被吐槽“电视有必要放大屏幕吗?”但也在春节贺岁档捞走了7亿票房,或者我们也只能理解为,现在大部分的观众都只是想要图个新鲜、看个热闹吧。
电商“搅局”带入新玩法众筹捧热草根出品人
电商搅局的话题其实早在三八档就已经是瞩目焦点,作为目前互联网一大板块,电商的介入给院线带来的影响和变化今年尤其明显。3.8妇女节原本都算不上是个档期,因为今年恰逢周六日,在电影的推动下整个中国电影市场以1.33亿票房创下“三八档”的多项票房纪录。除了助推电影营销,像阿里巴巴、京东两大电商都已经介入电影产业链上游,开始试水众筹,虽然目前还是停留在披着众筹外衣做促销的阶段。但这雨后春笋般往外冒的各色新玩法已经让院线不得不绷紧神经了。
★试水众筹:电商前赴后继腾讯虎视眈眈
阿里巴巴今年3月底推出了新产品娱乐宝,类似国外知名众筹平台Kickstarter,号称将用户引入影片拍摄全过程,拉低创业门槛的同时也增强电影的传播效果。首批合作项目就募集了大约7300万资金,《小时代4》、《狼图腾》、《非法操作》等电影项目均在其中。一个月前娱乐宝推出二期产品,92万份不到100小时售罄,《绝命逃亡》、《露水红颜》、《边缘线》、《老男孩》、《魁拔》等5部电影共获得9200万元人民币投资,共15.79万用户参与其中。
七月份,另一电商巨头京东也宣布旗下众筹业务正式上线。推出包括《小时代3》在内的12个金融众筹项目。但其中的《小时代3》项目跟我们通常理解的“投资电影”可不一样,这里的“众筹”是指你可以认购金额从49元到89元不等的项目,但得到的的回报是《小时代3》的电影票和限量版T恤,这让不少网友吐槽不过是利用粉丝经济,披着众筹外衣做营销。
实际上众筹与营销结合再正常不过,同样是靠着粉丝撒钱种就的大树乘凉。比如你在娱乐宝上投资电影,除了预期年化收益7%,还会享有电影纪念品,甚至到剧组探班、首映式的权力和机会,这对很多粉丝来说远比那7%的收益珍贵得多。阿里巴巴副总裁刘春宁也直言:“我们发挥粉丝的经济,因为最大的价值从消费者中来,再到消费者中去。”现在电影制作还是以获得《摄制电影许可证》的企业通过自有资金或者获取他人投资的方式完成拍摄为主。目前国内涌现的众筹形式尚不具备颠覆传统电影制作方式的能力,但是它的出现增加了电影融资渠道和平台,推动电影产业整体的繁荣发展。
除了京东和阿里巴巴,日前百度也上线了名为“众筹频道”的众筹平台。腾讯虽然暂时还未有相关项目消息,但是其旗下微信早前开发的微信红包和AA付款的支付功能已经培养了大批用户,以其手上4亿活跃用户的基数看,如果做众筹将比其他几家电商都有优势。腾讯产业共赢基金执行董事许良之曾表示,“腾讯对众筹模式很感兴趣,不排除通过并购的方式进入众筹领域。”这么大一块蛋糕想必企鹅是不会白白浪费的。
★电商助力电影营销:八仙过海各显神通
相信不少观众都有体会,在网上买到的电影票价通常都低于电影院的现场购票。比如今年的三八档手机淘宝网就推出了3.8元看片活动,只要你用手机支付宝支付3.8元就可以爽歪歪看片。那么这其余的钱是谁垫的?片方?当然不是,那是电商为了推广其移动支付模式花自家真金白银砸的。手机淘宝网早在3月8日前就以大概35元的平均价格包下了200万观影人次的场次,等于提前锁定了全国7000万票房,再以3.8元卖出吸引大家安装手机淘宝网/支付宝。这种营销手段于是直接助推三八档票房暴涨,带出影市小高潮。
这种合作方式虽然新鲜,但对宣传效果要求很高,当时淘宝是利用各种硬广力推才成就那么出色的效果,这意味着每一场活动电商要铺下的钱可不是小数目,所以要让电商们一直请大家看电影还真是看不起。目前电影发行公司与电商之间更多合作还是常规的抢票&送票活动,或者利用电商人气激活首日、首周票房,这种合作方式通常以“票务补贴”实现,所谓票务补贴就是片方会把原本用来做市场推广的钱挪一部分补贴到电影票的票价中去,以优惠价吸引更多受众。
比如这次《小时代3》与大众点评网就合作举办了“发明星专属红包”的活动,在电影上映前三天大众点评发放明星专属红包,观众申请之后可以在7月17日首映当天用该红包购买电影票,同时还有机会获得小时代明星见面会门票。这种“小惊喜”钓鱼效果甚佳。除了大众点评,《小时代3》也与手机微博和淘宝电影合作推出30元的低价票,并提前售出超过4万张,等于提前保住首周票房,首映前两天去影院看片的观众基本都是换票的,现场买票的寥寥无几(也买不到位置)。
再比如腾讯旗下的“微信电影票”功能,今年年初上线至今7个月,已与万达、金逸、大地、UME、博纳、华谊和嘉禾等前十大院线全线合作,合作影院超过2000家,实现了重点城市和重点影城全部覆盖,观影人次的覆盖率超过80%。从创造了内地影市票房新纪录的《变形金刚4》到好莱坞经典翻拍怪兽电影《哥斯拉》,观众都可以通过微信电影票平台的电影红包完成在线购票,其中《变形金刚4》片方还与孩之宝公司合作提供了变形金刚限量版玩具的微信抽奖互动,增加了跨界营销的合作力度。
多屏主导未来:用户24小时在线互联网“粘合”电影产业
2013年中国有20%的电影票是通过在线销售的,这个数字今年预计会超过40%,照目前的发展趋势,“售票员成夕阳行业”是指日可待了。前段时间有调查将万达影院售票和在线售票系统“格瓦拉”做对比。2013年万达集团旗下院线门店的票房收入占全国总票房收入20%,为31.6亿元。而“格瓦拉”的在线售票系统仅在江浙沪就接近10亿元。我们现在进电影院看到的围在电子出票机边取票的人数已经明显多于影院现场购票的观众。
多伦多学派的哈罗德·伊尼斯和马歇尔·麦克卢汉早在上世纪50年代就提出“媒体技术决定论”,认定技术是必然的社会变革的首要决定因素。如今互联网技术的介入已经改变了电影受众的行为习惯,在中国北方的多个城市中,网络售卖电影票已经占据电影票房的八成以上。我们通过各色移动终端和视频网站APP接触电影花絮、预告片等宣传,通过各种手机新闻推送得知最新的电影资讯和电影信息,通过手机红包、优惠劵、团购等形式网络购票,通过微博、微信朋友圈的互动交流观影感受。“上网”这个词已经濒临淘汰,现在的受众几乎除了睡觉就24小时在线,走到哪里都可以随时随地通过网络完成购票体验。互联网几乎是被大潮流推进电影业的。
互联网的进驻的另一个好处是将电影圈里零碎的资源进行重整和拼凑,将以往电影产业链上各自独立的投资、制作、营销、衍生品等聚合在一起以实现利益最大化。比如阿里巴巴做一部电影可以先摆出众筹项目吸引部分资金(这个过程也是宣传),制作上阿里巴巴影业随便出来位大师级人物质量关总是过得了的,等到影片出炉,淘宝、手机淘宝网就都成了宣传工具。其实乐视网旗下的乐视影业已经大步朝这一趋势迈进了,陈凯歌今年年底即将上映的《道士下山》,届时不仅在院线上映,更会在乐视网、乐视超级电视、手机APP等多屏播出,全面收揽最大利益。
【结语】“金主”在革命:内容为王?渠道为王
《小时代》的出品人安晓芬在早前“视频网站引领电影业变革”的论坛中提到自己的担忧:“一些小的电影公司,可能会被这些互联网大佬,或者一些资本吞并。”国盛影业总经理高军也在业内产业论坛上疾呼:“刘强东、马云对很多行业都有染指,比如打车,其实出租车公司基本被架空了,他们占领了中间环节。设想以后,中国电影院没有了售票处,数十万的电影从业人员要下岗,他们改变了游戏规则。”这些担忧不无道理,但相对于一腔热血砸钱的煤老板们,互联网金主毕竟是懂行的,从目前看,他们的入驻对整个电影产业链的助力远大于阻力。
这年头酒香也怕巷子深,传统电影公司在内容制作上有优势,但互联网巨头们掌控着渠道。失去了渠道,电影再好信息无法传递,院线的吸金能力也会下降。互联网盯上电影是座潜力金矿,以其更娴熟的资源整合能力利用自身的平台、渠道和资源优势为其保驾护航,挖掘票房空间带动市场火热,拓展衍生市场的开发,将为电影产业注入更多元的商机,这系列动作反过来将扶持电影在艺术道路上百花齐放。互联网资本将电影产业逼到了眼下这个十字路口,你当它推手贵人也好,洪水猛兽也罢,变革是既定且永不停歇的。马太效应和张弓效应并存,忧心忡忡倒不如投身潮流谋寻腾飞新起点,走在技术前沿玩得出花来也是本事。

零售O2O该如何做数据分析

唐半张 发表了文章 0 个评论 1354 次浏览 2015-10-24 10:55 来自相关话题

通过数据分析可以知道商业模式是否可行,评判那种推广渠道效率最高,能发现网站、商品结构、物流等各个环节的问题,能评估改进效果。 有哪些数据? 线上平台的数据来源有网站统计工具、ERP系统、客服回访问卷投诉等。 线上数据主要包含 ...查看全部
通过数据分析可以知道商业模式是否可行,评判那种推广渠道效率最高,能发现网站、商品结构、物流等各个环节的问题,能评估改进效果。
有哪些数据?
线上平台的数据来源有网站统计工具、ERP系统、客服回访问卷投诉等。
线上数据主要包含:访问量(IP UV PV)、平均浏览时长(浏览量)、新UV比例、跳出率、转化率(注册、订单、支付)、流量来源(搜索、直接、连接、地区、推广)、网页打开时间、网站热点、搜索分析等。
ERP数据主要包含:订单量、客单价、毛利率、二次购买率、忠实顾客转化率、顾客流失率、动销率、缺货率、商品价格变化、SKU数量变化、周转率、退货率、品类销售占比、会员注册量、注册会员转化率等。
客服回访问卷投诉数据主要包含:投诉分类、UI印象、品类印象、价格印象、网站功能印象、物流体验印象、售后印象等。
以上数据相互关联,比如分析促销活动效果时,需要分析访问量的变化,注册下单转化率的变化,促销商品和正常商品销量的变化。
怎么分析数据?
有的公司成立专门的数据分析部门,数据部门不仅提供数据,还要完成数据分析工作。这种工作方式,虽然基础数据准确,但分析结果可能有较大偏差。因为数据分析人员不熟悉业务,对各种信息的了解也不如市场部和运营部等业务部门。
比如,某个品类销售占比突然降低,这可能是因为市场部推广方式的改变,也可能是遇到季节因素。如果数据分析人员不了解这些信息,则可能简单的判断成顾客不欢迎这类商品,并且做出建议商品部门降低这类商品占比的决定。
更合理的数据分析方式是,由数据专员提供基础数据,由相关部门骨干人员共同分析,比如转化率降低,应该由市场部、运营部、商品部共同分析,得出是由哪些方面的因素造成的。
对于新项目而言,可以引入目标分析法,目标分析法是以分析“新客引入成本”和“忠实顾客转化率”为核心,设定合理目标,以此判断商业模式是否可行。
比如:某个投资5000万的B2C网站,推广预算是2500万元,目标是稳定达到每天5000单。忠实顾客的定义是平均每月购物一次,每天5000单的销售目标,需要15万忠实顾客。
如果实际经营结果数据,新客引入成本是50元,忠实顾客转化率是30%,则要达到15万会员,需要2500万推广费用。
通过数据分析可知当新客引入成本大于50元,忠实顾客转化率低于30%时,项目不能达到目标。如果目标和实际业绩数据相差不多,可以通过优化内功改善业绩,如果数据相差太大,则说明商业模式可能不可行,应该早点调整商业模式,并在试错过程中重复以上数据分析步骤。
最重要的数据,我认为是流量引入成本,新客引入成本,忠实顾客转化率。流量引入成本数据主要考核市场部,新客引入成本数据由市场部、运营部、商品部共同负责,忠实顾客转化率主要由运营部和商品部负责。
推广方面的分析包含流量分析,停留时间,流量页面,转化率分析。流量的增减(新UV数据)代表市场部推广工作是否有效,新客停留时间浏览页面量和转化率等数据,一定程度上代表了市场部推广是否有针对性。
新客引入成本分析是推广效率重要的KPI,是每个达成目标投入的推广资金。比如某个推广方法带来了10000个UV,500个注册,100个订单。而这个方法耗费了1万元资金,则每个UV,注册,订单投入的资金分别是1元,20元,100元。这个推广方法的新客引入成本是100元。
如何与数据分析结果match?
市场部的重要工作是尝试不同的推广方式,计算每种推广的投资回报率,根据数据分析结果,重点投入和侧重优化投资回报率最高的推广方式。
提升内功是新客引入成本与忠实顾客转化率优化的基本方法。内功包含:商品结构、促销方式、网站体验、物流体验、顾客回访投诉、会员营销等。
商品结构优化目的是通过数据分析了解顾客需求,不断引进和淘汰商品,使商品结构尽量符合顾客需求。建立商品维度表,综合考虑商品所有维度,比如价格、型号、外形、品牌、规格等维度,把商品根据不同维度区分,数据分析各品类各维度的销售量,增加高销量维度商品品类占比,精简低销量维度商品品类占比。
商品引进淘汰过程还受到很多因素影响,比如“结构商品”即使销量不好,也不能淘汰,“季节商品”需要把季节因素考虑进去。
促销方式主要依靠数据分析评估效果,每做一次主题促销,就在ERP系统中建立促销单据,设置促销主题,促销商品,促销档期。通过BI工具分析促销商品销量变化,促销毛利损失,促销活动带动正常商品销量变化,促销活动带动新会员注册和老会员购物频次变化,综合评估促销效果,以此指导下一次促销活动。
网站体验优化可以用一个公式表达:UEO(用户体验优化)= PV / OR(站点跳出率),目的降低顾客跳出率,让顾客购物更加简单轻松。这是建立在对网站定位和顾客特点充分了解的基础之上,比如让网站的布局更加清晰,让顾客购物过程更加流畅。通过热点分析,了解顾客关注的位置,把顾客关注的内容放到热点区域。通过跳出率分析,在顾客容易跳出的页面显示推荐内容,吸引顾客继续留在网站。
顾客印象问卷投诉数据分析能发现顾客不满意的地方,在网站建立投诉通道,客服部门要对新、老顾客回访。对生成订单、但最后没有提交订单的顾客回访,在UI、品类、价格、网站体验、物流、售后等方面统计数据,分析那个方面最影响顾客体验,根据实际情况逐条解决。不断优化。
会员营销是把会员分成不同类型,根据会员特点营销。可以分为:注册未下单顾客、第一次下单顾客、忠实顾客、高价值顾客、流失顾客。
注册未下单顾客,如果留有邮箱,要定向发一些大力度的优惠劵,吸引顾客首次下单,直观体验服务。
第一次下单顾客要在包裹中放一些有提醒意义的礼品,比如印有广告的鼠标垫,随时提醒顾客,增加顾客二次下单机会。第一次下单顾客可能不清楚我们网站的主要卖点或优势,可以通过包裹或者邮件向顾客灌输这些信息。客服部门要对第一次下单顾客回访,了解他们的感受。
忠实顾客是多次重复购买顾客,通过数据分析了解忠实顾客的所需所求,有针对性的做一些推荐,如果有足够的毛利空间,可以为忠实顾客寄送VIP卡,维护忠实顾客。针对忠实顾客,发挥积分的作用,向忠实顾客推荐一些积分换购礼品,把忠实顾客发展成口碑推广员,如果忠实顾客邀请了新会员,要对忠实顾客做积分奖励。
对流失顾客要针对性营销,了解顾客流失的原因,对流失顾客发优惠劵。高价值顾客购买频次不高,但客单价高,商品毛利高,对这类顾客要推荐高价值商品,如果用对待普通顾客的方式对高价值顾客营销,可能会有反效果。

以Amazon、豆瓣网为例,探索推荐引擎内部的秘密#1

唐半张 发表了文章 0 个评论 1491 次浏览 2015-10-24 10:53 来自相关话题

随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足 ...查看全部
随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用恰当的关键词描述自己的需求,二是基于关键词的信息检索在很多情况下是不够的。而推荐引擎的出现,使用户获取信息的方式从简单的目标明确的数据的搜索转换到更高级更符合人们使用习惯的上下文信息更丰富的信息发现。信息发现
如今已经进入了一个数据爆炸的时代,随着 Web 2.0 的发展, Web 已经变成数据分享的平台,那么,如何让人们在海量的数据中想要找到他们需要的信息将变得越来越难。
在这样的情形下,搜索引擎(Google,Bing,百度等等)成为大家快速找到目标信息的最好途径。在用户对自己需求相对明确的时候,用搜索引擎很方便的通过关键字搜索很快的找到自己需要的信息。但搜索引擎并不能完全满足用户对信息发现的需求,那是因为在很多情况下,用户其实并不明确自己的需要,或者他们的需求很难用简单的关键字来表述。又或者他们需要更加符合他们个人口味和喜好的结果,因此出现了推荐系统,与搜索引擎对应,大家也习惯称它为推荐引擎。
随着推荐引擎的出现,用户获取信息的方式从简单的目标明确的数据的搜索转换到更高级更符合人们使用习惯的信息发现。
如今,随着推荐技术的不断发展,推荐引擎已经在电子商务 (E-commerce,例如 Amazon,当当网 ) 和一些基于 social 的社会化站点 ( 包括音乐,电影和图书分享,例如豆瓣,Mtime 等 ) 都取得很大的成功。这也进一步的说明了,Web2.0 环境下,在面对海量的数据,用户需要这种更加智能的,更加了解他们需求,口味和喜好的信息发现机制。推荐引擎
前面介绍了推荐引擎对于现在的 Web2.0 站点的重要意义,这一章我们将讲讲推荐引擎到底是怎么工作的。推荐引擎利用特殊的信息过滤技术,将不同的物品或内容推荐给可能对它们感兴趣的用户。
图 1. 推荐引擎工作原理图

48.jpg

图 1 给出了推荐引擎的工作原理图,这里先将推荐引擎看作黑盒,它接受的输入是推荐的数据源,一般情况下,推荐引擎所需要的数据源包括:

  • 要推荐物品或内容的元数据,例如关键字,基因描述等;

  • 系统用户的基本信息,例如性别,年龄等

  • 用户对物品或者信息的偏好,根据应用本身的不同,可能包括用户对物品的评分,用户查看物品的记录,用户的购买记录等。其实这些用户的偏好信息可以分为两类:

  • 显式的用户反馈:这类是用户在网站上自然浏览或者使用网站以外,显式的提供反馈信息,例如用户对物品的评分,或者对物品的评论。

  • 隐式的用户反馈:这类是用户在使用网站是产生的数据,隐式的反应了用户对物品的喜好,例如用户购买了某物品,用户查看了某物品的信息等等。


显式的用户反馈能准确的反应用户对物品的真实喜好,但需要用户付出额外的代价,而隐式的用户行为,通过一些分析和处理,也能反映用户的喜好,只是数据不是很精确,有些行为的分析存在较大的噪音。但只要选择正确的行为特征,隐式的用户反馈也能得到很好的效果,只是行为特征的选择可能在不同的应用中有很大的不同,例如在电子商务的网站上,购买行为其实就是一个能很好表现用户喜好的隐式反馈。推荐引擎的分类
推荐引擎的分类可以根据很多指标,下面我们一一介绍一下:
1、推荐引擎是不是为不同的用户推荐不同的数据
根据这个指标,推荐引擎可以分为基于大众行为的推荐引擎和个性化推荐引擎
这是一个最基本的推荐引擎分类,其实大部分人们讨论的推荐引擎都是将个性化的推荐引擎,因为从根本上说,只有个性化的推荐引擎才是更加智能的信息发现过程。

  • 根据大众行为的推荐引擎,对每个用户都给出同样的推荐,这些推荐可以是静态的由系统管理员人工设定的,或者基于系统所有用户的反馈统计计算出的当下比较流行的物品。

  • 个性化推荐引擎,对不同的用户,根据他们的口味和喜好给出更加精确的推荐,这时,系统需要了解需推荐内容和用户的特质,或者基于社会化网络,通过找到与当前用户相同喜好的用户,实现推荐。


根据推荐引擎的数据源
其实这里讲的是如何发现数据的相关性,因为大部分推荐引擎的工作原理还是基于物品或者用户的相似集进行推荐。那么参考图 1 给出的推荐系统原理图,根据不同的数据源发现数据相关性的方法可以分为以下几种:

  • 根据系统用户的基本信息发现用户的相关程度,这种被称为基于人口统计学的推荐(Demographic-based Recommendation)

  • 根据推荐物品或内容的元数据,发现物品或者内容的相关性,这种被称为基于内容的推荐(Content-based Recommendation)

  • 根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性,这种被称为基于协同过滤的推荐(Collaborative Filtering-based Recommendation)。


根据推荐模型的建立方式
可以想象在海量物品和用户的系统中,推荐引擎的计算量是相当大的,要实现实时的推荐务必需要建立一个推荐模型,关于推荐模型的建立方式可以分为以下几种:

  • 基于物品和用户本身的,这种推荐引擎将每个用户和每个物品都当作独立的实体,预测每个用户对于每个物品的喜好程度,这些信息往往是用一个二维矩阵描述的。由于用户感兴趣的物品远远小于总物品的数目,这样的模型导致大量的数据空置,即我们得到的二维矩阵往往是一个很大的稀疏矩阵。同时为了减小计算量,我们可以对物品和用户进行聚类, 然后记录和计算一类用户对一类物品的喜好程度,但这样的模型又会在推荐的准确性上有损失。

  • 基于关联规则的推荐(Rule-based Recommendation):关联规则的挖掘已经是数据挖掘中的一个经典的问题,主要是挖掘一些数据的依赖关系,典型的场景就是“购物篮问题”,通过关联规则的挖掘,我们可以找到哪些物品经常被同时购买,或者用户购买了一些物品后通常会购买哪些其他的物品,当我们挖掘出这些关联规则之后,我们可以基于这些规则给用户进行推荐。

  • 基于模型的推荐(Model-based Recommendation):这是一个典型的机器学习的问题,可以将已有的用户喜好信息作为训练样本,训练出一个预测用户喜好的模型,这样以后用户在进入系统,可以基于此模型计算推荐。这种方法的问题在于如何将用户实时或者近期的喜好信息反馈给训练好的模型,从而提高推荐的准确度。


其实在现在的推荐系统中,很少有只使用了一个推荐策略的推荐引擎,一般都是在不同的场景下使用不同的推荐策略从而达到最好的推荐效果,例如 Amazon 的推荐,它将基于用户本身历史购买数据的推荐,和基于用户当前浏览的物品的推荐,以及基于大众喜好的当下比较流行的物品都在不同的区域推荐给用户,让用户可以从全方位的推荐中找到自己真正感兴趣的物品。深入推荐机制
这一章的篇幅,将详细介绍各个推荐机制的工作原理,它们的优缺点以及应用场景。
基于人口统计学的推荐
基于人口统计学的推荐机制(Demographic-based Recommendation)是一种最易于实现的推荐方法,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户,图 2 给出了这种推荐的工作原理。

49.jpg

图 2. 基于人口统计学的推荐机制的工作原理
从图中可以很清楚的看到,首先,系统对每个用户都有一个用户 Profile 的建模,其中包括用户的基本信息,例如用户的年龄,性别等等;然后,系统会根据用户的 Profile 计算用户的相似度,可以看到用户 A 的 Profile 和用户 C 一样,那么系统会认为用户 A 和 C 是相似用户,在推荐引擎中,可以称他们是“邻居”;最后,基于“邻居”用户群的喜好推荐给当前用户一些物品,图中将用户 A 喜欢的物品 A 推荐给用户 C。
这种基于人口统计学的推荐机制的好处在于:

  • 因为不使用当前用户对物品的喜好历史数据,所以对于新用户来讲没有“冷启动(Cold Start)”的问题。

  • 这个方法不依赖于物品本身的数据,所以这个方法在不同物品的领域都可以使用,它是领域独立的(domain-independent)。


那么这个方法的缺点和问题是什么呢?这种基于用户的基本信息对用户进行分类的方法过于粗糙,尤其是对品味要求较高的领域,比如图书,电影和音乐等领域,无法得到很好的推荐效果。可能在一些电子商务的网站中,这个方法可以给出一些简单的推荐。另外一个局限是,这个方法可能涉及到一些与信息发现问题本身无关却比较敏感的信息,比如用户的年龄等,这些用户信息不是很好获取。
基于内容的推荐
基于内容的推荐是在推荐引擎出现之初应用最为广泛的推荐机制,它的核心思想是根据推荐物品或内容的元数据,发现物品或者内容的相关性,然后基于用户以往的喜好记录,推荐给用户相似的物品。图 3 给出了基于内容推荐的基本原理。

50.jpg

图 3. 基于内容推荐机制的基本原理
图 3 中给出了基于内容推荐的一个典型的例子,电影推荐系统,首先我们需要对电影的元数据有一个建模,这里只简单的描述了一下电影的类型;然后通过电影的元数据发现电影间的相似度,因为类型都是“爱情,浪漫”电影 A 和 C 被认为是相似的电影(当然,只根据类型是不够的,要得到更好的推荐,我们还可以考虑电影的导演,演员等等);最后实现推荐,对于用户 A,他喜欢看电影 A,那么系统就可以给他推荐类似的电影 C。
这种基于内容的推荐机制的好处在于它能很好的建模用户的口味,能提供更加精确的推荐。但它也存在以下几个问题:
[list=1]
  • 需要对物品进行分析和建模,推荐的质量依赖于对物品模型的完整和全面程度。在现在的应用中我们可以观察到关键词和标签(Tag)被认为是描述物品元数据的一种简单有效的方法。

  • 物品相似度的分析仅仅依赖于物品本身的特征,这里没有考虑人对物品的态度。

  • 因为需要基于用户以往的喜好历史做出推荐,所以对于新用户有“冷启动”的问题。


  • 虽然这个方法有很多不足和问题,但他还是成功的应用在一些电影,音乐,图书的社交站点,有些站点还请专业的人员对物品进行基因编码,比如潘多拉,在一份报告中说道,在潘多拉的推荐引擎中,每首歌有超过 100 个元数据特征,包括歌曲的风格,年份,演唱者等等。
    基于协同过滤的推荐
    随着 Web2.0 的发展,Web 站点更加提倡用户参与和用户贡献,因此基于协同过滤的推荐机制因运而生。它的原理很简单,就是根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性,然后再基于这些关联性进行推荐。基于协同过滤的推荐可以分为三个子类:基于用户的推荐(User-based Recommendation),基于项目的推荐(Item-based Recommendation)和基于模型的推荐(Model-based Recommendation)。下面我们一个一个详细的介绍着三种协同过滤的推荐机制。
    基于用户的协同过滤推荐
    基于用户的协同过滤推荐的基本原理是,根据所有用户对物品或者信息的偏好,发现与当前用户口味和偏好相似的“邻居”用户群,在一般的应用中是采用计算“K- 邻居”的算法;然后,基于这 K 个邻居的历史偏好信息,为当前用户进行推荐。下图 4 给出了原理图。

    51.jpg

    图 4. 基于用户的协同过滤推荐机制的基本原理
    上图示意出基于用户的协同过滤推荐机制的基本原理,假设用户 A 喜欢物品 A,物品 C,用户 B 喜欢物品 B,用户 C 喜欢物品 A ,物品 C 和物品 D;从这些用户的历史喜好信息中,我们可以发现用户 A 和用户 C 的口味和偏好是比较类似的,同时用户 C 还喜欢物品 D,那么我们可以推断用户 A 可能也喜欢物品 D,因此可以将物品 D 推荐给用户 A。
    基于用户的协同过滤推荐机制和基于人口统计学的推荐机制都是计算用户的相似度,并基于“邻居”用户群计算推荐,但它们所不同的是如何计算用户的相似度,基于人口统计学的机制只考虑用户本身的特征,而基于用户的协同过滤机制可是在用户的历史偏好的数据上计算用户的相似度,它的基本假设是,喜欢类似物品的用户可能有相同或者相似的口味和偏好。
    基于项目的协同过滤推荐
    基于项目的协同过滤推荐的基本原理也是类似的,只是说它使用所有用户对物品或者信息的偏好,发现物品和物品之间的相似度,然后根据用户的历史偏好信息,将类似的物品推荐给用户,图 5 很好的诠释了它的基本原理。
    假设用户 A 喜欢物品 A 和物品 C,用户 B 喜欢物品 A,物品 B 和物品 C,用户 C 喜欢物品 A,从这些用户的历史喜好可以分析出物品 A 和物品 C 时比较类似的,喜欢物品 A 的人都喜欢物品 C,基于这个数据可以推断用户 C 很有可能也喜欢物品 C,所以系统会将物品 C 推荐给用户 C。
    与上面讲的类似,基于项目的协同过滤推荐和基于内容的推荐其实都是基于物品相似度预测推荐,只是相似度计算的方法不一样,前者是从用户历史的偏好推断,而后者是基于物品本身的属性特征信息。

    52.jpg

    图 5. 基于项目的协同过滤推荐机制的基本原理
    同时协同过滤,在基于用户和基于项目两个策略中应该如何选择呢?其实基于项目的协同过滤推荐机制是 Amazon 在基于用户的机制上改良的一种策略,因为在大部分的 Web 站点中,物品的个数是远远小于用户的数量的,而且物品的个数和相似度相对比较稳定,同时基于项目的机制比基于用户的实时性更好一些。但也不是所有的场景都是这样的情况,可以设想一下在一些新闻推荐系统中,也许物品,也就是新闻的个数可能大于用户的个数,而且新闻的更新程度也有很快,所以它的形似度依然不稳定。所以,其实可以看出,推荐策略的选择其实和具体的应用场景有很大的关系。
    基于模型的协同过滤推荐
    基于模型的协同过滤推荐就是基于样本的用户喜好信息,训练一个推荐模型,然后根据实时的用户喜好的信息进行预测,计算推荐。
    基于协同过滤的推荐机制是现今应用最为广泛的推荐机制,它有以下几个显著的优点:

    • 它不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可理解的,所以这种方法也是领域无关的。

    • 这种方法计算出来的推荐是开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好


    而它也存在以下几个问题:

    • 方法的核心是基于历史数据,所以对新物品和新用户都有“冷启动”的问题。

    • 推荐的效果依赖于用户历史偏好数据的多少和准确性。

    • 在大部分的实现中,用户历史偏好是用稀疏矩阵进行存储的,而稀疏矩阵上的计算有些明显的问题,包括可能少部分人的错误偏好会对推荐的准确度有很大的影响等等。

    • 对于一些特殊品味的用户不能给予很好的推荐。

    • 由于以历史数据为基础,抓取和建模用户的偏好后,很难修改或者根据用户的使用演变,从而导致这个方法不够灵活。


    混合的推荐机制
    在现行的 Web 站点上的推荐往往都不是单纯只采用了某一种推荐的机制和策略,他们往往是将多个方法混合在一起,从而达到更好的推荐效果。关于如何组合各个推荐机制,这里讲几种比较流行的组合方法。
    [list=1]
  • 加权的混合(Weighted Hybridization): 用线性公式(linear formula)将几种不同的推荐按照一定权重组合起来,具体权重的值需要在测试数据集上反复实验,从而达到最好的推荐效果。

  • 切换的混合(Switching Hybridization):前面也讲到,其实对于不同的情况(数据量,系统运行状况,用户和物品的数目等),推荐策略可能有很大的不同,那么切换的混合方式,就是允许在不同的情况下,选择最为合适的推荐机制计算推荐。

  • 分区的混合(Mixed Hybridization):采用多种推荐机制,并将不同的推荐结果分不同的区显示给用户。其实,Amazon,当当网等很多电子商务网站都是采用这样的方式,用户可以得到很全面的推荐,也更容易找到他们想要的东西。

  • 分层的混合(Meta-Level Hybridization): 采用多种推荐机制,并将一个推荐机制的结果作为另一个的输入,从而综合各个推荐机制的优缺点,得到更加准确的推荐。


  • 推荐引擎的应用
    介绍完推荐引擎的基本原理,基本推荐机制,下面简要分析几个有代表性的推荐引擎的应用,这里选择两个领域:Amazon 作为电子商务的代表,豆瓣作为社交网络的代表。
    推荐在电子商务中的应用 – Amazon
    Amazon 作为推荐引擎的鼻祖,它已经将推荐的思想渗透在应用的各个角落。Amazon 推荐的核心是通过数据挖掘算法和比较用户的消费偏好于其他用户进行对比,借以预测用户可能感兴趣的商品。对应于上面介绍的各种推荐机制,Amazon 采用的是分区的混合的机制,并将不同的推荐结果分不同的区显示给用户,图 6 和图 7 展示了用户在 Amazon 上能得到的推荐。

    53.gif

    图 6. Amazon 的推荐机制 – 首页

    54.gif

    图 7. Amazon 的推荐机制 – 浏览物品
    Amazon 利用可以记录的所有用户在站点上的行为,根据不同数据的特点对它们进行处理,并分成不同区为用户推送推荐:
    [list=1]
  • 今日推荐 (Today’s Recommendation For You): 通常是根据用户的近期的历史购买或者查看记录,并结合时下流行的物品给出一个折中的推荐。

  • 新产品的推荐 (New For You): 采用了基于内容的推荐机制 (Content-based Recommendation),将一些新到物品推荐给用户。在方法选择上由于新物品没有大量的用户喜好信息,所以基于内容的推荐能很好的解决这个“冷启动”的问题。

  • 捆绑销售 (Frequently Bought Together): 采用数据挖掘技术对用户的购买行为进行分析,找到经常被一起或同一个人购买的物品集,进行捆绑销售,这是一种典型的基于项目的协同过滤推荐机制。

  • 别人购买 / 浏览的商品 (Customers Who Bought/See This Item Also Bought/See): 这也是一个典型的基于项目的协同过滤推荐的应用,通过社会化机制用户能更快更方便的找到自己感兴趣的物品。


  • 值得一提的是,Amazon 在做推荐时,设计和用户体验也做得特别独到:
    Amazon 利用有它大量历史数据的优势,量化推荐原因。

    • 基于社会化的推荐,Amazon 会给你事实的数据,让用户信服,例如:购买此物品的用户百分之多少也购买了那个物品;

    • 基于物品本身的推荐,Amazon 也会列出推荐的理由,例如:因为你的购物框中有 ***,或者因为你购买过 ***,所以给你推荐类似的 ***。


    另外,Amazon 很多推荐是基于用户的 profile 计算出来的,用户的 profile 中记录了用户在 Amazon 上的行为,包括看了那些物品,买了那些物品,收藏夹和 wish list 里的物品等等,当然 Amazon 里还集成了评分等其他的用户反馈的方式,它们都是 profile 的一部分,同时,Amazon 提供了让用户自主管理自己 profile 的功能,通过这种方式用户可以更明确的告诉推荐引擎他的品味和意图是什么。
    推荐在社交网站中的应用 – 豆瓣
    豆瓣是国内做的比较成功的社交网站,它以图书,电影,音乐和同城活动为中心,形成一个多元化的社交网络平台,自然推荐的功能是必不可少的,下面我们看看豆瓣是如何推荐的。

    55.gif

    图 8 . 豆瓣的推荐机制 – 豆瓣电影
    当你在豆瓣电影中将一些你看过的或是感兴趣的电影加入你看过和想看的列表里,并为它们做相应的评分,这时豆瓣的推荐引擎已经拿到你的一些偏好信息,那么它将给你展示如图 8 的电影推荐。

    56.gif

    图 9 . 豆瓣的推荐机制 – 基于用户品味的推荐
    豆瓣的推荐是通过“豆瓣猜”,为了让用户清楚这些推荐是如何来的,豆瓣还给出了“豆瓣猜”的一个简要的介绍。
    “你的个人推荐是根据你的收藏和评价自动得出的,每个人的推荐清单都不同。你的收藏和评价越多,豆瓣给你的推荐会越准确和丰富。
    每天推荐的内容可能会有变化。随着豆瓣的长大,给你推荐的内容也会越来越准。”
    这一点让我们可以清晰明了的知道,豆瓣必然是基于社会化的协同过滤的推荐,这样用户越多,用户的反馈越多,那么推荐的效果会越来越准确。
    相对于 Amazon 的用户行为模型,豆瓣电影的模型更加简单,就是“看过”和“想看”,这也让他们的推荐更加专注于用户的品味,毕竟买东西和看电影的动机还是有很大不同的。
    另外,豆瓣也有基于物品本身的推荐,当你查看一些电影的详细信息的时候,他会给你推荐出“喜欢这个电影的人也喜欢的电影”, 如图 10,这是一个基于协同过滤的应用。

    57.gif

    图 10 . 豆瓣的推荐机制 – 基于电影本身的推荐总结
    在网络数据爆炸的年代,如何让用户更快的找到想要的数据,如何让用户发现自己潜在的兴趣和需求,无论是对于电子商务还是社会网络的应用都是至关重要的。推荐引擎的出现,使得这个问题越来越被大家关注。但对大多数人来讲,也许还在惊叹它为什么总是能猜到你到底想要些什么。推荐引擎的魔力在于你不清楚在这个推荐背后,引擎到底记录和推理了些什么。
    通过这篇综述性的文章,你可以了解,其实推荐引擎只是默默的记录和观察你的一举一动,然后再借由所有用户产生的海量数据分析和发现其中的规律,进而慢慢的了解你,你的需求,你的习惯,并默默的无声息的帮助你快速的解决你的问题,找到你想要的东西。
    其实,回头想想,很多时候,推荐引擎比你更了解你自己。
    通过第一篇文章,相信大家对推荐引擎有一个清晰的第一印象,本系列的下一篇文章将深入介绍基于协同过滤的推荐策略。在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单,数据依赖性低,数据方便采集,推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的秘密,并给出基于 Apache Mahout 的协同过滤算法的高效实现。Apache Mahout 是 ASF 的一个较新的开源项目,它源于 Lucene,构建在 Hadoop 之上,关注海量数据上的机器学习经典算法的高效实现。

    大数据在教育领域如何应用?

    唐半张 发表了文章 0 个评论 1408 次浏览 2015-10-24 10:46 来自相关话题

    数据(data),一般而言是指通过科学实验、检验、统计等方式所获得的,用于科学研究、技术设计、查证、决策等目的的数值。通过全面、准确、系统地测量、收集、记录、分类、存储这些数据,再经过严格地统计、分析、检验这些数据,就能得出一些很有说服力的结论。大规模、长期地 ...查看全部
    数据(data),一般而言是指通过科学实验、检验、统计等方式所获得的,用于科学研究、技术设计、查证、决策等目的的数值。通过全面、准确、系统地测量、收集、记录、分类、存储这些数据,再经过严格地统计、分析、检验这些数据,就能得出一些很有说服力的结论。大规模、长期地测量、记录、存储、统计、分析这些数据,所获得的海量数据就是大数据(big data)。在制作大数据时,需要严格的方案设计、变量控制和统计检验等,不然所获得的大数据就是不全面、不准确、无价值或价值不大的。
    在教育特别是在学校教育中,数据成为教学改进最为显著的指标。通常,这些数据主要是指考试成绩。当然,也可以包括入学率、出勤率、辍学率、升学率等。对于具体的课堂教学来说,数据应该是能说明教学效果的,比如学生识字的准确率、作业的正确率、多方面发展的表现率——积极参与课堂科学的举手次数,回答问题的次数、时长与正确率,师生互动的频率与时长。进一步具体来说,例如每个学生回答一个问题所用的时间是多长,不同学生在同一问题上所用时长的区别有多大,整体回答的正确率是多少,这些具体的数据经过专门的收集、分类、整理、统计、分析就成为大数据。
    分析大数据助力教学改革
    近年来,随着大数据成为互联网信息技术行业的流行词汇,教育逐渐被认为是大数据可以大有作为的一个重要应用领域,有人大胆地预测大数据将给教育带来革命性的变化。
    大数据技术允许中小学和大学分析从学生的学习行为、考试分数到职业规划等所有重要的信息。许多这样的数据已经被诸如美国国家教育统计中心之类的政府机构储存起来用于统计和分析。
    而近年来越来越多的网络在线教育和大规模开放式网络课程横空出世,也使教育领域中的大数据获得了更为广阔的应用空间。专家指出,大数据将掀起新的教育革命,比如革新学生的学习、教师的教学、教育政策制定的方式与方法。
    教育领域中的大数据分析最终目的是为了改善学生的学习成绩。成绩优异的学生对学校、对社会、以及对国家来说都是好事。学生的作业和考试中有一系列重要的信息往往被我们常规的研究所忽视。而通过分析大数据,我们就能发现这些重要信息,并利用它们为改善学生的成绩提供个性化的服务。与此同时,它还能改善学生期末考试的成绩、平时的出勤率、辍学率、升学率等。
    现在,大数据分析已经被应用到美国的公共教育中,成为教学改革的重要力量。为了顺应并推动这一趋势,美国联邦政府教育部2012年参与了一项耗资2亿美元的公共教育中的大数据计划。这一计划旨在通过运用大数据分析来改善教育。联邦教育部从财政预算中支出2500万美元,用于理解学生在个性化层面是怎样学习的。部分综述了该计划的数据和案例已经在美国教育部教育技术办公室2012年4月10日发布的《通过教育数据挖掘和学习分析增进教与学(公共评论草案)》中披露出来。
    美国教育部门对大数据的运用主要是创造了“学习分析系统”——一个数据挖掘、模化和案例运用的联合框架。这些“学习分析系统”旨在向教育工作者提供了解学生到底是在“怎样”学习的更多、更好、更精确的信息。举例来说,一个学生成绩不好是由于他因为周围环境而分心了吗?期末考试不及格是否意味着该学生并没有完全掌握这一学期的学习内容,还是因为他请了很多病假的缘故?利用大数据的学习分析能够向教育工作者提供有用的信息,从而帮助其回答这些不太好回答的现实问题。
    许多人因此会问,大数据能拯救美国的公立教育吗?全球最大的电脑软件提供商微软公司(Microsoft)的创始人、前首席执行官比尔·盖茨(Bill Gates)今年3月7日在得克萨斯州首府奥斯汀举行的一个教育会议上打赌说,利用数据分析的教育大数据能够提高学生的学习成绩,拯救美国的公立学校系统。他称过去十几年里教育领域的技术发展陷入了停滞,研发投入远远不够。盖茨充满信心地认为,教育技术未来发展的关键在于数据。在这次大会上,5000多名参会者讨论了教育数据应用的前景。
    教育大数据市场前景广阔
    美国高中生和大学生的糟糕表现——高中生退学率高达30%(平均每26秒就有一个高中生退学),33%的大学生需要重修,46%的大学生无法正常毕业——在让教育部门忧心忡忡的同时,也让教育科技公司找到了淘金的机会。近些年来,许多教育科技公司纷纷开始抢滩大数据学习分析的市场,竞争极为激烈。
    美国的一些企业已经成功地商业化运作教育中的大数据。全球最大的信息技术与业务解决方案公司IBM就与亚拉巴马州的莫白儿县公共学区进行大数据合作。结果显示,大数据对学校的工作具有重要作用。当IBM刚刚开始与这一学区合作时,除了学生成绩不好之外,该县还面临着辍学率已增加到48%的严峻情况。根据联邦政府的《不让一个孩子掉队法》(No Child Lift Behind,NCLB),学生成绩糟糕的地方政府将受到惩罚。为了应对这一巨大的挑战,该县此前已经在学生数据的基础上建立了一个辍学指示工具,并将其用于全县层面的决策。但IBM认为这仍不足以改善莫白儿县窘迫的现状,需要借助IBM的技术支持重新建立大数据,进而利用大数据分析来改善学区内所有学生的整体成绩。
    在美国的教育大数据领域,除了处于领先地位的IBM,还有像“希维塔斯学习”(Civitas Learning)这样的新兴企业。“希维塔斯学习”是一家专门聚焦于运用预测性分析、机器学习从而提高学生成绩的年轻公司。该公司在高等教育领域建立起最大的跨校学习数据库。通过这些海量数据,能够看到学生的分数、出勤率、辍学率和保留率的主要趋势。通过使用100多万名学生的相关记录和700万个课程记录,这家公司的软件能够让用户探测性地知道导致辍学和学习成绩表现不良的警告性信号。此外,还允许用户发现那些导致无谓消耗的特定课程,并且看出哪些资源和干预是最成功的。
    在加拿大,总部位于安大略省沃特卢的教育科技公司“渴望学习”(Desire 2 Learn)已经面向高等教育领域的学生,推出了基于他们自己过去的学习成绩数据预测并改善其未来学习成绩的大数据服务项目。这家公司的新产品名为“学生成功系统”(Student Success System)。“渴望学习”声称加拿大和美国的1000多万名高校学生正在使用其学习管理系统技术。“渴望学习”的产品通过监控学生阅读电子化的课程材料、提交电子版的作业、通过在线与同学交流、完成考试与测验,就能让其计算程序持续、系统地分析每个学生的教育数据。老师得到的不再是过去那种只展示学生分数与作业的结果,而是像阅读材料的时间长短等这样更为详细的重要信息,这样老师就能及时诊断问题的所在,提出改进的建议,并预测学生的期末考试成绩。
    像美国的“梦盒学习”(Dream Box Learning)公司和“纽顿”(Knewton)公司这类领先性的开发者们,已经成功创造并发布了各自版本的利用大数据的适应性学习(adaptive learning)系统。在2012年国际消费电子展的高等教育技术峰会上,世界最大的教育出版公司培生集团(Pearson)与适应性学习领域里的先行者纽顿公司共同发布了主要由培生集团开发的适应性学习产品——“我的实验室/高手掌握”(MyLab/Mastering)。这款产品在将全球范围内向数百万名学生提供个性化的学习服务,向他们提供真实可信的学习数据,让学校通过这些数据提高学生的学习效果并降低教学成本。首款产品将在美国的数十万名学生中使用,包括数学、英语,以及写作等技能开发课。
    纽顿的创办人、首席执行官何塞·费雷拉和培生高等教育分公司的总裁格雷格·托宾共同出席了“我的实验室/高手掌握”的发布会并介绍了合作的细节,讨论了高等教育的未来。托宾说:“个性化学习是未来教育的一个关键点。我们把纽顿的技术整合到‘我的实验室/高手掌握’这个产品中,是整个行业进入个性化教育新时代的引领风气之举”。费雷拉说:“从今年秋季起,培生的课程材料将在纽顿技术的支持下,开始适应性地满足每个学生独特的学习需求。学生能够生成大量有价值的数据,纽顿可以分析这些数据,以此确保学生以最有效、最高效的方式学习。这是教育的一个新的前沿领域”。按照已经达成的协议,这两家公司2013年将进一步扩大合作,把大学数学、大学统计学、大学一年级作文、经济学以及科学等领域纳入其产品中去。
    此外,由总部设在美国纽约的麦格劳·希尔公司(McGraw-Hill)、总部设在英国伦敦的培生集团和其他出版公司共同开发的“课程精灵”系统(CourseSmart),也允许教授们通过让学生使用电子教科书来跟踪他们的学业进展,并向助教们显示学生的学习参与度和学习成绩等大量的数据信息,只是这一系统尚不具备预测的功能。
    大数据让考试变得更科学
    教育中的数据挖掘是迈向大数据分析的一项主要工作。教育中最近的趋势是允许研究者积累大量尚未结构化的数据(unstructured data)。结构化的数据(structured data)是从教育部门多年的数据——特别考试成绩和出勤记录——那里收集而来。互动性学习的新方法已经通过智力辅导系统、刺激与激励机制、教育性的游戏产生了越来越多的尚未结构化的数据。这就使得更丰富的数据能给研究者创造出比过去更多的探究学生学习环境的新机会。
    教育数据与其他领域中的数据比较起来,有一些独特的特征。总结起来就是教育数据是分层的(hierarchical)。美国教育部教育技术办公室在《通过教育数据挖掘和学习分析增进教与学(公共评论草案)》的第18页中写道:“教育数据是……分层的。有键击层(keystroke level)、回答层(answer level)、学期层(session level)、学生层(student level)、教室层(classroom level)、教师层(teacher level)和学校层(school level),数据就寓居在这些不同的层之中。”
    当某个学生回答一个问题时,一些变量就需要一起分析了。例如,学生回答正确率低的问题就是好问题吗?此外,时间也是重要的因素。比如,一个学生在考试的第一部分耗时太多,是否意味着其接下来就会飞速、凌乱地答题。一道问题的答题顺序、结果、具体情况,都给研究者提供了许多前所未有的大量数据。运用这些数据,研究者就能揭示学生的学习模式。研究者利用所有这些数据就能获悉到底是什么因素对学生构成了最好的学习环境。理解这些重要的问题有助于教育工作者给学生创造一个个性化的学习模式。
    监测学生是“如何”考试的能让研究者有效定型学生的学习行为。大数据要求教育工作者必须超越传统,不能只追求正确的答案,学生是如何朝着正确答案努力的过程也同样重要。在一次考试中,学生个人和整体在每道题上花费了多少时间?最长的是多少?最短的是多少?平均又是多少?哪些此前已经出现过的问题学生答对或答错了?哪些问题的线索让学生获益了?通过监测这些信息,形成数据档案,能够帮助教育工作者理解学生为了掌握学习内容而进行学习的全过程,并有助于向他们提供个性化的学习模式。
    监控学生的每一个学习行为是可能的。为了改进学生的学习成绩,我们需要知道他们回答一个问题用了多少时间,回答这个问题使用了哪些资源,哪些问题被跳过了,为了回答这个问题做了哪些研究工作,这个问题与其他已经回答了的问题之间存在什么关系。此外,老师对每个学生提供什么样的建议才是最佳的?学生写作业和答题的信息能立即被自动地监测到,老师还能在第一时间将这些信息反馈给学生。
    用这些学生学习的行为档案创造适应性的学习系统能够提高学生的学习效果。利用学生是“如何”学习的这样重要的信息,考试的出题者们就能为学生量身定制出适合学生的个性化问题,并设计出能够促进记忆力的线索。通过分析大数据,研究者发现从教育的效果上来看,当被问到一系列难度逐渐增加且互相关联的问题时,学生的表现要好于围绕一个共同的知识点而随机挑选出的问题。美国标准化的研究生入学考试(GRE)中的这种适应性考试已经显示出朝这一方向努力的趋势。
    五大技术利用教育大数据
    需要特别注意的是,如何收集数据对于它们未来的使用性非常重要。接收数据汇入背后的挑战是从一开始就要标准化,以便今后对数据进行仔细分析。这样做并不是意味着将未结构化的数据转化为结构化的数据,而是要用直观的方法对接收的数据进行分类。
    应该说,获得相关数据并不是一件容易的事。对于大学阶段的学生而言,数据的收集并不是主要问题。然而,对于中小学阶段的学生而言,挑战却很大,因为有些数据的收集存在法律问题,有的则存在伦理道德的问题。
    数据收集者的人数和技能也是一个问题。对于公司而言,通常通过网络上的小型文本文件(cookies)来收集用户的相关信息。但是对于美国联邦政府教育部而言,则需要依赖于全国众多学区和研究者的网络来提炼和确认数据。
    教育工作者和研究者已经开发出从大数据中提取价值的5种主要的技术。
    1.预测(Prediction)——觉知预料中的事实的可能性。例如,要具备知道一个学生在什么情况下尽管事实上有能力但却有意回答错误的能力。
    2.聚类(Clustering)——发现自然集中起来的数据点。这对于把有相同学习兴趣的学生分在一组很有用。
    3.相关性挖掘(Relationship Mining)——发现各种变量之间的关系,并对其进行解码以便今后使用它们。这对探知学生在寻求帮助后是否能够正确回答问题的可靠性很有帮助。
    4.升华人的判断(Distillation for human judgment)——建立可视的机器学习的模式。
    5.用模式进行发现(Discovery with models)——使用通过大数据分析开发出的模式进行“元学习”(meta-study)。
    实施这些技术就能够通过大数据来创建为提高学生成绩提供支持的学习分析系统。研究者们相信这些技术将帮助教育工作者更加有效地指导学生朝着更加个性化的学习进程迈进。
    总而言之,通过大数据进行学习分析能够为每一位学生都创设一个量身定做的学习环境和个性化的课程,还能创建一个早期预警系统以便发现开除和辍学等潜在的风险,为学生的多年学习提供一个富有挑战性而非逐渐厌倦的学习计划。因此,有识之士经预言未来的学习将是大数据驱动的新时代。我们应该积极迎接这个新时代,通过大数据来分析学习,进一步改善教学的方式与方法,进一步促进学生学习成绩的提高。

    大数据落地应用畅想曲(一):定制化产品和服务

    唐半张 发表了文章 0 个评论 1392 次浏览 2015-10-24 10:45 来自相关话题

    人,本身就是一个“活”的大数据库 此前,我曾经提出过一个观点,“每个人的背后,都是一组鲜活的数据”,没错,每个人对应的是无数的数据,这些数据有健康方面的数据,包括身高,体重,三围,血型,星座和身体各项指标数据等;有消费方面的数据,比如浏览网页、玩i ...查看全部
    人,本身就是一个“活”的大数据库
    此前,我曾经提出过一个观点,“每个人的背后,都是一组鲜活的数据”,没错,每个人对应的是无数的数据,这些数据有健康方面的数据,包括身高,体重,三围,血型,星座和身体各项指标数据等;有消费方面的数据,比如浏览网页、玩iPhone游戏、微博、微信等数据;还有个人信息的数据,比如姓名、职业、学历、阅历、电话、电子邮件等等。还有一些没有捕捉或者记录的数据,例如梦境、理想、一瞬间的想法、信仰等等。而这些数据,组合成了一个完整的人,并且这些数据都是随时会有变化的,属于流动型的数据。所以,我们可不可以理解为,一个人,本身就是一个大数据。
    因为有这些数据,我们可以畅想一下大数据如何应用到生活中。
    抛出我的另外观点,大数据另一个商业化路线——定制化产品和服务。用大数据定制个性化产品和服务
    因为是在洗澡想到的事情,自然就想到了自己遇到的一些困难。前面我说到,每个人都是一个活体大数据,因为每个人的数据不一样,所以在一些适合自己的产品选择上也是不一样的。比如说,洗发水的选择。
    要选择适合自己的一款洗发水非常困难,因为身体因素不一样。比如冬天,头发干枯毛躁的现象很常见,而夏天因为出汗、头皮油脂分泌过多,就需要选择清爽型、去屑的洗发水。而我们在购买洗发水的时候,换来换去总是那么几种,只是牌子不同罢了,所以我家里也囤积着大量用不上的洗发水。
    如果有一家公司能够准确的猜出我想要的产品,或者根据我自己头发不同时期的状况,给我定制出不同的洗发水会不会更好呢?一方面可以节省我左挑右选的时间,一方面也可以帮我节约买错商品的钱呢?这里就需要用到大数据分析。大数据分析里面不仅包括我身体的各项数据,还有天气、地域不同的数据,还有我喜好,生活习惯等等。这个大数据模型最好能够精确的预测出不同时期我不同的喜好,对洗发水味道的选择,以及我是否想要修复头发、顺滑头发等附加功能,根据大数据分析结果,从而调制出我想要,并且适合我的洗发水,而洗发水的香味与我们近期使用的香水味道又不相冲突呢?
    再回来说女性内衣个性化定制的情况。挑内衣真是件很困难的事,颜色、布料一直是内衣厂商非常下功夫的地方,但实际上,即使试穿过的内衣,也不一定适合你自己。原因很简单,内衣要搭配不同的衣服和裙子来穿,而且颜色和肩带的选择也很重要。再者就是舒适度。
    用大数据来定制女性内衣,那么背后的大数据里面,除了尺寸、颜色、三围数据之外,是不用应该把我要出入的场合、要搭配的衣服、不同季节、生活习惯等等考虑进去呢?假如这个女性身体是多汗型,那么是不是在内衣的布料的选择上要选择更加吸汗的布料呢?如果我还很喜欢穿吊带裙,那么是不是要考虑用窄的肩带的呢?而且年龄不同,对内衣的需求也不一样。而这些因素,目前的内衣厂商并没有考虑进去。大数据定制化服务,在旅游和酒店行业也可以充分的利用起来
    学生想去的景点与办公族想去的景点不同,老年人想去的景点又与中年人想去的景点不同,背包客与驴友想去的景点更不一样,学美术和学建筑的更不一样。如何做到大家都满意?用大数据来定制旅游吧。
    不仅是年龄,身份和生活习惯,每个人的情感和经历也都不一样。比方说,我们的叔叔阿姨们都看过电影《罗马假日》,他们去罗马肯定是要去许愿池的,但我不一样,我是80后,我没看过这部电影,但是我喜欢歌剧,去罗马我更想去罗马歌剧院听一场歌剧。而旅行团往往选择的景点都是只要著名的都去,或挑选一些大家都去的地方,而不是根据每个人的兴趣去选择。这个时候,定制化的旅游产品就变得很重要。而人们往往又不知道自己到底想要什么,想要去哪里……不妨用大数据预测一下吧。
    说到酒店,不记得在哪部电影里看过这么一个桥段,国外有一家企业的BOSS去另外的城市出差,在一家五星级酒店下榻,刚刚办理完入住回到房间,侍者就送来了一瓶昂贵的葡萄酒,而这款葡萄酒不说酒店常用的,非常难买,是酒店为了客人专门从另外一个城市空运过来的。
    侍者送上葡萄酒后,这个大BOSS非常的感动。因为他有每天下班回家喝一点葡萄酒的习惯,而葡萄酒的品牌和规格正是他每天喝的那种,他觉得自己又回到了家里,很贴心。
    其实这也是一个定制化服务的例子,酒店通过了解客人的喜好、生活习惯、年龄、职业、身体状况、收入等大数据,从而针对他本人专门定制了服务。
    利用大数据来做定制化服务和产品,可以用到生活中的方方面面。未来,我们去逛大商场,也许根本不用穿着高跟鞋逛得累个半死,自从进入商场起,我的iPhone就会收到商场为我个人定制的服务计划。我喜欢的牌子新衣服到货了,根据我的收入,我也买的起,只要去试一下拿货就行了。我有3个小时的时间,除了买衣服,这个定制化服务里还会根据我的时间安排出我今天的行程。根据我近期的大数据(比如说减肥计划、喜欢的电影类型等等),推荐我去素食餐厅,去看一场科幻电影等等,把我的3个小时安排的丰富多彩并且有条不紊,是不是很开心呢?
    结尾:
    人人都在说大数据,但是又不知道大数据到底要怎么玩?定制化产品和服务是个不错的选择,滕百万不妨试试。事实上,大数据的体量是很大,但是真正的落地点是小数据和接地气,让生活更加便利和智能。如果你有大数据,却不知道如何用,不妨多出门走一走,你会发现在定制化服务方面的落地点很多。
    试想一下,你一个川妹子,如果能在法国香榭丽舍的酒店里吃到酒店提前为你准备好的四川火锅,你的感受如何?
    PS.“大数据落地应用畅想曲”系列文章会记录我个人不定期的一些想法和观点,不说概念也不谈各种高大上的东西,旨在从自己生活说起。希望对你有所启发。

    十大企业的大数据实践——探寻大数据先行者的足迹

    唐半张 发表了文章 0 个评论 1368 次浏览 2015-10-24 10:41 来自相关话题

    最近,有一条关于苹果同IBM合作的新闻,“把IBM的大数据和分析能力带给iPhone和iPad平板电脑”,从而“创造一种新类别的商务应用”。“大数据”这一词语在另一个新的角度又一次的引起了人们的注意。“大数据”一词最早可以追溯到apache org的开源项目N ...查看全部
    最近,有一条关于苹果同IBM合作的新闻,“把IBM的大数据和分析能力带给iPhone和iPad平板电脑”,从而“创造一种新类别的商务应用”。“大数据”这一词语在另一个新的角度又一次的引起了人们的注意。“大数据”一词最早可以追溯到apache org的开源项目Nutch。当时,大数据仅用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着技术的发展如今的“大数据”有了更多的含义,并不仅仅局限于网络中的信息,也涵盖到日常生活的方方面面。
    不过,每一次概念或工具的履新,尤其是商业层面,其有确定意义或意义的确定的前提,都是为企业客户降低了成本,也使普遍的消费者获得了更好的服务。
    尽管“大数据”在最近几年才引起人们的关注,但许多互联网公司走在了时代的前面,他们作为大数据时代的先行者,为如今的“大数据”的兴起奠定了基础,并在历史的经历中卓有成效,有时也成为追逆或效仿的对象。以下,希望从IBM、SAP、Oracle、Facebook、亚马逊、百度、阿里巴巴、腾讯、京东这十家大数据的先行践行者们,看看他们都在各自的领域创造了哪些有关大数据的基础与标准,以便让更多的B和C再进一步了解一下“大数据”应用的逻辑。
    IBM、SAP、Oracle:我们只是大数据的搬运工
    前段时间IBM卖掉了自己的芯片业务,这表明了IBM对自己的未来有着一些清晰的规划——减少硬件业务,将精力投入云计算、分析以及智慧地球的项目之上。IBM全球副总裁Eric Sall说,“IBM不能装作这世界一成不变,这世界当然在随时变化”。IBM此举也恰巧说明了一个行业的趋势,即数据在未来的发展至关重要,而分析数据的能力则显得尤为突出。从信息时代到数据时代,是一种抽象的简化。
    作为一个以大数据为基础为各行业提供解决方案的企业来说,硬件业务的多少与好坏似乎已并不能衡量自身的实力,自身的软件服务才更可能决定一些根本性的东西。在今年,IBM宣布以10亿元组建新部门,目的是发展公司最新的电脑系统Watson,它将据客户过往的历史记录,帮助企业更好地认识客户,随时随地以客户选择的方式进行接洽,并在需要行动时提供强大支持。因此它将大大节省企业/客户的人工成本,以便更好地做出决策,更快的实现业务成效,而在去年,这一系统已经开始应用于医疗以及零售领域,帮助行业实现转型。
    尽管如此,IBM仍然是到了一个艰难的时刻,尽管投入了较大资金发展全球数据中心,比如以20亿美元收购云计算基础架构服务提供商SoftLayer,但其在云计算领域取得的收入应属是杯水车薪,面对来势汹汹的后起之秀,IBM这个蓝色巨人可能需要放下过去的慢热,虽然大象和蚂蚁转身需要的能级不同。
    说到IBM就不得不提SAP,这个由前IBM员工成立的软件公司如今已经发展为全球最大的企业应用软件供应商。然而,SAP所涉及的领域不仅于此,他已经将自己的触角伸及到了体育界。相信大家对2014巴西世界杯德国队的夺冠记忆犹新,在这背后或有“大数据”的力量,可谓是德国队的“第十二人”。早在此次世界杯之前,德国足协便与SAP公司合作,定制名为“Match In-sights”的足球解决方案,用以迅速收集、处理分析球员和球队的技术数据,基于“数字和事实”优化球队配置,从而提升球队作战能力,并通过分析对手技术数据。通过此种方式,德国队在战术制定上的时间成本大大缩短,这可以算所是“大数据”的一种胜利,同时也是未来体育发展的一种趋势,即引入当今世界最发达的技术,提高自身比赛水平,借助大数据强有力的分析处理能力制定合理的训练计划与比赛战术,而非像以前那样单纯的依靠球队的不断操练来实现。我们可以相信,在未来,不只是体育届,任何范畴内的决策都会要借助“大数据”的分析结果来完成,因为它可以既便捷又准确。
    这就是“大数据”的力量。百度李明远有一句话:“大数据的特点就是发现人们原来看不到的数据,将这些数据应用于商业,改变认知的核心工具。”由此才产生了诸多在接入“大数据”业务后,发展迅猛的公司,Oracle就是其中之一。
    Oracle最初的业务仅是数据库,这也是他存在的基础,直到1987他才成立了一个仅有7人的软件开发部门,管理也十分成松散,而这个部门成立的理由只是因为Oracle公司需要一个财务管理系统。就在这种偶然下Oracle开始了“大数据”业务的发展,至1996年,Oracle赢得了华为的合作,稍后又拿到了美的、中兴的订单,直到1998年,他们已经拥有了1300位客户。仅用了6年时间,Oracle就超越了诸多前辈一跃成为应用软件业的第二,虽然同SAP仍有很大差距,但已经是一个不小的成绩。
    Oracle应用软件的创始人杰夫·沃克说过:“尽管SAP有R/3,但在应用软件市场上,他们并没有达到高不可及的程度,他们并没有真正做到象Oracle那样成功。”到目前为止Orcale已经成为了应用软件业仅次于SAP的公司,为戴尔公司、苏格兰皇家银行等业界巨头提供服务。其中,波士顿医学中心在使用了Orcale的应用服务以优化其临床及数据存储环境之后,不仅消减了存储成本并且使其性能也提高了74%。
    不论是IBM、SAP还是Oracle,都是依靠应用软件服务来创造盈利,他们在“大数据”的数据服务上已经取得了成功,其占据的市场份额是后起之秀们难以企及的。其实他们所做的并不复杂,可他们发现了前任未曾发现的信息。国内外的企业中,做应用软件的不少,意图涉足大数据领域更多,可是却仍在低端市场中苦苦挣扎,这并非管理水平偏低的原因,而是因为太过看重自身的利益而忽略了“大数据”业务发展的必然条件,成本的降低与服务的提高,只有针对这些不变的点,才能真正走上“大数据”的发展道路,成为下一代领导者。
    百度、google:不要再把我们看做搜索引擎,我们正在做些别的事情
    “新一代的数据收集不仅是数据工具,数据本身会有很大的发展。”李彦宏如是说。
    同样是2014巴西世界杯期间,百度“世界杯预测”上线,尽管足球是一件不确定性级高的事情,可在比赛结束后发现,百度这次的预测无一错误。想想世界杯时无数走上天台的小伙伴们,若是知道百度有此神器,应该是有些感想的吧。
    在其赛事预测的产品说明中写到“百度大数据部收集了2010-2013年全世界范围内所有国家队及俱乐部的赛事数据,构建了现在的赛事预测模型”,这是其利用“大数据”在传统领域的又一次尝试,并且他们希望在建立起成熟的模型之后,在球队训练、体彩等方面发挥商业价值。可以推断,百度应该在“大数据”上有着极大的野心。
    球赛预测的结果是可喜的,不过百度在另一项事情的预测上则栽了跟头。在《黄金时代》上映之前,百度发布会上宣布电影《黄金时代》的票房预期可达2.0—2.3亿,当时的媒体都认为这个数字估计的太过于保守,然而截止到10月16日,《黄金时代》的累计票房为4698万,如此成绩对于片方、媒体和公众而言都是出乎意料,2.0亿的票房估计竟然已经算是十分乐观。这并不是百度第一次做票房预测了,早在7月14日爱奇艺就透露在内部,百度票房的预测已经有了百分之八十的准确率。百度也因为此次的预测失败而推迟了票房预测产品的上线,我们可以看到在百度预测中,电影票房预测那一项仍是灰色,标注着“即将上线,敬请期待”的字样。对此,可能的原因是类似《黄金时代》的文艺类影片样本较少,不确定性大。
    同百度这次失败同样的,他的竞争对手Google也有马失前蹄的时候。在2008年Google推出了他的Google Flu Trends流感预测服务,在这之后的几年时间中,预测的结果都是准确的。这也帮助各国对即将到来的流感进行了有效的预防,避免了更大的损失。直到2013年2月,Nature上出现文章,表示GFT预测的全国范围的流感样疾病(占全国人口的比例)近乎是实际值的2倍,这是由于Google所抓取的数据是直接从搜索引擎中来,这就使得真正的流感患者同跟风搜索流感的人混淆在一起,最终夸大了流感人口的比例。
    可见,“大数据”中最重要的不是分析数据而恰恰是数据本身,如果数据本身存在着问题,那么不论算法如何正确出来的结果也是失之千里。
    当然这仅仅是两个微小的错误,并不能就此否定这两家公司在“大数据”上做出的努力,毕竟以搜索引擎起家的他们天生就具有“大数据”应用研究与实践的优势。如今百度已经有了一套看起来更完整的“大数据”引擎系统,共三个部分:开放云,百度的大规模分布式计算和超大规模存储云,对应到Google则是他举世闻名的数据中心以及基于Colossus的云;数据工厂,百度将海量数据组织起来的软件能力,对应到Google,其近年来为迎接大数据时代不断改造核心技术,包括比MapReduce批处理索引系统搜索更快的Caffeine,专为BigTable设计的分布式存储Colossus,Dremel和PowerDrill管理和分析大数据,以及Instant和Pregel。百度大脑,能够应用这些数据的算法,对应到Google,Google提供的大数据分析智能应用包括多个方面,技术有Big Query、趋势图等。如果说百度大数据引擎是一个程序,那么它的数据结构就是数据工厂+开放云,而算法则对应到百度大脑。可以说二者在如和发展“大数据”上思路及其一致。在百度预测的界面我们可以看到已经能够看到一个预测开放平台,为每一个用户提供平台化的预测服务。借助这种服务,应该能够更准确地预见未来的趋势,趋利避害。譬如通过“疾病预测”,可以知道同类疾病全国哪家医院最好,同城医院中,哪家医院现在排队人数较少,或者当前天气需要预防那种流行病;通过“景点预测”,我们能够有效地规划出游行程,只能看人不能看景的情况,而景区也能够据此作出正确的判断而非依靠以往模糊的经验。对于企业来说,能够有效地规避风险,调整战略,进而减低成本,缩减开支,最终达到效率与收益的提高。
    在如今搜索引擎市场已经不能为他们带来更多盈利的情况下,百度与Google将目光同时转向了“大数据”开发与研究。曾经有一个这样的问题,问百度能够依靠大数据做些什么,答可以分析网上卖假药的情况。这固然是针对百度搜索中侧边经常显示的广告的调侃,但也反映了百度所面临的尴尬,搜索业务所能提供的利润已经接近饱和,盈利模式的更新已经迫不及待,而通过“大数据”变现,在目前是一条最有希望的道路。有消息称,Google每年通过“大数据”可获得约80亿美元的收入,这一数字远远超过了百度。若百度能通过“百度预测”这一系列产品获得成功,那么他所能获得的不仅仅是更加海量的数据,更是源源不断的现金流。
    亚马逊、京东、阿里巴巴:当你们在浏览商品时。。。
    眼下随着日子的临近,一年一度的双十一又要来了,在那些网页弹出的广告中,不难注意到那些推荐的产品,正是曾经搜索过或者浏览过的,这正是基于“大数据”的结果。而这种智能推荐的服务是“大数据”应用商业化中较为成功的例子。
    说道电商中“大数据”方面做得最成功的无疑是亚马逊了,亚马逊是云计算的奠基者,他在用户偏好、商业领域等方面的“大数据”能力可以说甚至超过了Google。他从每一位客户上捕捉大量数据,如购买记录、浏览记录、浏览时间等,从这些杂乱的数据中找到产品的关联性,从而产生最适合推荐给用户的产品。亚马逊不对人进行分类,而是对用户的需求分类,从而产生了亚马逊的推荐系统,而此举它带去30%的销售收入。反映在网页上,我们可以看到亚马逊会将智能推荐的过程贯穿购物的始终。此外,亚马逊也会向用户发送邮件,推荐少量的商品,甚至是你未来可能会用到的商品。更为重要的是这一系列过程并不会令人产生反感,用户体验也随之提高。
    对应到国内,不得不提的是阿里巴巴,作为国内最早运作云的部门,他的推荐系统同样优秀。在淘宝首页你会很容易看到一个名为“发现·好货”的浏览框,其中的物品全部都同你最近浏览购买或搜索的类似。
    淘宝作为一个拥有海量用户数据的平台,每天都有上千万交易发生,数据从手机端、电脑中上传,为阿里提供了一个数据库。自去年3月起阿里上线了自己的云服务平台——御膳房,旨在为第三方软件服务商和品牌商提供大数据计算、挖掘、存储的云环境开发平台,构建阿里数据生态。这也是其在以“云计算、大数据”为核心的DT战略上迈出的一步。截止到目前,仅一年多的时间,就同300多家第三方软件服务商形成了合作,提供了包含流量推广、商品管理、数据分析、CRM、ERP、广告精准投放等多个支撑工具,覆盖了180万天猫、淘宝商家,为他们带去了利润。例如,通过“日报单品分析”服务能够使得运营人员方便的进行单品优化、页面调整,分析人员能够清晰地进行业务分析;通过“财务对账”服务能够使得线上付款、线下交易更加融合,节省了中间周转的成本。阿里数据平台事业部王贲表示:“我们就像一个厨房,提供了最优质的原材料、最锋利的工具,让开发者、服务商这样的大厨能够快速实现大数据应用的各种idea。”
    同样的还有京东,虽然目前在云计算领域还远远达不到阿里的高度,但仍有着自己的努力。作为一个直接为用户提供产品的电商,供应量变得十分关键,京东通过销售情况、市场预期、时间日期的综合数据,形成一个预测系统,最后自动形成订单发送给供应商,避免缺货情况的存在。另外,在我们搜索商品时,出现的标签往往并不是商品的分类而是来自于商品的评价,这让我们能够更为准确的找到自己想要的商品。这一服务源自京东对于后台搜索数据分析的结果,他们发现在京东商城进行购买的用户往往对商品的分类并不清楚,而经常以商品的功能或作用来进行寻找,因此在他们看来,更重要的是在搜索栏中出现商品的评价而非分类,而主动将此类标签加入搜索系统中能使用户更好的找到自己想要的商品,加强了对用户的服务,使得购物体验大为提升,而这一举措更是使自身的赢利大为增加。
    然而这三家电商所收集的数据较多的为非结构化数据,在理解与分析上较为困难,因此偶有推荐系统向客户并不需要的商品的情况的发生。
    马云在卸任演讲上说:“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联网的时候,大数据时代又来了。”“大数据”为平台提供了更好的信息支持,创造出更优质的服务,更优质地服务又能带来更多的数据,更多的数据样本使分析结果更为精确,为用户提供更佳的体验,如此则有更多的人投入使用中来,这样便形成了一个数据的良性循环。如此,“大数据”可以说是未来电商们发展的基础资源及优势所在,透过“大数据”的支撑,能够提高用户数量,提供优质服务,降低运营成本,提升总体盈利。
    腾讯、facebook:交流的是情感,看到的是数据
    还记得今年情人节时Facebook发表的那份关于恋爱的数据么,通过“大数据”他能知道你们何时会恋爱,何时可能分手,甚至你本身尚未意识到时,他就已经察觉了。这是基于2.7亿活跃用户的统计结果。
    同传统的恋爱过程类似,社交网络中的爱情也有一段“追求”的阶段,在这一阶段中,每位用户每日会至少推送一条消息,而在关系确定之后推送的频率则会直线下降。另一个趋势是在找到伴侣后,由于爱意的增加,情侣间互动的内容会越来越甜蜜,正能量的传递也会随之增多。不仅如此,Facebook甚至能够推算出这段感情能够维持多长时间,最长的可达4年以上,以及最容易分手的时间,通常是在5-7月。也许,Facebook应当基于此推出一项恋爱预测的服务,来帮助广大单身青年们“脱团”,使他们的“双十一”不再孤单。
    早在2012年,Facebook就开始了用户“大数据”的收集,主要是收集用户在Facebook上公开的感情数据,并尝试着让用户发表自己收听习惯,并得到了有趣的结果。根据这些数据,他们制作出了“恋爱歌曲TOP10”以及“失恋歌曲TOP10”以此来慰藉那些坠入爱河以及伤心不已的用户。可这并不是出于一时的好奇心或仅为好玩,最终的目的是将这些数据用于用户推荐服务上,他们根据统计得到的数据,建立了“看心听曲”服务,即根据用户的心情,推荐不同的曲目,如此贴心的服务,不仅使用户们感到暖心,同时也让Facebook的用户忠实度有了上升。
    国内的腾讯在公司还在很小的时候就通过后台记录、分析用户的每一个习惯,时至今日已经拥有了广大的用户数据,而正是这种对数据的重视,使得腾讯建立了今天的企鹅王国。
    如今,腾讯云服务已经有了包括计算与网络、存储与CDN、监控与安全、数据分析等多项服务,并投入到清华大学微信建站,糗事百科、365日历应用软件运行等项目之中,为他们提供了多样化的服务。DNSPod CEO吴洪声说:“接入腾讯云之后,极大地减少了我们运维成本,特别是使用了云数据库和CDN之后,我们的服务响应更快了,运营产品变得更简单了。”其中,腾讯的数据分析平台已经接入了100过个产品的各类数据,涵盖数据数据管理、数据监控、数据分析、数据可视化、数据挖掘等多个方面,而推出的云分析服务,则是其“大数据”战略的重点所在,从公布的信息中来看,从微信到微博,腾讯为云分析提供了全面的平台支撑,达到了统计全面上报详细的目的。
    小小比如,腾讯基于“大数据”的产品“广点通”,在腾讯大社交平台海量用户积累的基础上,进行以人为核心的数据挖掘,实现精准的广告推荐,形成用户、物品和推荐位之间的交叉效应,其中最成功的就是同万科联手,使万科投入了3万的广告费用,获得了400万元的销售额。
    然而腾讯现在需要做的除了开发“大数据”与云,还要打通自己的后台数据,使其形成一个完整的生态圈,等待后期完全成熟的技术,加以借鉴,更深层次的挖掘自己的“大数据”。
    基于社交网络的公司统计分析“大数据”的一个特点就是侧重于呈现人的行为以及社会关系的信息,从这些数据中,可以分析人们的日常生活与行为,从而从中挖掘社会、政治、商业等信息,甚至能够预测未来。在这两点上,腾讯与Facebook都做到了不少,也许我们如今不应将它们狭义地视为一个SNS社交软件,而是进行重新的定义,如今它们的核心竞争力已不再是社交领域,而转移到数据业务上,而SNS只是更好地完成其“大数据”战略的一种应用,产生、收集、挖掘海量数据的一个工具。正如投资人Federated Media的约翰·巴特利(John Battelle)对Facebook的展望那样,“该公司正尝试着对自身进行重新定义,不满足于做狭义方面的社交网站,而这恰是外界对它的理解”。
    以上这些,算案例吗?应该算吧。如果不是案例,就不是在讲大数据。
    一般而言,国外的公司起步早发展快,如今已经成为全球“大数据”领域的领导者,他们懂得如何将开发出的“大数据”服务快速变现,通过这种方式源源不断的为自己的“大数据”开发及数据获取提供资源,已经形成了一个成熟的生态体系。虽然IBM处于财务困境,但我们相信他只是到了一个继续转型的时期,丢掉沉重的硬件包袱,他必将重新崛起。而SAP虽然面临众多后起之秀的竞争的巨大压力,可业界第一的位置仍然难以撼动。对于Oracle来说,想要和SAP一搏,仅靠不断的收购是行不通的。
    不论“大数据”这个概念是否仅是互联网行业制造出的一个噱头,越来越多的信息被映射到网上,数字世界正逐渐转为虚拟世界,互联网企业坐拥海量数据并将其应用于自身服务中已是一个不争的事实。当然,未来没有一家企业不是互联网企业。
    很喜欢这样一句话:“我们从来没想过这是一个大数据项目,而是想着要解决问题。”这个永久的问题的核心是帮助客户降低成本,提高绩效。