数据分析

数据分析

Pandas 中 map、applymap 和 apply 方法的区别

卓越助教 回复了问题 3 人关注 2 个回复 13 次浏览 2021-12-01 14:48 来自相关话题

如何获取 Pandas DataFrame 的行数?[手机光明网]

cc果冻儿 回复了问题 2 人关注 1 个回复 12 次浏览 2021-12-01 12:02 来自相关话题

Python 中的 Pandas 插入方法有哪些[机光明网]

cc果冻儿 回复了问题 2 人关注 1 个回复 10 次浏览 2021-12-01 11:58 来自相关话题

如何理解pandas中的groupby的用法,有例子吗[手机光明网]

cc果冻儿 回复了问题 2 人关注 1 个回复 11 次浏览 2021-12-01 11:55 来自相关话题

使用 pandas GroupBy 获取每个组的统计信息(例如计数、平均值等)?

卓越助教 回复了问题 2 人关注 2 个回复 20 次浏览 2021-11-30 14:50 来自相关话题

如何使用 astype() 方法将 DataFrame 列值的数据类型转换为 string?[手机环球网 ]

初生 回复了问题 2 人关注 1 个回复 17 次浏览 2021-11-30 12:29 来自相关话题

使用 applymap() 方法将所有 DataFrame 列的数据类型转换为 string?由例子吗[手机环球网]

初生 回复了问题 2 人关注 1 个回复 15 次浏览 2021-11-30 12:27 来自相关话题

将 DataFrame 的列值的数据类型转换为字符串,可以用什么方法[手机环球网]

初生 回复了问题 2 人关注 1 个回复 13 次浏览 2021-11-30 12:23 来自相关话题

不太理解Pandas 中的 get_dummies 方法,能详细讲解一下吗[手机环球网]

初生 回复了问题 2 人关注 1 个回复 11 次浏览 2021-11-30 12:16 来自相关话题

Pandas 中 axis 的含义,如何理解axis[每日解析]

cc果冻儿 回复了问题 2 人关注 1 个回复 16 次浏览 2021-11-30 12:12 来自相关话题

如何使用 DataFrame.filter() 方法从 Pandas DataFrame 中选择列[每日解析]

cc果冻儿 回复了问题 2 人关注 1 个回复 14 次浏览 2021-11-30 12:07 来自相关话题

如何使用 DataFrame.drop() 方法从 Pandas DataFrame 中选择列[每日解析]

cc果冻儿 回复了问题 2 人关注 1 个回复 15 次浏览 2021-11-30 12:06 来自相关话题

使用索引操作从 Pandas DataFrame 中选择某列[每日解析]

cc果冻儿 回复了问题 2 人关注 1 个回复 13 次浏览 2021-11-30 12:06 来自相关话题

在pandas中,使用 difference() 方法选择除一列外的所有列[每日解析]

cc果冻儿 回复了问题 2 人关注 1 个回复 14 次浏览 2021-11-30 12:04 来自相关话题

Pandas 可以仅仅使用 drop() 方法选择除一列以外的所有列吗?[每日推荐]

fish 回复了问题 2 人关注 1 个回复 12 次浏览 2021-11-30 12:02 来自相关话题

Pandas 能通过使用 loc 属性选择除一列以外的所有列吗?[每日推荐]

fish 回复了问题 2 人关注 1 个回复 13 次浏览 2021-11-30 12:01 来自相关话题

Expression #3 of SELECT list is not in GROUP BY clause and contains nonaggregated column……[每日推荐]

fish 回复了问题 2 人关注 1 个回复 22 次浏览 2021-11-30 11:54 来自相关话题

Tableau中的维度是什么意思

Kola@小象学院 回复了问题 2 人关注 1 个回复 16 次浏览 2021-11-26 11:11 来自相关话题

[人民日报] 一年只有4个季度,季度之间的相差值怎么会有4呢,那不是出现第五个季度了[央视网]

fish 回复了问题 2 人关注 1 个回复 19 次浏览 2021-11-25 15:31 来自相关话题

[央视热点]关于数据,P值意味着什么?[每日解析]

Andre老师@小象学院 回复了问题 2 人关注 1 个回复 17 次浏览 2021-11-24 12:00 来自相关话题

搜狗王兴星——网盟CTR预估的进化之路,DCon2015文字实录

回复

wxx 发起了问题 8 人关注 0 个回复 8916 次浏览 2015-11-19 10:15 来自相关话题

百分点苏海波——用户画像的构建及应用,DCon2015文字实录

Jamely 回复了问题 30 人关注 6 个回复 21419 次浏览 2018-06-01 10:00 来自相关话题

卢亿雷《数字营销的数据生命周期分析》演讲PPT

yilei 发表了文章 0 个评论 5431 次浏览 2015-10-28 14:51 来自相关话题

题目:数字营销的数据生命周期分析 ...查看全部
题目:数字营销的数据生命周期分析



卢亿雷.jpg



演讲人:卢亿雷
演讲人介绍:大数据资深专家,AdMaster技术副总裁。主要负责数据的采集、清洗、存储、挖掘等整个数据流过程,确保提供高可靠、高可用、高扩展、高性能系统服务,提供Hadoop/HBase/Storm/Spark/ElasticSearch等离线、流式及实时分布式计算服务。

卢亿雷对分布式存储和分布式计算、超大集群、大数据分析等有深刻理解及实践经验。有超过10年云计算、云存储、大数据经验,曾在联想、百度、Carbonite China工作。拥有多项发明专利,《一种分布式文件系统及其数据访问方法》和《一种数据备份的版本管理方法及装置》等。

现场没有来得及回答的问题,我们将邀请主讲人继续在这里互动回答。

演讲PPT在此:
 

Pandas 中 map、applymap 和 apply 方法的区别

回复

卓越助教 回复了问题 3 人关注 2 个回复 13 次浏览 2021-12-01 14:48 来自相关话题

如何获取 Pandas DataFrame 的行数?[手机光明网]

回复

cc果冻儿 回复了问题 2 人关注 1 个回复 12 次浏览 2021-12-01 12:02 来自相关话题

Python 中的 Pandas 插入方法有哪些[机光明网]

回复

cc果冻儿 回复了问题 2 人关注 1 个回复 10 次浏览 2021-12-01 11:58 来自相关话题

如何理解pandas中的groupby的用法,有例子吗[手机光明网]

回复

cc果冻儿 回复了问题 2 人关注 1 个回复 11 次浏览 2021-12-01 11:55 来自相关话题

使用 pandas GroupBy 获取每个组的统计信息(例如计数、平均值等)?

回复

卓越助教 回复了问题 2 人关注 2 个回复 20 次浏览 2021-11-30 14:50 来自相关话题

如何使用 astype() 方法将 DataFrame 列值的数据类型转换为 string?[手机环球网 ]

回复

初生 回复了问题 2 人关注 1 个回复 17 次浏览 2021-11-30 12:29 来自相关话题

使用 applymap() 方法将所有 DataFrame 列的数据类型转换为 string?由例子吗[手机环球网]

回复

初生 回复了问题 2 人关注 1 个回复 15 次浏览 2021-11-30 12:27 来自相关话题

将 DataFrame 的列值的数据类型转换为字符串,可以用什么方法[手机环球网]

回复

初生 回复了问题 2 人关注 1 个回复 13 次浏览 2021-11-30 12:23 来自相关话题

不太理解Pandas 中的 get_dummies 方法,能详细讲解一下吗[手机环球网]

回复

初生 回复了问题 2 人关注 1 个回复 11 次浏览 2021-11-30 12:16 来自相关话题

Pandas 中 axis 的含义,如何理解axis[每日解析]

回复

cc果冻儿 回复了问题 2 人关注 1 个回复 16 次浏览 2021-11-30 12:12 来自相关话题

如何使用 DataFrame.filter() 方法从 Pandas DataFrame 中选择列[每日解析]

回复

cc果冻儿 回复了问题 2 人关注 1 个回复 14 次浏览 2021-11-30 12:07 来自相关话题

如何使用 DataFrame.drop() 方法从 Pandas DataFrame 中选择列[每日解析]

回复

cc果冻儿 回复了问题 2 人关注 1 个回复 15 次浏览 2021-11-30 12:06 来自相关话题

使用索引操作从 Pandas DataFrame 中选择某列[每日解析]

回复

cc果冻儿 回复了问题 2 人关注 1 个回复 13 次浏览 2021-11-30 12:06 来自相关话题

在pandas中,使用 difference() 方法选择除一列外的所有列[每日解析]

回复

cc果冻儿 回复了问题 2 人关注 1 个回复 14 次浏览 2021-11-30 12:04 来自相关话题

Pandas 可以仅仅使用 drop() 方法选择除一列以外的所有列吗?[每日推荐]

回复

fish 回复了问题 2 人关注 1 个回复 12 次浏览 2021-11-30 12:02 来自相关话题

Pandas 能通过使用 loc 属性选择除一列以外的所有列吗?[每日推荐]

回复

fish 回复了问题 2 人关注 1 个回复 13 次浏览 2021-11-30 12:01 来自相关话题

Expression #3 of SELECT list is not in GROUP BY clause and contains nonaggregated column……[每日推荐]

回复

fish 回复了问题 2 人关注 1 个回复 22 次浏览 2021-11-30 11:54 来自相关话题

Tableau中的维度是什么意思

回复

Kola@小象学院 回复了问题 2 人关注 1 个回复 16 次浏览 2021-11-26 11:11 来自相关话题

[人民日报] 一年只有4个季度,季度之间的相差值怎么会有4呢,那不是出现第五个季度了[央视网]

回复

fish 回复了问题 2 人关注 1 个回复 19 次浏览 2021-11-25 15:31 来自相关话题

[央视热点]关于数据,P值意味着什么?[每日解析]

回复

Andre老师@小象学院 回复了问题 2 人关注 1 个回复 17 次浏览 2021-11-24 12:00 来自相关话题

卢亿雷《数字营销的数据生命周期分析》演讲PPT

yilei 发表了文章 0 个评论 5431 次浏览 2015-10-28 14:51 来自相关话题

题目:数字营销的数据生命周期分析 ...查看全部
题目:数字营销的数据生命周期分析



卢亿雷.jpg



演讲人:卢亿雷
演讲人介绍:大数据资深专家,AdMaster技术副总裁。主要负责数据的采集、清洗、存储、挖掘等整个数据流过程,确保提供高可靠、高可用、高扩展、高性能系统服务,提供Hadoop/HBase/Storm/Spark/ElasticSearch等离线、流式及实时分布式计算服务。

卢亿雷对分布式存储和分布式计算、超大集群、大数据分析等有深刻理解及实践经验。有超过10年云计算、云存储、大数据经验,曾在联想、百度、Carbonite China工作。拥有多项发明专利,《一种分布式文件系统及其数据访问方法》和《一种数据备份的版本管理方法及装置》等。

现场没有来得及回答的问题,我们将邀请主讲人继续在这里互动回答。

演讲PPT在此:
 

赌场上的好运气是怎么来的?哈佛学霸用数据分析告诉你

唐半张 发表了文章 0 个评论 3041 次浏览 2015-10-11 10:53 来自相关话题

      幸运之神的光顾   1992年,Arch ...查看全部
 

 
  幸运之神的光顾
  1992年,Archie Karas没有想到他启程前往拉斯维加斯的行程开启了幸运之神的光顾,使他从一个普通的服务员变成一个神奇的幸运小子。因为到1995年的时候,他已经做到把50美元变成了4千万美元,创造了赌博史上最长的连赢记录。这件事被大多数人用来当运气非常好的典型案例,大家都说Archie这个家伙运气真是好。
    但是冷静的统计学家会嘲笑我们这些俗人的迷信想法,科学家总是更加理智地想要用数据、科学推算来证实 Karas身上到底发生了什么。由于这么多人的随机数据很大,在任何赌场上都可能发生任何事情。称呼在随机事件中受益的人为“幸运”,只是在已经发生的事实上贴标签而已。
  研究运气只是在所有的可能事件里研究最重要的那种情况:我们要如何解释我们身上发生的事以及我们是否会在爱情、事业、运动、赌博及生活的某一领域成为赢家?最新研究表明,运气不仅仅会在事后表现出来,也不是我们以为的某种东西或模式能给我们带来好运(比如黄色毛衣会给我带来幸运)。幸运的构造并不是个神话。
  相反,科学研究表明运气可以通过以前的好运或坏运气、性格甚至我们自己对幸运的信仰和思想来操控。我们对运气的思想影响我们在有风险的事情上的行为方式,我们的运气真的掌握自己手中。虽然我们不喜欢自认为自己是幸运的,它是一种力量,一种我们需要和它互动、塑造和培养的力量。哪怕你认为好运的根本来源是神,却不能否认它真的能帮助我们改变在这个世界的命运。
  运气是看待事物的视角和观点
  如果2001年的9月11日上午,某个本该在纽约世贸中心办公的世俗人刚好外出开会去了,他可能只是简单地需要感谢生活赐予他活着的机会而没有其他更深的意义。而如果是一个印度人,他可能会觉得他是善有善报。一个基督徒会说是上帝关心他,帮助他躲过一劫。一个神秘主义者可能会坚信他出生于幸运之星,而其他人生来就有一双绿色的眼睛。
  在我国传统里,运气是一种内在特质,与智力、乐观类似。加州大学洛杉矶分校的管理学专家 Maia Young说:“我妈妈以前常常对我说‘你有个幸运的鼻子,因为在中国传说里这样的鼻型是幸运的。’”Young在美国中西部地区长大,随着年龄增长她渐渐明白美国人经常说的好运是会在特定的时期降临到同一个人身上的,是“我在那次测试里走运了”而不是‘我去面试的路上遇到了堵车’。与她妈妈在她身上看到的不变的、稳定的好运是不一样的。
  Young说:“这(鼻子)是我私人所有物,我需要的还有更多而不仅仅是这无声的运气。”她无法摆脱不同于别人的鼻子,你可能觉得有幸运的鼻子的人可以不用撸起袖子努力工作。“何必呢?”但是关于运气还有另一种文化差异。Young介绍,在中国文化中,运气和努力是可以携手并进的,两者在同一信仰中兼容。
  另一边,因为西方人对努力和运气的看法是不一样的,他们是有点自我矛盾的。他们可能会祈祷自己拥有好运也会为自己关心的人虔诚祈求好运降临,但是他们有时候就是不想认为自己是幸运的,宁愿人们说那是他们付出努力后所应得的。他们生活的世界里既不全是偶然也不全是精英管理,导致运气和努力产生复杂的碰撞。比如:当一个朋友进入了顶尖的法学或医学院,我们可能会说:“恭喜!你坚持下来了,这是你应得的。”而如果他没考上,我们可能会说:“其实你们所有人具备入学资格,这个结果是他们随机选取出来的。”
  热手效应
  研究运气的科学家经常会着重注意体育赛事,即便是最注重技巧的赛事里也是需要一点运气助力的,结果也很容易估量出来。在这个领域最常备研究的包括好彩头,运气好的运动员看起来似乎处于兴奋状态,它的官方术语也叫“热手效应”(hot hands effect,热手效应来源于篮球运动,指比赛时如果某队员连续命中,其他队员一般相信他“手感好”,下次进攻时还会选择他来投篮,可他并不一定能投进)1985年,斯坦福大学心理学家Thomas Gilovich、Robert Vallone和Amos Tversky发表了一篇具有里程碑意义的论文,他们在文中声明热手根本不存在,这只是人们根深蒂固的想要让它模式化的错觉。运动员和球迷都对这个理论有争议,而研究员们坚持他们的想法是“热手谬误”(一种机率谬误,主张由于某件事发生了很多次,因此下次很可能再次发生)。
  直到去年,哈佛大学的三个学生Andrew Bocskocsky、John Ezekowitz和Carolyn Stein为热手效应否认者带来了大麻烦。他们认为,一个运动员“热”起来了之后会鼓励他完成更多更难的投篮,而这与热手效应抵消了。学生们搜集了2012~2013年NBA赛季选手们的出手视频,总共包含83000个镜头,足以观察这些投篮的难度。他们发现,感觉到自己的“球风”来了的选手的确会选择更难的投篮,通过对几个投篮镜头的难度筛选,他们发现了很小但是有重大意义的“热手效应”,那就是他们发现开始时间做得好的选手接下来会表现得更好。
  与此同时,另一个由斯坦福大学Jeffrey Zwiebel和加州大学伯克利分校的Brett Green组成的研究小组发现,竞争者会对热门选手加强防守以此对抗热手效应。以前的研究并没有足够数据来考虑这一因素,因此,简单从热门球员水平下降来判断热手效应不存在站不住脚。
  “好运孕育好运,坏运接二连三”是不是真的?
  鉴于篮球运动研究起来障碍因素太多,Zweibel和Green决定观察棒球比赛,对方选手对势如破竹的击球手造成不了多少妨碍。当他们分析了12年来美国职业棒球大联盟比赛数据之后发现,最近25次的击球表现能预示他接下来的水平。他们还算出处于热手状态的运动员比其他人高30%的几率完成本垒打。所以他们定下结论:幸运的连胜是真实的,不是假象。
  不过原因是什么呢?是幸运本身影响的还是其他的什么? 可能是胜算。这是伦敦大学学院的研究员Juemin Xu和Nigel Harvey研究了输赢的倾向之后得出的结果。他们分析了大概50万的体彩数据(由网上博彩公司提供),发现一直连胜的胜率比败率更高,而一直失败的失败率也要高于50%。
  比如,一个赌徒刚刚取得了三连胜,那他第四把的成功率就在67%,而如果他第四把又成功了,第五把的成功率就在72%。而第一把输的人,第二把胜算只有 47%,第二把再输第三把胜率只有45%。你说好运带来好运,坏运接二连三这种事,是不是就和富人越来越富,穷人越来越穷一样的道理?
  Juemin Xu和Nigel Harvey的研究并没有在此止步,他们还发现了这样的现象背后的原因:赌徒自己造成的。当他们发现意识到自己赢了的时候会做更安全的赌博,做好幸运之神不眷顾自己的坏打算。换句话说,他们不相信自己的热手会一直发热。而输的一方又不一样了。因为坚信幸运女神一定会降临,他们陷入了赌徒谬误(亦称为蒙地卡罗谬误,是一种错误的信念,以为随机序列中一个事件发生的机会率与之前发生的事件有关,即其发生的机会率会随着之前没有发生该事件的次数而上升),在这样的心理下做出更加冒险的选择。结果显而易见,赢的人一直赢(即使他们赢的数目不大),输的人也一直输。风险投资比安全的更不那么可能带来回报。赌徒们因为连胜改变了他们的行为,这又给他们带来了更长远的胜利。
  那么,如果说行为影响运气,认为自己很幸运的人会不会和其他人表现得不一样呢?一项有Maia Young参与的2009年研究给出了答案。这项研究想要看看学生们会不会在自身拥有某些(幸运)特征的时候坚定地相信自己有稳定的好运。她发现了信仰与 (相对)稳定好运的关系,测量了他们的获得与动机(包括学生们会坚持完成艰苦的任务或是从挑战性的任务开始)。结果似乎幸运的人都是积极进取的实干家。 Young说:“我们发现,认为自己又稳定好运的人会选择更难的目标并坚持不懈地完成。如果你认为运气是偶然发生的、不能依赖它,那你可能会不那么坚持做艰难、有挑战性的事情。”
  信仰、心态与好运
  幸运的人可能会成为生活在的赢家,但他们明朗的外貌可能会让他们在拉斯维加斯遇上麻烦。Young 的发现与前魔术师Richard Wiseman的论点吻合。Wiseman现在是英国赫特福德大学(University of Hertfordshire)的公共心理学教授,也是2003版《The Luck Factor》的作者。他认为,看待运气最好的方式是把它当做稳定特质,这里说的稳定特质不是指与生俱来的,而是可以培养的特质。Wiseman找了 400个认为自己一直很幸运或一直很倒霉的人作为研究主体,他发现幸运的人更善于创造和发现机会(比如在咖啡厅会见一个非常重要的商人),他们会聆听自己的直觉,有积极乐观的期望从而创造能够自我实现的目标,对生活给予的考验能够轻松面对、快速适应。而倒霉的人则相对更紧张、焦虑。
  Wiseman打破了幸运组的连胜,在行为上干预他们。比如让他们想象如果面临厄运了他们的生活会变得多么糟糕与不幸,或者直接地让他们改变日常生活。结果,80%的不幸之人都反映说只过了一个月就对生活更满意、更乐观,而且觉得自己变得更幸运了。
  一个人对幸运思考得越深入,对它有新的见解,它的悖论垮塌的也就越多。乐观的看待问题是Wiseman认为的幸运的人拥有的素质。但这又与之前提到的伦敦大学学院对赌徒做的研究结果不一样,赌徒的连胜是因为悲观心理,所以做出更安全的决定。所以,Wiseman认为的幸运之人在生活中可能是赢家,但在赌博界可能就会反过来了。
  Archie Karas的结局
  这就是Archie Karas身上、心理发生的一切。很多人只看到故事的开头就匆匆忙忙认为他是幸运的人,却没注意故事的结尾:仅仅在他赢了4千万美元的三个星期后,他就把所有的钱统统输光了。他的 “幸运”变成赔了50美元。这还不算完,悲催的结局还在后面。2013年,Karas被指控盗窃、欺诈以及在加州一个赌桌上出老千。好在在去年的11月,幸运女神又对他露出了微微一笑:他被判缓刑,暂时躲过了3年的牢狱之灾。不过,事情还是比我们想象的糟糕,不是吗?

关于图数据挖掘浅析

唐半张 发表了文章 0 个评论 1549 次浏览 2015-10-11 09:32 来自相关话题

数据规模越来越大,数据结构越来越复杂,而且对系统的需求越来越高。如果学习过数据结构,那么都知道图是放在最后一个结构,当你学习了图,那么应该感知到前面的链表,队列,树都是在图上面加了一些约束而派生出来的结 ...查看全部
数据规模越来越大,数据结构越来越复杂,而且对系统的需求越来越高。如果学习过数据结构,那么都知道图是放在最后一个结构,当你学习了图,那么应该感知到前面的链表,队列,树都是在图上面加了一些约束而派生出来的结构。所以图是一个一般性的结构,可以适应于任何结构类型的数据。那么图数据挖掘是干什么的呢?难道是开着挖掘机来进行挖掘?还是扛着锄头?下面讲讲什么是图数据挖掘
 
一、什么是图数据挖掘
这个话题感觉比较沉重,以至于我敲打每个字都要犹豫半天,这里我说说我对图数据挖掘的理解。数据是一个不可数名字,那么说明数据是一个没有边界的东西。而挖 掘是一个很形象化的动词,一般意义上,挖掘是挖掘出对我们有用的东西,不然也不会闲着没事刨个坑把自己放进去,肯定是里面有宝贝,我们才挖掘。那么不难理 解,数据挖掘就是挖掘数据里面的“宝贝”,图数据挖掘,就是以图的结构来存储、展示、思考数据,以达到挖掘出其中的“宝贝”。那 这个“宝贝”是什么?这个有点主观意识来理解了,“宝贝”这个词本身就带有主观色彩,而没有一个客观的答案,不像是美女大胸、翘臀、高挑、皮肤白皙、脸蛋 好看等一系列标准。那么如何理解图数据里面的“宝贝”呢?举个例子吧,例如:当今互联网产生了很多社交数据,某某关注了某某,那么某某和某某就有了关系, 某某评论过某某,那么这又产生了关系,在这个里面某某就是图中的节点,而评论过,关注了则是节点之间的关系,如果某某再多点,这就形成了一个无边界的图 了。那么对这个图进行关系挖掘,那么会产生很多有用的数据,比如可以推荐你可能认识的人,那就是朋友的朋友,甚至更深,这就形成了某空间好友推荐的功能。 比如某宝的你可能喜欢的宝贝,可以通过图数据挖掘来实现。这就是我认为的图数据挖掘。
从学术上讲,图数据挖掘分为数据图,模式图两种。至于这两个类型的区别,由于很久没有关注这块,所以只能给出一个字面意义上的区别。数据图:则是以数据节点为基础来进行分析图,模式图:则是以数据整个关系模型来进行分析数据。可 能解释存在错误,望指正。我之前主要是接触数据图一块的东西,模式图没有太多了解。关于数据图和模式图在学术界存在几个比较有参考意义的实现以及算法。数 据图有:BANKS,BLINKS,Object rank;模式图有:DBXplorer(微软),DISCOVER(加利福尼亚大学),S-CBR(人民大学,就是在大学学数据库都会知道的人:王 珊)。下面主要对数据图的几种实现进行简单介绍,模式图,可以找上面相关论文进行了解。
二、数据图典型实现介绍
1、BANK
整 体上说一下它的思想是通过关系数据库进行存储图结构的数据加上Dijkstra算法来进行数据的存储和图数据的搜索。该算法第一步先是先是匹配所有关键词 的关键节点,并且以每个关键节点为源节点进行一次Dijkstra算法对图进行遍历,因此可以形成和每个关键节点可达的节点堆,该堆是进行了按照到关键节 点距离进行堆排序的堆。因此可以想想每个关键节点的节点堆的第一个元素则是到该关键节点最近的节点。利用这个,那么对每个节点堆一次遍历,每次遍历只取堆 的第一个节点,可以得知,这个取出的节点和节点对对应的关键词是可达的,如果这个节点和所有关键节点可达,那么就可以这个节点为根节点形成一个结果树,所 以需要对这个取出的节点进行标记,标记的目的就是说我这个关键节点来过这里了(有点类似到此一游的感觉)。这就是BANK的大体上的算法思想。下面提出一 个流程图,帮助大家理解一下。
 
这种方式存在几个缺点:由于它的这个算法是需要把整个图结构加载到内存中,所以当节点 数一大,那么可能会收到内存的限制。第二个缺点是,它的搜索是单向的,这样在效率上面存在一定的缺陷。这个算法也是我研究图数据挖掘主要研究的对象,因为 比较简单,容易理解。下面针对上面两个缺陷介绍另外两个算法。
2、算法
这个算法则是在第一个基础上面进行了扩展,支持双向搜索。从而解决了上麦年的第二个缺陷。具体算法实现,很久没接触了,而且当时也没关注这方面的实现,所以我也不是很清楚,只是知道它实现了双向遍历。具体的可以点击标题,看它的论文。
3、BLINK
这 个实现是解决了大图问题,通过对图进行分割,形成超图的概念,加载内存只需要把超图进来,当需要遍历这个超图节点的时候,再将超图节点里面的明细节点加载 到内存,基于这个概念可以很好的解决节点数量大而受内存的限制,这个算法有点类似地图的放大镜,当需要展示某一块(超图节点)的时候,则加载当前块的内 容,用户就会看到更加明细的地图信息。具体算法,可以点击标题,看看它的论文。
既然说道图,那么不得不提一下在图数据库方面最流行的neo4j.neo4j是在09年过年的时候接触的,当时是调研以何种方式来存储图数据,所以当时弄了一下,后没就没关注了。当时看neo4j真的很小,不像现在这么成熟。
三、NEO4J预览
在NEO4J官方文档里面会看到下面几点介绍图数据库。
“A Graph —records data in→ Nodes —which have→ Properties”

上面很简单明了的介绍了图是什么,图是以节点存储记录数据,而节点数据是以属性形式关联节点。
“Nodes —are organized by→ Relationships —which also have→ Properties”
这句话说明了关系在图中的作用,可以理解节点是通过关系来进行组织和管理,并且关系也可以包裹属性信息。
“Nodes —are grouped by→ Labels —into→ Sets”
在 图中标签的作用就是对节点进行分组,并且同一个标签的节点会放到一个集合中,这个有点类似上面说的对图进行分割。比如:给节点贴上一个“人”的标签,那么 当对图进行搜索的时候,当指定“人”这个标签的时候,那么只会找到所有人的节点,而不会找到猫,狗等节点。这样可以提高图的遍历速度,而且可以更好的管理 图的节点。
“A Traversal —navigates→ a Graph; it —identifies→ Paths —which order→ Nodes”

一个路径的遍历,它可以正确的导航整个图的结构遍历,并且它可以对应一系列路径,这些路径则是将所有节点串联起来。这个解释了搜索在图中的定位,一条搜索可以对应多条路径,也就是多条结果,而每个结果包含一系列节点。
“An Index —maps from→ Properties —to either→ Nodes or Relationships”

图中的建立索引的数据来自于节点和关系的属性,并且索引会直接映射到节点和关系。这样可以通过索引遍历图中的节点和关系,以得到结果。
“A Graph Database —manages a→ Graph and —also manages related→ Indexes”

这里明确的表示了图数据是干什么的,同时也表达了NEO4J是干什么的。他是管理和维护图数据CRUD,并且维护图数据的索引建立和更新。是对图数据操作的一个对外接口。

数据挖掘师工作职责

唐半张 发表了文章 0 个评论 1532 次浏览 2015-10-10 10:22 来自相关话题

数据挖掘师工作职责 1、负责项目的需求调研、 ...查看全部
数据挖掘师工作职责
1、负责项目的需求调研、数据分析商业分析数据挖掘模型等,通过对用户的行为进行分析了解用户的需求;
2、参与业务部门临时数据分析需求的调研、分析及实现;
3、参与数据挖掘模型的构建、维护、部署和评估;
4、整理编写商业数据分析报告,及时发现和分析其中隐含的变化和问题,为业务发展提供决策支持
5、派驻或对口支持业务部门提供数据分析服务,与业务部门合作开展业务专题分析;
6、支持微博事业部等产品部门下的运营,产品,研发,市场销售等各方面的数据分析,处理和研究的工作需求。
 

数据分析的基本思想和方法

唐半张 发表了文章 0 个评论 1673 次浏览 2015-10-10 10:15 来自相关话题

数据分析的基本思想和方法? 下面的文章就是给大家说说什么是数据分析的基本思想以及方法大家看吧! 1.用数据说话 数据本不会说话,但是面 ...查看全部
数据分析的基本思想和方法? 下面的文章就是给大家说说什么是数据分析的基本思想以及方法大家看吧!
1.用数据说话
数据本不会说话,但是面对不同的人时,就会发出不同的声音。现在我们以《荒岛售鞋》这个老故事为引例,从数据分析的角度来解读,看看能不能开出新花?为防止大家案例疲劳,我尽量用新的表达方式把故事罗嗦一下!
话说郭靖和杨康,被成吉思汗派去美丽的桃花岛进行射雕牌运动鞋的市场拓展。郭靖和杨康一上桃花岛就惊讶地发现这里的居民全部赤脚,没有一个穿鞋的,不论男女还是老少,莫不如此。杨康一看,倒吸了一口凉气,说:唉!完了,没啥市场!郭靖却不这么认为,马上掏出了新买的IPHONE4G给铁木真打了个长途加漫游的汇报电话。面对桃花岛这个空白的市场,郭靖电话里这么说:“桃花岛人口众多,但信息闭塞。现在全岛居民,全部赤脚。在运动鞋市场上没有任何竞争对手,茫茫蓝海,市场将为我独霸!可喜,可喜啊!”这个时候,咱现场做个调查,假如你是成吉思汗,你会怎么抉择?(投资Y1人,不投资的N1人。)
这个时候杨康听不下去了,马上抢过电话,说到“大汗,别听郭靖瞎嚷嚷!市场虽然没有竞争,但并不就一定是蓝海。在全球化竞争的大背景下,这么轻而易举的就让我们找到了蓝海,您觉得可能吗?难道阿迪、耐克、彪马、锐步这些国际巨头都是棒槌,会发现不了?我看肯定是岛上几百年不穿鞋的生活习惯,短期内无法改变,所以各路群雄,都只能望而止步!可惜,可惜啊!”听了杨康的论述,铁木真又该如何选择呢?请大家举手表态。(愿意投资Y2人,不愿意投资的N2人。)姜是老的辣!成吉思汗比较理性,他只说了一句:“继续调研,要用数据说话!”就把电话挂了!
一个星期之后,杨康率先给BOSS汇报了。不过他没有选择打电话,而是改发E—MAIL。原因有三:一是全球通资费太高了,钱要省着点花;二是杨康有点小人,他担心郭靖听了他的表述后,剽窃他的思想;三是他写了一份详细的调研报告,电话里三言两语说不清。杨康的调查报告里详细地记录了他与岛内精心选取的200位居民的谈话内容,以及他抽取居民样本时科学合理的甄别条件,最后的结论就是:岛内居民全部(100%)以捕鱼为生,脚一年四季泡在水里,根本就不需要鞋!听到这个消息,成吉思汗怎么办呢?请大家继续举手表态!(愿意投资Y3人,不愿意投资的N3人。)
成吉思汗有自己的想法。这个时候,他没有做决策,而是继续等。等什么呢?等郭靖的结论!又过了两天郭靖终于打来了电话。电话里说了3句话:“这个市场可以做!原因是岛上的居民每周都要上山砍柴,并且十有八九会被划破脚!更可喜的是,这两天他用美男计泡到了岛主的女儿黄蓉,而且黄蓉答应给射雕牌运动鞋作形象代言!”故事发生到这个阶段,我请大家做最后一次表态。(愿意投资Y4人,不愿意投资的N4人。)
好!数据在变,我们的决策也在变。不过,成吉思汗比我们理性的多。回答还是一句话,不过比第一次多了几个字:“继续深入调研,用详实数据论证。”为什么呢?难道这些数据还不够详实吗?是的!因为在成吉思汗脑袋里还存在有很多疑问。比如:
1) 难道竞争对手真的没来过?还是对方论证后真的不可行?
2) 山上不会开个伐木厂吧?如果有了伐木厂,居民就不会上山砍柴了,到时候送柴上门,鞋还有个屁用啊!
3) 为什么一周才上一次山?该不会主要使用的是太阳能吧?
4) 运动鞋的运输成本、营销成本、销售成本是多少?投资收益率有多高?
5) ……
听完这个案例,我想问大家一个问题!从数据分析的角度看,你受到了什么启示?请注意这里说的数据分析的角度,如果你得到的启示是:铁木真领导的郭靖与杨康不是1个老男人+2个帅小伙的Gourp,而是教练型的Team。那么,抱歉!这不是我们今天讨论的范围。好,在座的各位谁来表达一下自己的看法呢?提示性的启示有:
ü  面对同一个数据,不同的人会说不同的话。
ü  真实的数据并不一定能推导出正确的结论。
ü  正确的决策需要有充分的数据去论证。
ü  ……
说完了启示,咱把这页PPT总结一下。这个案例涉及数据的搜集、分析、汇报以及用于决策的整个过程。在这个过程里,无论那个细节出了问题,最终做出的决策都将是致命的!所以说质量是数据的生命,在数据用于决策的整个过程,都必须保证真实有效!
2.用真实的数据说话
所谓用真实的数据说话,就是指在说话之前,先审核数据的真实性!现实生活中,拿着错误的数据还能大言不惭的可以说比比皆是。其中有两位杰出的代表:一个是传说中伟大的中国统计局,另一个就是动不动就要封杀这个封杀那个的CCTV。我不是瞎说,因为有数据支撑!
2010年1月20日,国家统计局公布了2009年全国房地产市场数据,全年房价平均每平方米上涨813。够雷人吧!雷声还没过,霹雳紧跟着又来了!2月25日国家统计局发布了《2009年国民经济和社会发展统计公报》,数据显示,70个大中城市房屋销售价格上涨1.5%。真可是天雷滚滚!难怪网友把统计局票选成大天朝的娱乐至尊!
此话一出,央视不答应了!真所谓中国统计,娱乐至尊;央视不出,谁与争锋?那我们仔细推敲一下央视的数据。2010年2月15日,CCTV发布了虎年春晚的满意度报告,结果显示满意度为83.6%几乎同一天,新浪的公布的调查结果是14.55%;后来没几天,腾讯也发布了满意度数据,结果是10.48%。数据一出,网友们骂声不断,此起彼伏,一浪高过一浪。但是人家央视就是央视,大有敌军围困万千重,我自岿然不动的定力。更夸张的是央视不但能装作视而不见,充耳不闻,而且还继续恬不知耻地在自己家的那几个频道里卖弄数据,自娱自乐。到底央视的数据错在哪里?我们先审视一下央视的调查方法。
央视的调查结果,来自央视——索福瑞媒介研究有限公司。索福瑞号称他们电视观众满意度调查的样本覆盖了全国30个城市,抽样框总人数有30,000人,央视春晚满意度的调查就是从这3万人中随机抽取了2122人进行调查。这样看,严格意义上讲所谓83.6%的满意度只能代表3万人的看法。当然,如果我拿这个说法与央视理论,对方肯定能拿出3万代表全国的理论证据。具体就是先从2千推断3万,再用3万推及到30个城市,然后从30个城市推及至全国所有城市,最后再推及至全国。这里用到了简单随机抽样、分层抽样、典型抽样,总起来还是个多阶段抽样,多么冠冕堂皇的理论依据!但是,纵然每一步都能保证90%的可靠程度,四次推及下来理论的可靠程度也只有65%。可遗憾的是,最后一步用城市推及全国的做法在理论上还有一道坎,因为我们不知道如何用45%的城镇居民来代表55%的农村人口?
说完了代表性的问题,我们再看看调查方法。索福瑞采用的是电话调查,而且时段选择在春晚直播的那几个小时内。据说调查是从晚上8:30开始,一直持续到春晚结束。巨汗!8:30貌似90%的节目还没有上演,又怎么能调查到观众对整个春晚的满意度呢?
央视的数据是经不住推敲的!那么,新浪和腾讯的一定对吗?不一定,这两个数据也只能代表新浪用户和腾讯用户的春晚满意度,最多能够代表一下4亿网友,要想替13亿的中国人民表达心声,也恐怕是鞭长莫及。
欣赏了统计局和CCTV送给我们的两个开年笑话之后,我们自己也应该反思,咱们日常工作中,在从数据的搜集、提取、整理分析、发布、使用的这一连串过程中,数据有没有失真?是不是数据自始自终都很齐全、很准确,而且统计口径与分析目的保持着高度的一致呢?这个问题留到日常工作中供大家思考。
3.说真话说实话
拿着错误的数据,肯定得不出正确的结论。那么面对真实的数据,就一定能得出正确的结论吗?未必!给大家看个小笑话。
问:你只有10平米的蜗居,邻居家从90m2换到190m2,你的居住面积有没有增加?
答:没有。
解:错,你们两家的平均居住面积是100m2,你的居住面积被神不知鬼不觉地增加了!
这个神不知鬼不觉是谁呢?无敌的平均数!仔细想想,这个均值算错了吗?没有!那么,问题出在哪里?单一的统计量存在片面性,所以要想反映数据的真实面貌,就得使用一系列统计量。
我再杜撰一个气候的例子,说明一下在结构严重失衡的情况下,使用平均数的可怕之处。我们的大中国啊,960万平方公里,同一时间里有的刮风,有的下雨,还有的高温酷暑。从去年冬天到今年的春天,北方一直暴雪连天,南方则遭遇百年旱情;而最近这段时间,南方多个省市河水决堤,沿河两岸,村庄沦陷,而北方则是烈日当头,干旱焦人,酷暑难耐。如果我们计算全年或者是全国降雨量的平均值,算出来的结果肯定是神州大地风调雨顺,国泰民安,而实际却是华夏民族饱经风霜,多灾多难!
还好,统计学家不只给了我们平均数,同时还设计了许多其他的统计量,大家看看下面这个表。
 
衡量数据的集中趋势,基本有三个统计量,均值、中位数和众数。均值是数值平均数,它容易受极端值的影响。也就是说如果数据的跨度或者说是极差不大的话,用均值可以很好的反映真实情况。但是,如果数据的差异比较大,单一使用平均数就会搞出新的笑话了。中位数和众数属于位置平均数,中位数是把数据从小到大排序,正好处于中间位置的那个数,众数是说出现的频次最多的那个数。
数据除了有集中趋势,还有离散趋势。反映离散趋势的统计量主要有方差、标准差、极差、变异系数等。方差就是观测值与均值差的平方和除以自由度,自由度一般是n或n-1。总体数据就用n,抽样数据就用n-1。标准差就是方差的正平方根,它的意义是消除了量纲的影响。极差是最大值与最小值的差,反映的是观测值的跨度范围。还有一个比较重要也是比较常用的就是变异系数,它是标准差与均值的比,目的是消除数量级的影响。
此外,还有一些是描述数据分布的统计量,比如分位数,有四分位、八分位、十分位等等,二分位就是中位数,它们反映一系列数据某几个关键位置的数值。频率分布,就是对数据分组或者是分类后,各组或各类的百分比。偏度是用于衡量分布的不对称程度或偏斜程度,峰度是用于衡量分布的集中程度或分布曲线的尖峭程度的指标。
如果想再深入一些的话,就会用到相关系数、置信水平、统计指数等等。相关系数是反映变量之间线性相关程度的指标,取值范围是【-1,1】,大于0为正相关,小于0为负相关,等于0表示不相关。置信水平是指总体参数值落在样本统计值某一区内的概率。统计指数就是将不能直接比较的一些指标通过同度量因素的作用使得能够比较,常见的物价指数、上证指数等等。
有了这些基本的统计量,我们在实际工作中只要稍微用心选择一下,就可以比较准确的描述数据的真实情况。
4.说管用的话
说管用的话是指深入分析数据的实质,挖掘数据的内涵,而不是停留在数据的表层,说些大话、空话或者套话。这就要求在数据分析时,首先明确分析的目的,其次是选择恰当的方法,最后得出有用的结论。通俗地说,说管用的话,就是不说屁话,少说废话!
4.1明确分析目的
这里我们举个例子。我想这个例子的时候正好是7月7号,N年前的那个时候,正好是在座的各位高考的日子,所以就杜撰了一个高考的数据。
 
我们这个班级,虽然成绩很烂,800分的总分,平均成绩只有486分,但是人才辈出,名字一个比一个响,人气一个比一个旺。大家先认识一下,有饱读四书五经,满腹经纶的关东秀才吕轻侯;有篮球场上进攻犀利,防守严密的小飞侠科比;还有足球场上无论是边路传中还是抢点射门都有非常出色的C罗纳尔多;有喜欢烟熏妆、蓝丝袜加高跟鞋出镜的伪娘刘著,有被亿万网友烧香膜拜的春哥党教主李宇春,还有经常抱着吉他哼着绵羊音的90后MM曾轶可;以及自称冰清玉洁、妖媚性感、擅长爆发性舞蹈动作的芙蓉姐姐和非清华北大经济学硕士不嫁、奥巴马也可的重庆籍奇女子罗玉凤!
基于学生的考试成绩,不同的人会关注不同的方面,高考的判卷老师会关心试卷的雷同程度,命题人会测试考卷的信度和效度,研究文理分科的专家会计算文理成绩的相关程度。但是对于普通中学,通常只会关心两个方面。一是学生成绩,计算升学率;二是教学水平,给优秀教师发奖金。如果高中的教学科在这里研究文理相关就属于废话,如果还要把问卷的信效检验也扯出来就是屁话了。
关于学生:
ü  吕秀才:总分722分,班级第一,平均成绩超过90分,如果将其他同学的水平比作三层小楼的话,吕秀才应该是站在赛格顶上!奇才,上清华北大没有问题。
ü  科比和C罗:总分550左右,平均不到70分!属于班级2号、3号人物,但成绩确实不咋地,不过在该班级中也算鹤立鸡群了。
ü  刘著、李宇春、曾轶可:成绩较差,上学肯定不是她们的出路!基于平时性情怪异,男的像女,女的像男,还有一个像绵羊,建议别走高考这条寻常路,还是去湖南卫视选秀吧。
ü  凤姐、芙蓉:这成绩,就是个脑残,估计脑袋不是被门挤过,就是被驴踢过!
关于老师:
ü  衡量教师的优劣需要剔除异常值,吕秀才就是!吕秀才属于成绩异常出众,个人素质极高,所以他的成绩不应该成为衡量老师优劣的样本。
ü  语文均值高,变异系数小!由此看出语文老师真是好老师!该发奖金!
ü  同理,历史老师也不错!也应该适当奖励。至于物理老师,太差,得赶快换掉,绝对不能让他继续误人子弟了!
ü  存在疑问的就是英语老师。英语成绩的均值较高,但变异系数大。这说明数据里可能存在极端值。可能的异常值是科比与C罗。科比美国人,外语自然好!C罗葡萄牙人,但从2003年到2009年一直在英国留学,6年啊,英语好也是应该的!所以,科比与C罗的英语成绩不能算是英语老师的栽培,所以科比和C罗是异常值,应该剔除。那么,剔除异常后就会发现英语的均值只有47分!说明英语老师并不能算做好老师,所以只能与奖金无缘了!
4.2选择恰当的方法
接上面的案例。如果我们是研究高中该不该进行文理分科的有关部门,那么我们该如何分析文理成绩之间的相关性?
举例1:如何计算文理科之间的相关性。
目前基本有三种方法,一是简单相关分析,二是典型相关分析,三是潜变量相关分析。
简单相关分析就是通过加总,分别计算出文科成绩总和、理科成绩总和,然后计算两者的简单相关系数。
典型相关分析主要用于衡量两组变量之间的相关性。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取是的相关系数最大的一系列典型变量,然后通过计算各对典型变量之间的相关性,来反映变量间的相关程度。
潜变量相关就是计算潜变量之间的相关系数。所谓潜变量是相对于显变量或者测量变量而言的。潜变量是实际工作中无法直接测量到的变量,包括比较抽象的概念和由于种种原因不能准确测量的变量。一个潜变量往往可以有多个显变量,潜变量是可以看做是其对应显变量的抽象和概括,显变量则可视为特定潜变量的测量指标。在文理科相关性的分析中,我们可以将文科、理科看成潜变量,将语文、外语、政治、历史这四个显变量看成文科的测量指标,将数学、物理、化学、生物这四个显变量看成是理科的测量指标,那么求文理成绩之间的相关问题就转化成潜变量之间相关的问题。
那么。我们究竟该选用哪种方法呢?或者假如说我们同时使用了上面三种方法,求出相关系数,该选择哪一个呢?比如我们计算的结果分别是0.35(简单相关)、0.85(最大典型变量)、-0.65(潜变量相关),这个时候我们到底该相信哪个数据呢?
其实,我更愿意相信简单相关计算的结果。原因如下:
1、简单相关,既简单又易理解。
2、典型相关的取值范围是【0,1】,它计算出的结果没有正负,只有大小。与我们实际研究目的有悖。我们想知道学生是否在文理课程上均衡发展,所谓均衡就是正相关,所谓不均衡就是负相关。而典型相关做不到。
3、潜变量相关虽然取值范围是【-1.1】,但是它多数是采用主成分的方法拟合潜变量,而依据方差提取最大主成分的过程与我们的分析貌似不甚吻合。
4、最重要的是,其实简单加总与典型相关、主成分相关拥有同一个思想,就是先把多个变量拟合成一个变量(或几个),然后分析这个拟合出来的变量之间的相关性。其实,在量纲、数量级相同的情况下,而且权重也容易计算的情况下,最简单有效的拟合就是加总!所以我认为简单加总后计算出的相关系数是最有效。而潜变量、典型变量是在量纲或数量级不等的情况下,衡量多个变量之间相关关系的有效方法。
举例2:计算硬币正反概率
最后,再给大家做道选择题。
问题:如果一枚硬币连抛10次都是正面,问第11次出现正面的概率是多少?
选项:A. 接近0%    B.50%      C.接近100%     D. 以上答案都不对
一个硬币连抛10次都出现正面的概率是0.510,绝对的小概率事件。在一次实验中,小概率事件发生,那么我们就应该拒绝原假设。原假设是什么?硬币出现正反的概率是0.5。所以,我们可以大胆地推断,硬币本身就是一个两面都是正面的硬币,所以说第11次出现正面的概率是100%,或者接近100%。大家是不是有异议呢?
树上10只鸟,猎枪一枪打死1只,树上还剩0只的结论大家都应该同意吧。因为我们考虑的是实际问题,不是10-1=?的数学算式。所以大家在幼儿园的时候就知道枪声响过,树上一只鸟都不会剩。试想,你和你的朋友打赌投硬币猜正反,如果10次之后朋友投出来的都是正面,你会怎么想?兄弟你出千了吧,硬币肯定有问题吧!相信用不了10次,你就会提出这样的质疑了。如果说计算概率,0.5没有错,独立事件发生的概率不因之前的情况而改变。但是,如果用假设检验的思想,100%的结论就更合理了。之所以说0.5的结果不对,不是说你的计算出错了,而是在解决实际问题的时候,你太教条了,太书本了,从而选错方法了。
5.最后总结
我的分享结束了,大家也听了也笑了,但是笑过之后务必记住我啰嗦了一个小时的这句话:用数据说话就是用真实的数据说话,说真话、说实话、说管用的话!最后说一句废话:希望刚刚过去的1个小时没有浪费大家的时间。谢谢!

数据挖掘与机器学习的区别

唐半张 发表了文章 0 个评论 1680 次浏览 2015-10-10 10:07 来自相关话题

对于数据挖掘营销比较大的学科领域有数据库、机器学习、统计学,但是数据挖掘与机器学习是有很大区别的,对于数据挖掘与机器学习的区别整理了一下几点: 粗糙地说,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由 ...查看全部
对于数据挖掘营销比较大的学科领域有数据库、机器学习、统计学,但是数据挖掘与机器学习是有很大区别的,对于数据挖掘与机器学习的区别整理了一下几点:
粗糙地说,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学界往往醉心于理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域。但能否认为数据挖掘只不过就是机器学习的简单应用呢?答案是否定的。一个重要的区别是,传统的机器学习研究并不把海量数据作为处理对象,很多技术是为处理中小规模数据设计的,如果直接把这些技术用于海量数据,效果可能很差,甚至可能用不起来。因此,数据挖掘界必须对这些技术进行专门的、不简单的改造。
例如,决策树是一种很好的机器学习技术,不仅有很强的泛化能力,而且学得结果具有一定的可理解性,很适合数据挖掘任务的需求。但传统的决策树算法需要把所有的数据都读到内存中,在面对海量数据时这显然是无法实现的。为了使决策树能够处理海量数据,数据挖掘界做了很多工作,例如通过引入高效的数据结构和数据调度策略等来改造决策树学习过程,而这
其实正是在利用数据库界所擅长的数据管理技术。实际上,在传统机器学习算法的研究中,在很多问题上如果能找到多项式时间的算法可能就已经很好了,但在面对海量数据时,可能连算法都是难以接受的,这就给算法的设计带来了巨大的挑战。

怎样分析淘宝数据

唐半张 发表了文章 0 个评论 1639 次浏览 2015-10-10 09:08 来自相关话题

第一步:我们先熟悉一下实时客户访问报表的各栏位。序号,记录的流水号;访问时间,顾名思义;入店来源,这里展示的是访问来源,量子团队把一些常见的都列出来了,如直通车、钻石展位等,其他非常见的则归为其他来源, ...查看全部
第一步:我们先熟悉一下实时客户访问报表的各栏位。序号,记录的流水号;访问时间,顾名思义;入店来源,这里展示的是访问来源,量子团队把一些常见的都列出来了,如直通车、钻石展位等,其他非常见的则归为其他来源,我们想要用的,其实不是我们直接看到的,而是当鼠标移动上去之后可以到的来源的具体地址。例如,当我们把鼠标移到第一条记录的“其他来源”位置,就可以在浏览器的地址栏或者提示框看到来源的具体URL地址http://*****.taobao.com,这个非常重要,通过这些,我们就可以知道来源在哪里了;被访页面,可以看到用户当前访问的位置;访客位置,顾名思义,访客的地址,哪来的;顾客追踪,这个栏位非常重要,可以用来追溯;回头客,可以用来判断用户是不是第一次来。

第二步:当有客户下单的时候,我们可以立刻获得客户的下单时间和位置,最好查一下用户和客服的聊天记录,看到开始聊天的时间。下单时间和开始聊天时间,我们取比较早的那个时间,这个时间理论上离客户访问我们店铺的时间比较近。有了时间和位置,我们就可以到实时客户访问中去追溯,定位刚才那个客户的访问记录,找到他的第一次访问,看到他的入店来源,这样就可以记录下来。

第三步:针对记录下来的数据,可以制作效果来源横向分析和纵向分析报表了,这样对自己的广告投放就非常有帮助了。可以非常直观地看到各来源的效果,以及各来源效果的趋势图。这里我就不详述了,Excel相当强大,只要你能想到,就能发掘出有意义的数据。
这个方法,很有帮助,但是只堪临时用,因为他有非常大的局限性,他更适用于店铺的起步阶段,或者说是每天访问量不算巨量和成交不算特别频繁的店铺。
第一,它对数据分析者的追溯能力要求还是比较高的;
第二,无法追溯隔天的的数据,因为量子一过午夜12点就将昨天的数据清空了,这样如果是客户第一天通过搜索看到了产品,第二天直接访问网址进入了,那么我们就无法追溯到用户的真实来源;
第三,当天的数据量子只保留40页也就是1000条记录,如果店铺访问量大的,可能追溯成问题,除非定期去将数据保存在excel中,或者导入到数据库中;
第四,我们发现数据可能有丢失,造成追溯困难。比如客户在16点左右产生几个pv但没有购买,然后晚上20点左右再次来访,产生了几个pv并且下单了,于是我们往前追却发现16点那个时间段产生的pv记录已经没有了,而当时总的访问pv还没有超过1000;
最理想的状况当然是量子团队提供出效果分析的报表。我相信量子团队早晚也是要开发出来的。但作为我们,却等不起,我想各位买家应该也是非常渴望吧。在分析工具还达不到的时候,如果能够在经营细节上领先一步竞争对手,就拥有更早自我突破的机会,也多一分成功的希望。
为了经营好一个店铺,我们需要宏观的报表,也非常需要微观的报表。从宏观面向微观面逐渐挖掘的过程,就是一个店铺、一个企业逐步精细化管理的过程。量子统计,无疑就是帮助我们精细化经营的利器。感谢量子统计,期望量子统计团队越来越强大,无论报表的表现力、精确度还是开发的速度,都会有更大的突破。

如何制作数据分析图

唐半张 发表了文章 0 个评论 1450 次浏览 2015-10-10 09:07 来自相关话题

对于07版windows来说,图表分析比较方便,可以从以下几步入手: 1、点击“插入”模块:选择具体图表类型,有平面的 ...查看全部
对于07版windows来说,图表分析比较方便,可以从以下几步入手:
1、点击“插入”模块:选择具体图表类型,有平面的,有三维 的,根据需 要;
2、点击“设计”模块:导入分析数据,呈现图表,选择具体图表结构。这里也可以更改图标类型;
3、点击进入“布局”模块:可以编辑图表标题,图例,数据标签,数据表等等;
4、点击进入“格式”模块:可以编辑图表轮廓,形状、效果等等。

如何分析销售数据

唐半张 发表了文章 0 个评论 1632 次浏览 2015-10-10 09:07 来自相关话题

做自家的销售分析只是你的基本功课,除此之外还有很多事情需要做、需要厘清。 曾经有一次,采购正在做明年度采购计划的提案, ...查看全部
做自家的销售分析只是你的基本功课,除此之外还有很多事情需要做、需要厘清。
曾经有一次,采购正在做明年度采购计划的提案,他们做了非常详尽的销售数据分析,把过去关于该品类的销售数据、月别变化、成长率、材质、颜色喜好度分析等,一一仔细提报,他们说得很认真,我则有点失望。
我问了一个问题:去年这个商品总共销售了多少件?答案是:822件。一个一年只卖出822件的商品,你们花了20页去分析它,然后以此作为下一年度的采购依据,对此我无法给予同意与否的答案;你们确定全中国类似的商品,全年只卖出822件?还是你们只知道发生在我们店里这822件的故事?
其实问题不止是数量太少不足以佐证而已。从事零售行业十几年,我发现非常多的同业都有一个盲点,也就是每次作销售分析时,永远是拿自己卖场过去的销售记录出来作分析。但实际上,你的销售记录只代表到达你们卖场的客人中已经实施消费的客人的意见,不一定代表得了整体市场的现状,你应该需要探讨的还有:
a) 没看到陈列?或是陈列方式难以取货?
b) 觉得价钱太高?
2.没到你卖场的客人,为何不想到你的卖场购买?
a)不知道你有卖?
b)对你卖场的价格印象度不佳?
c)觉得到你家买太远?太麻烦?
3.其他卖场的相关产品,它们的销售状态为何?
a)是这类型的商品都卖得不好?还是在其他卖场都卖得很好,只有在你的卖场卖得不好?
b)同品类的商品,现在已经流行不同材质或是花色?
有太多事情需要厘清,不是说你不用做自家的销售分析,应该说,这只是你的基本功课,自家的销售分析必定得先做,但在分析时,还需要确定几件事:
1.销售数据本身是否具有代表性?数量够大吗?
2.与其关联的商品品类是否可以一同分析?
4.同商店是否有较大的销售差异性?
为了促使你的销售分析能得到更正确的判断,除了你现有的销售数据外,还可以使用下列的手法:
1.消费者购物行为调查:实地观察你卖场内目标消费者的购物行为,他们从哪里进来,看了什么?怎么看?尤其是针对你想研究的品类,有多少进店的消费者会走到那一区,是径直走过去,还是边走边逛看到的?是拿起包装仔细阅读后放回去,还是看了两眼却没有驻足?你可以从消费者在你店里的购物行为中,嗅出这类型品类对消费者的重要性,包括目标消费者的Lifestyle(生活方式),他们的外观型图。而除了你自己的卖场外,还可以再到竞争者的卖场,观察他们的消费者如何购物,从中间挖掘出你的竞争策略。
2.趋势分析:了解该品类的原材料销售状况,勾勒可能的未来性;了解消费者Lifestyle是否有产生变化?
3.协力厂商咨询:这是最好也最直接的管道,跟你的协力厂商成为朋友,他不会只在你这家店贩卖,从他那里,你可知道非常多竞争厂商的动态及商品的未来。
4.看展:要勤看各类型跟你负责的品类商品相关的展览,在中国,这样的展会比比皆是,在会展现场能够观察出新品未来的趋势及消费者的喜好,多看多听多观察,才能得到更多更正确的判断。
5.走店:除了自家的店,多去竞争者的店走走,也不要忘了多观察目标消费者喜欢出没的店,即使不是竞争业态,也能帮助你了解消费者的想法。
6.搜集国内外资讯:透过网路、杂志,多了解业界动态及趋势动向。
对我而言,销售数据是一个动态的数字,不是拿过去的资料就能得到证明的,所以不要轻易使用过去的数字做出对未来的判断。