什么是大数据环境

什么是大数据环境?大数据本身是一个比较抽象的概念,单从字面来看,它表示数据规模的庞大。但是仅仅数量上的庞大显然无法看出大数据这一概念和以往的海量数据、超大规模数据等概念有何区别。
定义多样 尚未统一 

  对于大数据尚未有一个公认的定义。在这些定义中比较有代表性的是3V定义:即认为大数据需满足3个特点:规模性(volume)、多样性(variety)和高速性(velocity)。除此之外还有提出4V定义的,即尝试在3V的基础上增加一个新的特性。关于第4个V的说法并不统一:国际数据公司(International Data Corporation)认为大数据还应当具有价值性(value),大数据的价值往往呈现出稀疏性的特点。而IBM认为大数据必然具有真实性(veracity)。 

  维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。 

  目前,在大数据定义问题上很难达成一个完全的共识,这与云计算的概念刚提出时的情况类似。在面对实际问题时不必过度地拘泥于具体的定义。 

  数据环境从 

  “池塘”到“大海”
 

  从数据库到大数据看似只是一个简单的技术演进,但细细考究不难发现两者有着本质上的差别。大数据的出现必将颠覆传统的数据管理方式。在数据来源、数据处理方式和数据思维等方面都会对其带来革命性的变化。简单说传统的数据库和大数据的区别,就好比“池塘捕鱼”和“大海捕鱼”。“池塘捕鱼”代表着传统数据库时代的数据管理方式,而“大海捕鱼”则对应着大数据时代的数据管理方式,“鱼”是待处理的数据,“捕鱼”环境条件的变化导致了“捕鱼”方式的根本性差异。这些差异主要体现在如下5个方面: 

  数据规模 “池塘”和“大海”最容易发现的区别就是规模。 

  数据类型 过去的池塘中数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构化数据为主。而在大海中数据的种类繁多,数以千计,而这些数据又包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据所占份额越来越大。 

  模式和数据的关系 传统的数据库都是先有模式,然后才会产生数据。这就好比是先选好合适的“池塘”,然后才会向其中投放适合在该池塘环境生长的“鱼”。而大数据时代很多情况下难以预先确定模式,只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。这就好比先有少量的鱼类,随着时间推移,鱼的种类和数量都在不断地增长,鱼的变化会使大海的成分和环境处于不断的变化之中。 

  处理对象 在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在大海中,鱼除了是捕捞对象之外,还可以通过某些“鱼”的存在来判断其他种类的“鱼”是否存在。也就是说传统数据库中数据仅作为处理对象,而在大数据时代要将数据作为一种资源来辅助解决其他诸多领域的问题。 

  处理工具 捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就可以,但是在“大海”中不可能存在靠一种渔网能够捕获所有鱼类的情况。 

0 个评论

要回复文章请先登录注册