登陆注册
4433900000003

第3章 大数据,你还不知道的部分(1)

FB数据单元--信息导航图

数据是由什么组成的?一个数据单元有多大?怎样产生和传送?

这是我们首先要知道的基本问题。曾经有人把数据比喻成花粉,蜜蜂搬运花粉使果实得以产生。每一个花朵都是数据产生源,蜜蜂承担着数据搬运工的工作。我认为这个比喻非常恰当,但有更好的概括--数据就像人体的血红细胞,一个数据单元就是一组营养单元,由肝脏产生,输送到身体各处,供应器官的需要。

数据单元是信息传输的基本单位。特别是在网络中,一般的网络连接不会允许将任意大小的数据包进行传送,它有严格的规则,采用分组技术将一个数据分成若干个很小的数据包,并且给每一个小数据包都加上它的属性。这个属性是与传输有关的,包括源IP地址、目的IP地址、数据的长度等。

和血液一样,它有固定的目的地。所以,我们把一个这样的小数据包称作数据单元,也可以称为数据帧或帧。如此一来,数据信息流的特点就明确了,每次要传送的数据都是特点鲜明的“包裹”,它们的规格和封装方式都是相同的。这有利于数据传输的标准化,也简化了它的产生、加工、包装和传送方式,使得大规模应用数据成为了可能。

我们发现,任何一个数据组织都有它的既定体系。在这个体系中,可以划分为位、字符、数据元、记录、文件和数据库六个层级。前一个层级的数据元组合产生了后一个层级,最终实现了更大规模的数据集合。

在这六个层级中,“位”数据处于第一层,一般的用户不需要探究,但后面五个层级则需要我们掌握,因为它们是人们在输入和请求数据时要应用到的。

当不同的数据包或数据元素之间存在着特定关系(一种或很多种)时,它们就构成了数据结构,也就产生了“电脑存储和组织数据”的特定方式。人们认真选择的数据结构能够带来更高的运行或者存储效率。这时,检索和索引技术的需求就随之产生了。更好的技术可以让我们的检索更加高效。

我的朋友沙尼尔是一位任职于谷歌公司的大数据专家,他在去年出版的名为《数据算法与应用》的书中对于数据的性质这样解释:

“数据结构代表着一种联系,它是数据对象及存在于该对象的实例和构成该实例的数据元素之间的各种联系。同时,这些联系可以通过定义有关的函数给出并量化。”

数据对象又是什么呢?沙尼尔认为,一个数据对象是实例或者值的集合,而数据结构是抽象数据类型(ADT)的物理实现。他将一个数据结构的设计过程分成抽象层、数据结构层和实现层这三个层级。在这其中,抽象层是指抽象数据的类型层,它讨论的是数据的逻辑结构及其运算,数据结构层和实现层则更贴近于形象化和实用性,它们讨论的是一个数据结构的表示和在电脑中的存储细节以及这种运算的实现。

如果我们结合现实应用,将数据结构解剖开来,会看到什么?你立刻就会发现自己已经漂浮在数据王国的海洋之上,它们离你是如此之近,并时时刻刻与你的生活发生着关系。

●字符

当我们输入一个字符时(通过键盘或其他设备),系统会直接将字符译成某特定的编码系统中的一串位的组合。一个字符在电脑中占8位,即一个字节。这就是字符,也是一般而言数据的最基本单位。同时,电脑系统可以使用不只一种编码体制来处理字符。比如,某些系统将ASCII编码体制用于数据通信,而把EBCDIC编码体制用于数据的存储。广义上,我们在纸上写下一个汉字单词、一个阿拉伯数字,也可视作“数据”中的一个字符。

●数据元

数据元是数据的层次体系中最低一层的逻辑单位。我们为了形成一个逻辑单位,需要将若干位和若干的字节(字符)组合在一起。比如一句完整的话,一段完整的富有逻辑的代码,一个最小的信息流等。因此,数据元也可称作字段。它是泛指的,其中的数据项才是数据实体,比如一个完整的手机号是一个数据元,138或后面的数字按段分开,则是具有单独存在意义的数据项。

●记录

数据元以逻辑相关的形式组合在一起,就形成了一个数据记录。价值在这时候开始陡然提升。比如一条员工记录--编号、姓名、性别、职称、所属部门--包含了若干的数据元,它们之间有逻辑相关性,再加上辅助性的数据项,就构成了完整的记录。这是数据库中存取的最低一层的逻辑单位。

●文件

一个完整的文件是由信息和介质构成的,它是被命名的、存储在某种介质上的一组信息的集合体。比如一篇文章、一张唱片、一份合同,甚至于一本书,都可称为数据元件。一个文件在逻辑上可划分成若干的记录,那么文件就以记录序列的形式体现。文件与存储介质无关,介质的改变不会改变文件的性质和它的价值。

●数据库

数据库是最大的层级,它是一组有序数据的集合。在这组有序数据中,包含大量的文件--这些文件之间互相又具有逻辑相关性,并以某种检索价值被标注。根据不同的应用需求和不同的领域,人们有时也将数据库分成若干段,而不是唯一存在。数据库有备份,可以随时检索、整理和利用,也可以随时被有权限的人更改。

核心:整理、分析、预测、控制

“大数据”的核心并不是我们拥有了多少数据,而是我们拿数据去做了什么。如果只是堆积在某个地方,数据是毫无用处的。它的价值在于“使用性”,而不是数量和存储的地方。任何一种对数据的收集都与它最后的功能有关。如果不能体现出数据的功能,大数据的所有环节都是低效的,也是没有生命力的。

☆整理

整理有两个目的,一是将所有的数据归类,把它们放到该去的地方;二是利于我们检索,随时调取数据进行利用。这和我们整理书架的目的是一样的。面对同样的数据,不同的整理方法决定着我们的效果是好还是坏。

美国国会图书馆的检索工程更新很能说明“整理”的重要性。在国会图书馆,人们曾经经历过一段困难时期,因为信息量随着网络技术的发达不断暴涨,就连保存的推特(Twitter)信息(只是图书馆数据中很小的一部分)就达到了接近两千亿条,存储文件的体积更达到133TB。删除是不可能的,因为每一条信息都已经在这套社交网络中获得了读者的分享与转载--那么,如此庞大的数据应该如何整理?

技术团队需要想尽一切办法、穷尽所有智慧才能拿出切实可行的检索方案,让图书馆的用户可以方便地利用这些信息。也就是说,技术人员必须着手建立一套帮助研究人员(包括其他用户)快速访问社交平台数据的系统,因为随着网络工具和文化潮流的不断发展,人们都在趋向于电子阅读而不是来看纸质书。

从2000年开始,图书馆就启动了整理归档的工作--那时的难度较小,因为尚未接入社交网站,政府内部的系统储存的数据在一定时间内是静态的,增长速度较慢。虽然数据的总量也超过了300TB,但工作人员觉得:“总有一天可以整理清楚。”

然而,推特的出现令图书馆的归档工作陷入了痛苦的僵局。图书馆方面实在找不到合适的办法来保证信息易于搜索,在这个过程中还不能出现无法容忍的错误。如果继续使用旧的方式--磁带存储,那么仅查询一条2006年到2010年之间的推特信息可能就要耗费一天,如果查询期限再加上一年,所要的时间就要增加四倍。

国会图书馆的一位工作人员费舍尔说:“我们在庞大的数据面前感到头疼,整理成为了一个不可能完成的工作。如果无法把它们归类,这些数据就变成了包袱,需要它们的人检索不到,我们却又不得不保管它们。”

推特的信息之所以难于整理,一方面是由于它的数据量过于庞大,另一方面的原因则十分现实,因为每天都会有新数据不断地加入进来。就像我们的微博一样,每分钟都有大量的新信息产生,人们不断在发微博。所以,这种增长速度会不断地提升,要用传统方法把它整理好,几乎是不可能的。

此外,这类信息的种类也越来越多样,比如普通的推特信息、利用软件客户端发出的自动回复信息、手动回复信息、包含链接或者图片的数据等等。经常使用微博的人对此心知肚明。传统方法在新的数据更新特点面前,根本无从下手。

费舍尔说:“如何寻找解决方案?道路是曲折的。我们开始的时候考虑分布式及并行计算方案,但这两类系统实在太过昂贵。要想真正地实现搜索时间的显著降低,就需要构建起由数百台甚至几千台的服务器构成的庞大的基础设施。天!想想都不可能,这对于我们这种毫无商业收益的机构来说,成本实在太高了,一点也不符合实际。”

图书馆最后找到了大数据工程师。专家针对图书馆的具体情况,给出了一系列的实用方案。开源数据库工具Raik的创始人菲利普斯建议采取分类处理的方式,即利用一款工具处理数据存储、一款工具负责检索工作,另一款则用于回应查询请求,非常简单有效地完成了整理的工作,让海量的新信息与庞大的旧数据完美融合,也保证国会图书馆实现了数据库的更新换代。

在整理完成以后,数据的总量增加了几十倍(每时每刻仍在增加),检索速度反而比以前更快,甚至已经实现了检索结果瞬间到位。

☆分析

分析是指对于数据进行“有效分析”。数据往往规模巨大,成分复杂,且来源不一。尤其在大数据时代,数据往往同时具有四个特点,简称4个V:数据量(Volume)大、速度(Velocity)快、类型(Variety)杂、价值密度(Value)低。怎样在最短的时间内做出最有效的分析,就成了一项核心工作。

随着大数据时代的来临,大数据分析也紧跟着应运而生。而且,传统的数据分析也在与大数据分析进行融合。

目前人们对于数据的解决方法主要还是这几个方向:数据怎么做预处理?归档的文档怎么能够及时查询?如何使用你的挖掘和分析技术来看到视野范围内的全息的大数据内容?在海量数据面前,传统的分析方式是做不到的。

数据分析的弱点也是需要我们警惕和谨慎思考的。去年六月份,有一位投行的华人高管蔡先生找到我。他正在考虑是否要退出欧洲市场,因为经济形势太不景气了。他觉得将来一定会发生欧元危机,一旦危机爆发,公司就会陷入破产的困境。

没错,经济有可能低迷,这是一个潜在的事实。但是,我提醒蔡先生注意另一个事实,那就是这家投行在欧洲已有近五十年的经营史,树大根深,有了很庞大的市场,也有大量的老用户。假如这时退出欧洲,会不会让人们觉得这家投行一遇到风吹草动就弃械投降、根本不值得信任呢?

蔡先生恍然大悟,他马上决定不能清算公司在欧洲的业务,不管未来有什么危机都要坚持下去,即便在短期内付出巨大的代价,也在所不惜。在做出这个决策时,蔡先生并没有忽视那些经济层面的数据,在我的建议下,他采用了另一种不同的思维方式,在数据的考量中纳入了更多更全面的信息。在困境中做出正确决策的人和机构,往往能够赢得更多的尊敬,而这不是传统的数据分析可以捕捉到的。

蔡先生的故事在告诉我们数据分析的威力之外,也充分体现了数据分析的短处和局限。虽然人类的生活现在由收集数据的电脑在调控指挥,当人的大脑无法及时理解和判断情况时,数据也可以帮我们解读和分析它的意义,并且帮助我们弥补对于直觉、情感的过分依赖,减轻我们内心欲望对于理性的扭曲。但归根结底,数据并不能代替人的思考,只有明确数据的真实价值,才有助于我们摆脱对数据的完全依赖。

真正的大数据分析就是要帮我们搞明白数据的真实价值,它在研究大量数据的过程中寻找模式、相关性和其他的有用信息,来帮助人们和企业更好地适应变化,并且做出那些真正明智的决定。

在大数据的层面上,对海量数据有四个不同的方向和解决工具:1.技术上解决了廉价数据的问题;

2.几乎可以实时地对数据进行分析,而不会有任何滞后,保证了数据的实效性;

3.大数据的可视化和发现性,使得搜索与可视化成为热门应用,也让数据更加精确;

4.在设备层面,拥有了经过优化的一体机设备,使得数据制造和分析更加便捷,成本也更低。

即便拥有最好的技术,在对数据进行分析前,人们也应该先了解数据的真实含义--就像了解自己一样。如果你对于数据是陌生的,那么作为一个决策者来说,你对于自己的事业就是十分危险的。现在许多产品经理、设计师和高管在没有完全理解数据的真实含义的情况下,就直接根据数据来修改自己的产品设计、做出完全基于数字逻辑的决策,结果往往事与愿违,导致糟糕的结果。

☆预测

大数据技术就像一面细致入微的显微镜,不但能够收集和分析最不起眼的信息,而且能够基于这些信息之间的逻辑关系做出科学决策。就像我们可以根据人的表情与言词判断他接下来的行为、量度他内心的情感状态一样,预测功能在商业、经济乃至其他领域都有助于政府和企业管理者做出更多的理性决定,而不仅仅是依靠直觉和经验。

IBM公司的能源电力应用部门经理布兰德说:“我们运用大数据预测风电和太阳能,精确地预测来自太阳能和风能的电力产出,取得了很好的效果。这是一种前所未有的创新模式,将使能源电力行业解决可再生能源的间歇性缺陷。”

IBM公司开发了一种结合天气和电力预测的智能系统,提高了系统的可用性并优化了电网的性能。它是足够改变游戏规则的新发明,结合大数据分析和天气建模技术而成,是现在全世界最先进的能源电力解决方案,可以提高可再生能源的可预测性。

这项名为“HyRef”(混合可再生能源预测)的大数据预测技术,利用天气建模能力、先进的云成像技术和天空摄像头,接近实时地去跟踪云的移动,并且通过传感器来监测风速、温度和方向。通过精确的分析,能为风电企业提供未来30天的区域内的精准天气预测,或者未来15分钟的风力增量。这就使能源公司有条件将更多的可再生能源并入生产线,减少碳排放量,然后制造更多的清洁能源。

这种预测能力让我们的生产模式得到真正的升级,而且可以应用到其他领域,比如天然气、煤炭或其他传统行业。不仅在实体产业,非制造业的服务产业对于大数据预测的需求更盛,也有着更广阔的市场。例如,可以帮助企业和政府机构进行业务(服务)分析与预测,对工作量身定制,降低成本,事先应对危机;再比如,可以对房地产销售的价格走势进行预测,它的精确性远远超过传统的房地产分析师。我们每个人都将从中受益无穷。

☆控制

同类推荐
  • 销售这样说,客户才会买

    销售这样说,客户才会买

    本书在对销售沟通的基本要素进行了阐述之后,详细说明了销售过程中的开发客户、预约客户、拜访客户、接近客户、介绍产品与报价、处理客户异议、成交、收取货款、售后服务等各个环节需要用到的沟通技巧,情景对话与技巧说明相结合,是销售人员自我提升沟通能力的实务手册。
  • 三分管人,七分做人

    三分管人,七分做人

    “三分管人、七分做人”的管理模式以道、儒、法家思想为理论基础,强调管理就是修己安人的过程,主张从个人的修身做人做起,然后才有资格来从事管理。领导者只有具备公正的态度、卓越的德行、个性的魅力、超凡的智慧、榜样的力量、丰富的情感,才能拥有崇高的威望,获得下属由衷的崇敬和钦佩,博得团队忠诚的拥戴与支持,从而实施有效的领导,使管理中的许多复杂问题,化于无形。
  • 助理理财规划师专业能力

    助理理财规划师专业能力

    在《理财规划师专业能力》当中,新版教程根据一年来国家政策、法规及理财产品、工具的变化,调整、更新、补充了原版教程的内容,并提出了相应的能力要求,提示了相应的有关知识,使具体的理财规划工作能够与时俱进,便于理财规划师更好地开展工作。
  • 上市公司资本结构与企业绩效关系研究

    上市公司资本结构与企业绩效关系研究

    本书首先论述资本结构以及经营绩效理论,界定资本结构以及经营绩效的涵义,其中包含资本结构的发展历程,经营绩效的衡量方法等;其次,分析资本结构与经营绩效的理论关系;再次,分析了我国上市公司资本结构与企业绩效研究现状,以河南省上市公司作为小样本进行实证分析,提出了我国上市公司优化资本结构的对策建议。
  • 品周易,学管理

    品周易,学管理

    本书内容包括:周易领导素养、周易管人之道、周易决策智慧、周易变革思维、周易和合精神、周易经营理念、周易平衡艺术。
热门推荐
  • 萌学园之索立暗咒

    萌学园之索立暗咒

    谜亚星独自孤寂地穿行在走廊里:帝蒂娜,他们说你已经离开这个世界,是真的吗?那颗闪烁着光辉的奈亚宝石真的是你吗?为什么!你要把仅存的能量给我们!那样,你说不定就不会死了。“谜亚星,要开心地笑喔!”仿佛,她的声音在空气中飘荡。“帝蒂娜?!是你吗?”他四下搜寻“你在哪里!”蓦然回首,她站在不远处,还是那样,单纯开心地笑。“帝蒂娜!”他向她跑去,眼神里,是惊喜。他紧紧地拥抱住她,她却化为尘烟,消逝。目光瞬间黯淡,笑容飘散,“为什么!为什么!”
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 基因牧场

    基因牧场

    这是一个科幻故事,科幻总是习惯于发生在未来,就像穿越总爱穿到过去一样。但我想挑战一下,让它发生在现在,发生在很多人熟悉的一个都市里。它不是丧尸满地的危险末世,而是文明河清海晏的平安夜;它不讲时空穿梭的快意恩仇,只讲一小部分人的生死劫;它没有恢弘的星际战斗场景,但是有墨迟和邱雪的风花雪月;它的主角没有主宰世界的野心,但有对命运的永不妥协;走进《基因牧场》,关注人与神的对决。喜欢本书的读者可以加读者群:774196826
  • 逆命英雄

    逆命英雄

    谎言,战斗,生死,伙伴。他们,迎着死亡前行,慢慢揭开了“真实之地”的神秘面纱。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 斗罗大陆之凯爹

    斗罗大陆之凯爹

    本文讲述的是一个斗罗土著得到了大华夏一把科技神兵以及一个正能量系统的故事,且看主角王世豪如何带着科技神兵以及正能量系统,在斗罗世界里宣传中华民族优秀传统文化,让斗罗世界充满真善美的感人故事。(本文不沙雕,不智障,不逗比,不涉黑,不涉黄,不想为中国做多大功绩,但愿能为建设富强民主文明和谐自由平等公正法治爱国敬业诚信友善的新时代中国添砖加瓦!)
  • 穿书后我成了万人迷

    穿书后我成了万人迷

    现在这年头说句作者写文烂也会被强制绑定系统,然后穿越到书里面吗?穿越就穿越,人家都是厉害角色,她怎么就成一全家都是书内反派的双灵根废柴了?系统:宿主莫慌,我来给你开挂,咋们一起来拯救世界吧!不,她不想继续毁灭书里面的世界了。男主:月月,我已经变强了,你就跟我结婚吧!不,她不想嫁给一个书里面的角色!女主:月月,男人没什么好的,跟我浪迹天涯吧!不,我不是文艺小青年!谁来告诉她,这个世界为什么崩坏成这副模样了!【1v1,甜宠,霸道】
  • 傲娇萌妻不好惹:99次逃婚

    傲娇萌妻不好惹:99次逃婚

    钟情第99次‘逃婚’被抓回易简的公寓后,坐在沙发上看着贵妃榻上的易简,一本正经的说:“易小贱,我不要结婚!!!”“不要结婚!!!”“不要结婚!!!”终于在她重要的事情说三遍后——易简一个闪身直接扑倒沙发上的钟情,嘴角上杨:“那可由不得你。”说完便伸手从西装口袋里掏出两本红本本,扔到茶几上,“木已成舟,你逃不掉了!”婚前钟情想着怎么摆脱和易简的娃娃亲,婚后钟情每天钻研怎么让易简出轨。看男神追妻路漫漫,女神商界树新风。
  • 也许吧反正我不知道

    也许吧反正我不知道

    一边是暗恋许久的大叔,一边是不断打扰生活的高中同学,究竟她最后会选择谁呢?
  • 诛魔从男友开始

    诛魔从男友开始

    一个现代幻想故事:嗯,大魔王开始重追诛魔妻了……