第4章大数据如此重要，引无数英雄竞折腰(1)

书签收藏评论目录封面

在这个一秒钟就可能江山易主的大数据时代，获得最真实可靠的数据并进行准确的分析和预测是企业占得先机的重要条件。如何在数据上展开角力成为企业生存的核心问题，只有企业对大数据的“外貌”和“内涵”有详尽的了解和把握，企业才有可能在未来的发展中分得一杯羹。

多样的非结构性数据

在电影《黑客帝国》当中，主人公尼奥在服下了蓝色药丸之后，就发现所有在他身边的一切其实都是数字化的幻想而已，他的工作、伙伴、住的高楼，看到的天空大地，甚至于他的情绪都不例外。电影的创作自然可以天马行空，真实的物理世界尽管不是如此，但不可否认的是它也在朝着数字化的方向高速前进。

像是高楼大厦，在动工之前就会形成一个涵盖了设计、施工、维护等多方面的综合建筑信息模型，它所使用的就是三维建模技术。在消费者看来，人们绝对会因为建筑信息模型的美观大方而自掏腰包购买效果图；在地产商看来，建筑信息模型所透露出来的信息便是他们需要为整个过程投入多少；在设计师看来，整个模型清清楚楚地呈现了所有设计的综合，他们能够在当中调整管线走向和通风设计等等；在工人看来，模型就是他们的施工图；在消防部门看来，即便是尚未完工的建筑也可以通过模型来评估它的消防效果，并模拟人群疏散的动态情形。总之，这建筑的方方面面实际上都已经数字化了。

日常生活中人们所接触到的文件、照片、视频，还有海量的数据，都有大量的信息蕴含其中。此类数据的特点是共同的，尽管它们的大小、内容、格式和用途并不相通。拿最为常见的WORD文档举例就会发现，最为简单的文档可能就只有几行字而已，但是一旦插进了图片、音乐等多媒体内容就可以成为一个多媒体的文件，文章的感染力就会增强。这一类数据就是非结构性数据。

结构性数据与之相对应，在结构性数据中人们对于表格中的数据可以简单解释，因为结构都是相通的。每个人每个月所领到的工资条，工资条的结构就没有变化过，变化的只是里面的工资和个税、保险。个人的工资条排列在一起就形成了工资表。结构化数据的计算机处理技术已经成熟了，会计和审计可以很有效地利用Excel工具来进行加减乘除、汇总和统计等一类的任务。要是有大量运算存在的话，商业数据库就会使用上，它们的任务就是存储和处理这些结构性数据。

可是，日常生活中无论是企业数据还是日常数据，大部分都是非结构性的。有咨询机构调查显示非结构性的数据占到了整个企业数据量的80%，还有调查显示高达95%，这个数据暂时还没有权威、准确的统计。信息产业这么多年一直在努力的方向就是让非结构性的数据能和结构性数据一样获得便利、快捷的处理。可是他们总在走弯路，一开始人们希望用处理结构性数据的方式来处理非结构性数据。只是非结构性数据个体之间的差异太大，用统一的处理模式来硬套的话，结果显然是不会太好。因此人们有很长一段时间认为非结构性数据的处理难度很大。

幸运的是谷歌公司成了大数据处理技术的先驱，它为公众提供搜索服务的同时，把大量网页、文档等数据的快速访问难题也解决了。雅虎公司也有一个研发小组，在谷歌技术的基础上成功地开发了一整套处理大数据的程序框架，这就是大众所熟知的Hadoop。目前这个领域的技术发展很是快速。

以上这些公司的技术研发，让不少人在面对非结构性数据的处理问题上重新找回了自信，因此高清图像、视频等处理技术都进入了快速发展的时期。

社交网络上人们情绪表达方式也日渐丰富，企业为人们开发了众多表达心情的标准化图示，用以表达人们的各种复杂的情绪。

大数据的价值发掘

我们来说说银行、地铁中那些敏感部门或是地点的视频监控，凡摄像头的运转均为24小时，它势必会产生大量的视频数据。通常情况下的视频数据是枯燥乏味的，人们不会关心。但是一旦拍到了图谋不轨的行为，那么对于公安人员来说这视频就非常有价值了。可是事先人们不会知道哪一个部分有用，因此所有的视频材料都要保存下来，即便是存了一年的数据哪怕只有一帧对破案有用也是有价值的视频。不过对于研究人类行为的社会学家来说，这些视频都是非常珍贵的第一手材料，因为从中能发现人类的行为模式特点。

人们如今要获得医疗数据并非难事，手腕上的一块和电子表颇为类似的仪器就可以随时随地测量脉搏、体温和血压等等数据，再不断地将其传回医疗中心。数据除了能帮助人们检测自己的健康情况外，医疗保险公司也很是青睐这技术。保险公司的精算师依照这些数据的特点来研发新的保险产品，对他们现有的产品组合也是非常有帮助的。

上述的种种事例说明了：1.数据的价值是无可限量的；2.当然这价值犹如沙滩中的黄金一般需要挖掘；3.组合数据的价值要比单一种类的数据价值高得多。

在研究各行各业的数据应用中，会发现即使手中有一座如此大的宝藏，但挖掘工作仍是非常困难的，原因正是由于自身的数据中所蕴含的重生之道还不为人所知。互联网公司是最早意识到数据价值的公司，因此它们总在研究和分析领域领先。不过大数据的专利不再是属于大公司，它需要的是看待世界、产业的观念和视角。大公司通过它来合纵连横，扩张跨界，小公司也可以细水长流。关键问题在于如何看待大数据。

究竟多快才是快呢？

显然是小于1秒，就在分秒之间的客户体验。

传统数据应用和大数据应用之间的重要区别就在于此。十几年间，无论是电信还是金融行业都在经历着一场核心应用系统从分散到总部统一的过程。集中大量数据之后，所产生的第一个问题就是各类报表形成的时间延长了。业界在很长时间内都在质疑能否从海量增加的数据中快速地提取信息。

在这个领域，谷歌公司的贡献是有开创性的。谷歌的搜索引擎就仿佛在向信息业界宣布，全世界我那工业的搜索可以在1秒内完成，并得到所要得到的结果。大数据应用领域谷歌成了一个标杆。要是有超过1秒钟的数据应用的话，用户就会有不良的体验。下面举个营销方面的例子。

人们在购买越是昂贵的东西时就越是犹豫，会反复去掂量自己的购买能力。购买价格便宜的东西就越容易呈现出冲动购买的特征。根据消费者的购买特点，京东商城将其分为了四种类型，其中37%是冲动购买者。对于这类购物者来说，能够在冲动的一瞬间为其送上最为精准的商品信息，是商品销售中的关键因素。幸运的是，关于这一点，社交平台的出现，为调查人们的偏好和兴趣提供了一个极好的平台，也让大数据时代这种精准的营销成了可能。

股票市场的交易主要是高频交易，要比他人快0.02秒才能有惊人的收益。为了能比他人快20毫秒，有人特地建了一条横跨西海岸到东海岸的光纤，还有人索性就留在了纽交所所在的街区。由毫秒时间差所造成的商业机会，此后会因为大数据的普及而出现在众多行业当中。

很多以应急反应为主的新兴产业很注重时效性。他们如果了解到某工厂有了事故，就会在第一时间做出判断，评估影响范围，到达现场并展开处置。

互联网投资创业现在的热点领域是O2O。经过商家门口的消费者如果能即时收到商家的促销信息，无疑是最为美好的服务。此时的促销消息若是消费者正好需要的商品或是服务，人人都能从中获益。消费者节省了时间，商家商品得到销售，服务商也获得了佣金。如果所提供的促销信息非准确时间获得的，那就会演变成为最为恼人的垃圾信息。谁都不愿意在任何时间任何地方收到垃圾信息，而这两种信息的差别常常只是几秒钟的差异而已。

数据的活性越高就有越大的价值。曾经有一家公司提供了数据样本希望有人能帮他们来评估一下潜在的商业价值。数据量很大，更新频率也很高。这样的数据并非不常见，很多支付公司所收集到的交费记录常常都是如此。

数据的活性实际上就是数据的更新频率，更新频率越高的数据就有越大的活性，反之亦然。通常来说，数据集中的活性越大，就有越丰富的信息在其中。因此在大数据领域要有所成就的话，就要想办法去提高数据的活性。

对于公司的投资价值的判定，人们常常会听到这样的观点，公司是否拥有成规模和有活性的数据。之所以多样化和快速等特征不被提及，就因为人们更容易记住这一点。

大数据的结构化、非结构化、半结构化及多结构化

阅读大数据有关文章时，很多类似数据如何被结构化、非结构化、半结构化、多结构化的概念讨论会出现。通常大数据都是非结构性的，而传统数据是结构性的。只不过二者之间的差异并非绝对清晰。

应该说，大多数传统数据都是结构性的。这说明传统数据具有明确的、预先规范好的细节的格式等特点。任何一个时候出现的新数据都是以这样的模式呈现的。对股票交易来说，交易信息的第一部分格式就是月份/日期/年份等时间信息，然后就是12位的账户数字，接下来是3-5位字母所表示的股票代码。信息的格式事先就已经定好了，再由规范好的格式和顺序给出，这样的话处理起来就比较简单。

人们在面对非结构性的数据时，常常是没有控制权的，能做的就是接收它们。像是文本数据、视频数据、音频数据等等都是这样。图像是独立像素用特定的方式组合起来的，只不过组合的方式是千变万化的。完全非结构性的数据就是如此。事实上大多数的大数据应该算是半结构化的。

半结构性的数据还是具备可理解的逻辑流程和格式，只是这些格式并非对用户都表现出了友好的姿态。半结构性的数据从某种程度上也可以被称作是多结构性的数据。此类数据，大量无价值的数据包裹着有价值的数据。相同情况下，理解和分析半结构性的数据难度要大很多。因此要用一套复杂的规则来理解半结构性的数据，只有在读了每一条信息之后才能动态地决定处理方法。

半结构性数据中最典型的就是网络日志。人们看到网络日志时，会觉得很丑陋，事实上它们中的每一条信息都有特定的价值。

非结构性的大数据源并不常见，反倒是大量的半结构性数据和多结构性数据比较常见。它们拥有可理解的逻辑流程，从中能提取出能用于分析的信息。只不过要驾驭半结构化的数据，必须有时间的保障，这才是处理它们的最佳方式。

网络日志的信息是有逻辑的，尽管很多时候很难看出来。日志中字段和分隔符都是不同的，仿佛是结构性的数据一般，包含了大量的价值。只不过它们彼此间非以固定的方式相联系。不同网站上的网络日志点击所用的时间长短不一。另外，半结构性的数据要理解其内在的逻辑并非不可能的，只不过要花上一段时间才行。

分析专家似乎更怕非结构性数据，半结构性的数据对他们来说，要征服是需要付出努力的，而他们也能够做得到。分析专家首先要把半结构性的数据组织成结构性的，然后再在他们的分析流程中运用。而对于非结构性的数据来说，困难就会大很多。即便是已经征服了半结构性的数据，他们要面对非结构性的数据时还是会感觉是个巨大的挑战。

大数据是扩展性的下一代传统数据

关于大数据的各种言论作为为众人所关注的热点层出不穷，核心还是大数据要如何从根本上变革分析和使用大数据的方法。仔细思考一下，会发现事实并非如此。

关于庞大的大数据和它们的可扩展性已经不是个新鲜的话题。第一次使用新数据源的时候，通常会认定大数据是庞大的且很难使用的。事实上大数据不过是突破了当前极限，更大规模的数据罢了。分析专家对于传统数据源的掌握即便是有瓶颈的，但这也不影响其驾驭大数据源。毕竟分析专家从一开始就非常努力地在探索新数据源，并且将持续下去。

在电信公司中分析电话详单的第一人是谁？当然是分析专家。深入研究零售点销售数据并为此找到价值的第一人又是谁？当然也是分析专家。最初，分析几千个到几万个，甚至几十万个商品的数据被视为是一个巨大的难题。可是现在这一切已经迎刃而解。

最早开始做数据源分析的分析专家处理的数据便是在当时被认定为无法处理的数据。首先他们要做的是找到分析和利用的方法，并且是在当时的条件下。不少人对可行性产生质疑，还有人认为这些数据并非具有价值。

分析专家们正努力在做的事情和他们做事情的理由不会因为大数据而发生改变，即便从一开始很多分析专家会自称为数据科学家，可是他们的目标还是一致的。待解决的很多问题都涉及了大数据，这跟从前差别不大。最后分析专家和数据科学家们还是会去探索一直以来探索的事情的，并从中发现一些有价值的趋势和模式。必须强调的一点是，尽管大数据听起来很陌生，可是它所带来的挑战却无须畏惧。

不论从什么方面来说，大数据所产生的问题一定是从前出现过的。在数据分析领域，永恒的主题就是驾驭新的、可扩展性极限的大数据源。大数据不过是下一代的这种数据罢了。处理此类情况，分析师已经很是熟悉了。只要是有驾驭过其他数据经验的企业，大数据也同样可以驾驭。

分析专家的工作策略有一部分会因为大数据而改变。他们常常将新的工具、方法、技术和传统分析工具相结合，目的是为了有效地处理大数据流。要从中提取最有效的信息，复杂的过滤算法是十分必要的。当然也要更新建模和预测程序，大量的数据要输入添加到现有的输入当中去。

从根本上来说，分析的目标和流程并不因工作策略的改变而改变。大数据催生的是创新性的分析方法，分析专家也必须在继续扩展性的瓶颈下革新。可是必须承认的是，分析专家在处理大数据和以往数据时的方式差异不大。

是什么构成了大数据价值链？

依照所提供价值的来源（数据本身、技能和思维）不同，大数据公司可以分为三类。

第4章 大数据如此重要，引无数英雄竞折腰(1)

第4章大数据如此重要，引无数英雄竞折腰(1)