书城管理大数据在中国
2841100000019

第19章 大数据与技术变革(3)

亚马逊当时的技术人员格雷格·林登思考之后,想出了一个解决方法:其实,根本没有必要将不同的用户进行比较,我们只需要找到产品之间的关联。这样的推荐方式可以提前分析产品之间的关系,所以推荐速度非常快,适用于不同产品,甚至可以跨界推荐商品。

林登说:“书评团队被打败、被解散,我对此感到非常难过。但是,数据没有说谎,人工评论的成本是非常高的。”

他将书评家带来的销售量和推荐系统产生的营销业绩进行了比较,发现推荐系统带来的商品销量远远高于书评家,这个销量比较数据直接影响了亚马逊解散书评组,而由推荐系统取代他们来推荐更可能受用户欢迎的产品。

在亚马逊的带领下,越来越多的公司开始使用这种个性化推荐系统,迅速推动了电子商务的发展。而这种基于海量数据的推荐,也是大数据早期运用的一种形式。

☆大数据是实现个性化的基础

事实上,要实现个性化的商业模式,充足的数据是其必不可少的基础。没有海量的数据,个性化也无从谈起;没有海量的数据,我们甚至连小部分用户的个性也很难总结,更不用说多数用户。

不知道你是否听过“啤酒和尿布”的经典故事。在超市里,尿布要摆在啤酒旁边才能卖得好,这也正是在深入分析大众需求的基础上得出的结论。这样的“规律”安静地隐藏在数据中,它一言不发,只等人们自己发现。我们总是需要深挖,才能让它们浮出水面。

然而大数据相对于传统的数据挖掘更进一步。大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万之间的关联。……大数据具有如下特点:数据量大、数据种类多、数据之间有潜在关联、速度快、时效高。

无所不在的数据、无处不在的网络和大规模分布式的存储和运算能力(云计算),忠实地记录了我们的衣、食、住、行及社交状态。现在,人类一天创造的数据相当于2000年一年的数据量。

你是否每天会在微博、微信、人人网之类的网站上发布信息?一分钟内,微博上新发的微博超过10万;社交网站Facebook的浏览量超过600万……整个互联网的用户和所有的商品本身就是一个足够大的数据空间,加上空间、时间、天气等等潜在相关因素,想要知道每个用户的喜好,所需要的数据量是巨大的。数据越多,对于用户的理解越精准,但同时分析的难度也就越大。

☆互联网大数据处理的技术挑战

事实上,当你仍然在把微博等社交平台当作抒情或者发议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,先人一步用其预判市场走势,而且取得了不俗的收益。

然而,处理互联网大数据充满挑战,正如上文所提到的,数据如此之多,如此之庞杂,如何才能够有效地找到数据之间的关联,如何才能充分利用大数据以期实现个性化的需要,都是我们每一个人需要思考的问题。

我们首先要明确的是,处理大数据需要具备哪些能力。为使消费数据的速度赶超生成数据的速度,拥有足够的计算资源是必要条件。而大数据处理的核心能力为具有高水平的计算框架、稳定的程序设计以及精准的算法。而这些能力则需要专业的计算机技术人才来实现。

其次便是时效性。用户生成数据的速度是非常之快的。如何才能及时感知到这些有效数据,在用户下一次操作前做出有效的响应,最终给用户带来便捷?这样的时效性要求计算机系统能够以数据流的方式来运转,最终导致系统采用与传统批量大数据处理截然不同的技术方案。

最后,为了更大程度地满足个性化需求,还必须具有足够强大的定制能力。尽管单个用户的定制需求可能很小,但用户数量巨大,定制需求迥异,如何才能够及时有效地满足每一位用户的需求呢?这就需要有像数据库SQL语言(结构化查询语言)那样给用户足够多的自由,使再小的需求通过简单的操作就能满足。这样的定制能力要在数据的存储、运算、查询、展现等多方面都有体现。

☆阿里云的解决之道--云推荐

不论是收集大数据的计算和存储能力,还是处理个性化问题所需要的实时计算和算法技术,对于网站站长和开发者而言都是不容易快速得到解决的问题。听说过“云”的概念吗?它相当于把每一位用户生成的数据内容存储到一个大的存储器中,再根据用户的需求从“云端”下载,比如现在非常流行的“云电视”、“云储存”、“云服务”等。阿里云正试图通过云端服务来降低个性化服务的门槛,使更多网站站长和开发者能够低成本享有自己的个性化服务,其中云推荐便是一个典型。

什么是云推荐呢?举一个最简单的例子来说,如果某网站是介绍美食菜谱的,用户在浏览某种菜或者是汤的制作方法时,如果能够有些相关菜谱的推荐,那么便可以让用户在网站内停留更多时间,访问更多内容。

云推荐又该如何实现呢?事实上,有多种方式可以找到用户感兴趣的内容:

第一,从用户访问日志里面发现。每一位用户都会产生浏览记录,云推荐通过对用户浏览记录数据的科学分析,推荐一系列的相关内容。

第二,可以把网站里面其他热门的菜谱推荐出来,对不同网站相同的内容进行整合与链接。

第三,寻找不同种类的内容,假如用户在浏览某类汤的做法,那么可以推荐一些某类饭菜的做法。

然而,要实现这样的推荐,传统的做法需要大量的人工编辑工作。既不能做到即时,也很难保证好的效果。一个精准的推荐模型,必须对该方法本身的整体效果以及用户对各种推荐方法结果的偏好作出一个综合的评估,这样才能找到适合每一个用户的精准推荐模型,最终让用户享受到推荐展位“千人千面”的个性化服务。

那么,普通人可以使用云推荐服务吗?可以的。如果你也想尝试一下,只需在云推荐网站注册申请,得到一个十位应用ID,如“1000001234”,并将系统生成的代码内嵌在网页代码中便可以得到个性化推荐结果。这个过程一般一分钟即可完成。

随后的事情,当然就要交给云端系统了。它会开始对网站进行深度分析,还会持续根据展现的点击效果自动调整推荐方法的模型和权重。

在云推荐的管理界面里,网站开发人员可以定制推荐位置大小、推荐内容条目数、URL范围、展现形式等参数。网站站长还能看到推荐展位的点击情况,并根据建议适当调整推荐位置参数以改善效果。

如果你是专业的网站运营和管理人员,那么你要知道,云推荐服务还针对主流建站工具Wordpress等提供插件支持。开发人员在安装插件之后,即可在工具管理界面来操作并管理云推荐的各项功能。根据后台统计,网站启用云推荐后的整体流量会提升10%。这样的个性化服务让人感觉就像是钱存银行能拿到利息一样,是大数据魅力的展现。相信随着数据的不断积累及用户数量的累积,个性化服务在大数据时代能给人带来的远不止10%流量提升这样的惊喜!

现在,你也许能够理解云推荐背后的奥秘了,它的基础仍旧是每一位用户生成的数据,你浏览的什么网站,在网上发布了什么东西,或者点了某篇文章,都是海量数据的基础。正如海纳百川的道理一样,数以万计的网民产生的数据汇聚到一起,就成为“大数据”。它的本质是如此透明,但又是这么巨大。

只要通过专业的分析软件,把大数据分析、整合、利用,最后就会成为每一位用户所看到的“猜你喜欢”。这个时候,想必你已经不再感到惊讶了。秘密就是这么简单!

☆个性化真的安全吗?

每一件事情有好的一面,就有不好的一面。大数据也是如此,无论它发展出多么奇妙的应用和提供多么方便的功能,它都有需要我们规避与纠正的弊端。

让你印象最深刻的一定是隐私。大数据在大大方便了我们的生活的同时,也在严重威胁着我们的个人隐私。一方面,我们不得不使用网络,但另一方面,我们又害怕自己的隐私被毫不遮掩地暴露。“棱镜门”事件让我们重新思考大数据下的安全问题。随着“棱镜门”的发酵,大家惊讶地发现,美国的网络监控已经在大数据盛行的今天走得那么远,将世界各国都抛在了后面。

同时还有根服务器的问题。在1969年,美国西南部的4所大学--加州大学洛杉矶分校、斯坦福大学研究院、加州大学、犹他州大学的4台主要计算机连接起来,这就是最早的互联网。目前,中国互联网用户已突破5亿,全球排名第一,但主要用来管理互联网主目录的根服务器全世界共13台,1台主根服务器仍然在美国,其余12台辅根服务器9台在美国,没有1台在中国。

美国的互联网用户数量还不到我国的一半,但网络主机数量是中国的28倍。在美国控制了多数根服务器的前提下,中国的网络安全堪忧。这也是个性化存在风险的决定性因素之一,因为我们无法控制现状,就像一个人被掐住了脖子一样。

前有传媒大亨默多克的《太阳报》因为窃听丑闻而关闭,后有斯诺登事件的发生,这些都在考验着我们着实堪忧的网络环境。所以,每一个人心里都有一个问号,大数据环境下的网络安全吗?我们的隐私还是隐私吗?如何才能安全地使用互联网,在大数据的使用和用户隐私之间找到一个平衡点,是我们需要进一步思考的问题。