《大数据时代》读后感
舍恩伯格的《大数据时代》被人推崇为2012最佳书籍,今年安泰读书会的重头戏。虽然主讲人最后放了个香港大黄鸭般的鸽子,但现场讨论氛围依旧非常热烈——而且还是在没几个人读完的情况下,也就意味着——大数据对我们的影响,已经深入到生活的方方面面。这本书对这个大规模产生、分享和应用数据的新的大时代进行了阐述和厘清,作者围绕“要全体不要抽样、要效率不要绝对精确、要相关不要因果”三大理念,通过数十个商业和学术案例,剖析了万事万物数据化和数据复用挖掘的巨大价值。
无处不在的大数据:各种云计算,谷歌的神通,亚马逊的推送,天涯人肉,微博万能等等等等,我们掌握了新的工具,也获取了以前从未有过的各种信息。大数据拉近了我们与现实的距离,“地球村”变成了“地球屋”,仿佛所有人所有事物都触手可及,而这些牛逼哄哄的互联网巨头就在客厅展示着世界的每一寸光景。如作者所言“大数据开启了一次重大时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们看清微生物一样,大数据要改变的是,我们的生活方方面面以及理解世界的方式”。比如,谷歌通过全球搜索分析,比国际疾病控防中心更早更准地预测了流感爆发。
然而,事实真的是这样吗?首先,从应用角度出发,低廉的运算能力和存储空间,让以前的样本分析显得非常简陋——一些从全体数据挖掘出来,忽略精确而从大量数据的简单算法得出来的结论颠覆了常识。但个人觉得,这只是统计学的终极目标——并没有非常大的跨越,可能终结了回归分析,有效性验证等手段,但依旧还是统计。而革命性在于关注相关关系而非因果关系。现场讨论从神学角度挑战了因果关系的不可能——或者说人类用简单思考的逻辑来定义因果,以及用之前小数据演绎出大概率事件来推导因果,都是不正确的。真正的因果关系应该属于上帝的范畴,人类如果真的完全掌握之后,会统治整个宇宙。
但我觉得,无需从神学观点来讨论,而可以借鉴量子力学对经典力学的颠覆——在原子层面上,经典力学会失效——那么在大数据层面上,普通的抽样调查直观反映会失效。而且从量子力学角度是很难推导经典力学的公式,那么从现在的惯有思维,也难以推导出大数据的因果关系。同时现场有讨论,是否计算机可以精确地模拟每个原子,然后完整地展现微观到宏观的化学反应细节?我觉得首先是计算能力不足,其次即便设定原子的运动条件真的正确,计算结果未知但宏观结果我们却已经知道——牛顿的经典力学足以应付日常绝大部分情况了。好比切西瓜,究竟刀头的铁原子和西瓜的有机分子如何作用,真的重要吗?回归到商业领域,如果我们可以提高相关性的准确度,从而提高投入效率,那就已经足够了。本来一个产品受到一半客户喜欢,但如果通过大数据挖掘到更好的定位,有百分之八十的客户喜欢,那么价值已经非常可观了。
大数据时代的社会伦理——很大的命题,但重点都在讨论如何保护个人隐私。因为手机越来越智能,网络越来越快,个人的信息也越来越透明——隐形几乎完全不可能。我想说的是,作为硬币的另外一面,我们无法舍弃:互联网只不过是让人与人之间碎片的关系得以统一,其实各种人肉和信息只不过是坊间传闻的升级罢了。当我们住在拥挤的小区,三公里走完一圈的县城,半小时散步完的村落,人和人之间有隐私吗?现在只不过是把这个范围放大到了一个地球而已。硬币的一面是人和人之间有沟通的需要,去团结对抗世界的未知,那么另外一面就是隐私的缺乏。与其说是要在大数据时代保护自己的信息不被泄露,不如站起来维护自己和他人的隐私,从法律和道德的角度来尊重人与人之间的权利。在一个互相尊重的环境下,你可以穿热裤,他也可以穿长裙走上街头;在一个互相践踏的社会中,人人都得带着面具生活。
在思维变革部分,作者讲述的重点是:样本=总体,我们需要对全部数据的占有和分析;因此,数据缺乏时代的精确性不必执迷,接受混杂基于大数据的简单算法比小数据的复杂算法更有效;样本推断的因果关系不重要了,知道“是什么”的相关关系,或者结果就可以了。对于我自己最受用的是什么呢?是大数据的产业链。产业链包括大数据平台、大数据技术提供方、大数据理念提供方。我认为大数据平台是整个产业链条的核心,没有数据,再好的技术和理念都会是无米之炊。那么大数据平台在当前的中国社会有哪些呢?所有的互联网公司,物联网公司,物流,快消品等等,实际上任何公司都是数据平台公司,只不过之前没有好好的利用数据,而更多的是用经验来管理公司和迎合客户需求。现在不一样了,我们完全可以用数据来驱动公司管理和客户管理,毕竟数据是不会骗人的。
大数据帮助我们把未来的迷雾拨开了一点,但好比《沉重的肉身》当中讨论的,更多的选择权并不能带给人幸福——因为知道自己不能做不能得到的也更多了。解决工作模式,生存意义,幸福之道等问题,关键还是看自己如何看待和使用这些新式工具以及新结论。引用《神探伽利略》里面的台词:可被重复的,一定有道理存在。那么现在重复的越来越多,更需要保持探索和敬畏之心,人才不会迷路。