如何通过数据分析来获取信息?这个问题如果深入思考,实际上非常有趣。你看数据这个词我们经常提及,但请问,数据究竟是什么?数据不仅仅是数字、事实或统计数字的集合,它可以是价值的载体,可以是信息的来源,可以是决策的依据。通过数据分析,我们可以发现隐藏在数据背后的规律和趋势,帮助我们做出更明智的决策。因此,数据分析不仅仅是获取信息,更是一种发现、理解和应用的过程。
你看这个问题一问出来,估计很多人的答案都不一样。有人觉得数据指的就是数字,也有人觉得数据包含很多其他的东西。其实,我的个人体会,就是所谓数据,它指的其实是这个世界上所有那些能够被识别出的事实。从这个角度看,分析数据的本质其实就是在洞察外部世界,并且做出最有力的决策。那么,具体应该怎么做呢?
使用归纳推理离不开数据,各行各业的工作也离不开数据。不过,虽然大家天天都把“数据”这个词挂在嘴边,但可能大多数人对“数据”这个概念的理解是不准确的。你可能会有些不服气,数据,不就是一堆数字嘛,分析数据,就是去分析这些数据啊。实际上,报纸杂志中的文字、开会记录、病人的病历、大型活动嘉宾的联络方式、一个人每天上下班的路线轨迹、一段白噪音等等,这些都是数据。所以,统计学中的数据究竟指的是什么?我们又应该怎么运用数据获取信息呢?这一讲,我们就来解决这两个问题。
*数据的概念
先来看看“数据”的概念。统计学中的数据,不等同于我们通常说的数字,而是关于特定对象的定性或定量的描述。它可以是一些数字、一段文字、几张图片、一段音乐等等等等。这样听起来,数据这个概念好像更接近于我们通常说的“信息”。这里要提醒你注意一个区别,数据并不等同于信息。首先,数据中不一定都含有信息,像一段白噪音就属于这类。白噪音虽然数据量巨大,但是其中除了噪音的频率和振幅之外,别无他物。
而信息一定是某种形式的数据,是对数据进行加工、分析或者转换后得到的结果。比如,某次大型活动嘉宾的联络方式表格,这是一组数据。你可以对数据进行处理,挖掘出其中信息,再对信息做进一步分析,找到一些规律甚至总结出一些抽象的概念——打个比方,这次活动嘉宾中有55%都是来自欧洲。这个结论就是信息。也就是说,信息是加工过后的数据。
所以今天很多人强调要“看数据”,其实看的是数据背后隐藏的信息。同理,老板让你汇报数据,想听的也不仅仅是一堆数字,而是你从这堆数字背后能得到什么结论。理解了这一点,可能对你汇报工作有好处。
好,了解了数据的概念,接下来我们看看,数据可以被分为哪些类型。数据通常可以被分为量化数据和非可量化的数据。
量化数据很好理解,比如圆周率的值、一个人的收入,或者银行的利率,这指的就是可以用数字来表示的数据了。
非可量化的数据可以是图片、文字,或者声音等等。当然,很多非量化的数据也可以通过编码的方式将其量化,比如,在统计时用到的姓名、性别数据,都可以做到没有信息损失的量化。
但还有一些数据很难量化,一定要量化就会有信息损失。举个极端的例子,一幅书法作品,你一听就知道很难被量化,即便强行量化也会损失掉大部分信息。不过不用担心,这类不适合量化的数据不是我们研究的重点,我们课程这一模块最重要的任务,是教会你如何使用统计的方法进行归纳推理。所以基于这个学习目的,在接下来的课程里,我们不妨假定所有的数据都是可以量化的,这样有利于我们采用统计学的工具处理和展示数据。
*变量是什么
讲到量化这个概念,我想再扩展一点,来讲讲什么叫做“变量”,了解了这个概念,你就可以更进一步理解,我们在分析数据时具体是在分析什么。
变量这个概念,我们在数学中也经常使用,比如在方程式中,x和y就是一对变量。不过统计学中变量的概念,和数学上会略有不同。在数学上,变量是针对常数而言的,强调变化;在统计学上,变量强调个体的某个特征,它们可以被理解为个体的一个量化属性,或者一个侧面。比如身高就是一个变量,体重也是一个变量。很多变量凑在一起,就形成了对一类事物的描述。而归纳推理要做的,就是要找到一个变量的规律,或者不同变量之间的关系。
当我们使用归纳推理时,通常都是围绕着个体的不同变量展开的,而不是直接研究一个事物非常笼统概括的属性。
比如有人要问上海和成都哪座城市更好,这个问题就太笼统了,无法回答。我们只能把它们的一些变量拿出来做对比,比如它们的人均GDP、它们的房价、它们的平均工资,还有当地人受教育程度等等。今天很多争论产生的原因,都是因为不当对比所致。比如一定要强行对比四川和上海,不同人就一定会有不同的看法,大家都觉得自己有理,但其实都是拿着对自己有利的论据做对比。
有人可能会问,如果我们把事物的每一个变量都量化了,设置权重加权平均不就好了?单从数据对比的角度来说,最理想的状态肯定是选定一组固定的变量,再设置权重加权平均,得出一个对比后的确切结论。但这通常要专业的研究机构才能做到,比如那些专门统计大学排名的机构。但是这在现实生活的讨论中很难实现,因为对每个人来说,每个变量该有多少权重是不一样的,自然就会受到主观因素的影响。
因此我给你的建议是,要明确自己进行归纳推理、分析问题的目标是什么。不是为了拿出结论证明自己,或者跟人争吵,而是要利用这些结论,更好地指导你自己的工作生活。这也正是我们这门课最希望带给你的收获。
*数据的重要性
讲到这里,我还想更进一步带你搞清楚数据的重要性,或者说为什么掌握数据分析这个方法能够让我们更好地了解世界,了解自己。
数据的重要性在于它是所有归纳方法的基础。通过历史数据、大范围数据的分析,我们可以了解自己所处的位置、周围的情况,甚至可以更好地了解自身,以及了解自己问题的所在。
听到了解自己,你可能会觉得,我难道还不了解我自己么?难道通过数据统计对我的评价,会比我自己的更准确吗?事实还真是如此。十多年前,英国就有一项针对Facebook用户的分析,表明如果一个人时常使用Facebook,Facebook对ta的了解要超过ta的亲朋好友;而Facebook对重度用户的了解程度,甚至超过了ta本人。就像今天你使用短视频APP,多点开几个同一类型的视频之后,APP就会识别到你的“喜好”,经常给你推荐这一类型的视频。
再举一个我在《硅谷来信》第三季中提过的例子。美国之前做过一个针对大学生的调查,采访了4800多名美国大学生,询问他们是否相信自己能在30岁以前就变得富有。结果是,在这些同学中,超过80%的人都认为自己至少有一半的可能性能做到;甚至有超过20%的人几乎肯定自己能做到;只有不到20%的人认为,自己没有机会或者只有很小的机会实现30岁前变得富有。
我把具体的调查数据放在了文稿区,你可以看一看。
那真实的情况是怎样的呢?如果以拥有百万资产作为富有的标准,美国只有5%的人做到了这一点。如果把富有的标准降低到收入在美国前四分之一,有25%的家庭符合这个标准,但是这个阶层人群的年龄中位数差不多快要六十岁,也不符合调查限定的“在30岁之前”。
当然,年轻人的乐观心态都值得肯定,但是他们显然不够了解社会,也不够了解自己。
意识到自我认知和现实之间的差距,也许很残忍,但我相信每一位对自己有更高要求的人,都需要具备直面现实的勇气。这也正是我带你学习归纳推理的原因,并不一定是希望你今后从事这方面的工作,而是希望你能够掌握归纳推理这样一种思维,不但看得懂各种数据分析,知道哪些结论可信,也能因此对世界有更好的了解。
*使用数据的四个步骤
听到这里,你已经明确了数据的定义,知道了要利用变量来量化数据,以及数据在统计中的重要性。最后,我们来讲讲如何利用数据进行归纳推理,换句话说,今天人们常说的数据方法包括什么内容。总的来说,数据方法可以分为四个步骤,这一讲我先给你一个总体的介绍,梳理路径,在接下来的课程里,我会对每个步骤具体该怎么做进行详细讲解。
第一步,先收集我们所需要的数据。
第二步,通过处理和挖掘数据,寻找规律。
第三步,通过挖掘不同维度数据之间的相关性,看看能否通过某些已知的或者容易获取的数据,去了解未知的或者难以获取的数据。比如,天文学家会通过远方恒星亮度的变化,了解是否有行星围绕着这颗恒星运转。因为在太空中发光的恒星是容易观测到的,属于容易获取的数据;不发光的行星则属于未知的、不容易被观测到的数据。但是恒星和行星之间有联系,天文学家就能通过这些联系,通过恒星亮度的变化,来预测行星的运动。
第四步,在数据分析的基础上,建立一个和观察数据相符合的数学模型。比如,牛顿等人通过对作用力和加速度的研究,建立起一个简单的数学模型——牛顿第二定律,来描述力和加速度的关系。以后大家想了解力和加速度,就不需要再做实验了,可以直接套用公式。通常认为,数据分析的最高境界,就是找到这种规律,并建立起相应的数学模型。
总结:
OK,这一讲的内容就到这里,简单总结一下:
首先,我们明确了统计学中对数据的定义,数据是对特定对象的定性或定量的描述。数据经过处理和分析,就变成了信息。开始数据分析前,你先要从变量下手,确定好需要做对比的变量都有哪些,而不是从整体上、笼统地就开始了。最后,我们还总体了解了使用数据方法的四个步骤。