如何通过数据分析来获取信息？MOGOEC墨攻-墨攻推广MOGOEC

如何通过数据分析来获取信息？这个问题如果深入思考，实际上非常有趣。你看数据这个词我们经常提及，但请问，数据究竟是什么？数据不仅仅是数字、事实或统计数字的集合，它可以是价值的载体，可以是信息的来源，可以是决策的依据。通过数据分析，我们可以发现隐藏在数据背后的规律和趋势，帮助我们做出更明智的决策。因此，数据分析不仅仅是获取信息，更是一种发现、理解和应用的过程。

你看这个问题一问出来，估计很多人的答案都不一样。有人觉得数据指的就是数字，也有人觉得数据包含很多其他的东西。其实，我的个人体会，就是所谓数据，它指的其实是这个世界上所有那些能够被识别出的事实。从这个角度看，分析数据的本质其实就是在洞察外部世界，并且做出最有力的决策。那么，具体应该怎么做呢？

使用归纳推理离不开数据，各行各业的工作也离不开数据。不过，虽然大家天天都把“数据”这个词挂在嘴边，但可能大多数人对“数据”这个概念的理解是不准确的。你可能会有些不服气，数据，不就是一堆数字嘛，分析数据，就是去分析这些数据啊。实际上，报纸杂志中的文字、开会记录、病人的病历、大型活动嘉宾的联络方式、一个人每天上下班的路线轨迹、一段白噪音等等，这些都是数据。所以，统计学中的数据究竟指的是什么？我们又应该怎么运用数据获取信息呢？这一讲，我们就来解决这两个问题。

*数据的概念

先来看看“数据”的概念。统计学中的数据，不等同于我们通常说的数字，而是关于特定对象的定性或定量的描述。它可以是一些数字、一段文字、几张图片、一段音乐等等等等。这样听起来，数据这个概念好像更接近于我们通常说的“信息”。这里要提醒你注意一个区别，数据并不等同于信息。首先，数据中不一定都含有信息，像一段白噪音就属于这类。白噪音虽然数据量巨大，但是其中除了噪音的频率和振幅之外，别无他物。

而信息一定是某种形式的数据，是对数据进行加工、分析或者转换后得到的结果。比如，某次大型活动嘉宾的联络方式表格，这是一组数据。你可以对数据进行处理，挖掘出其中信息，再对信息做进一步分析，找到一些规律甚至总结出一些抽象的概念——打个比方，这次活动嘉宾中有55%都是来自欧洲。这个结论就是信息。也就是说，信息是加工过后的数据。

所以今天很多人强调要“看数据”，其实看的是数据背后隐藏的信息。同理，老板让你汇报数据，想听的也不仅仅是一堆数字，而是你从这堆数字背后能得到什么结论。理解了这一点，可能对你汇报工作有好处。

好，了解了数据的概念，接下来我们看看，数据可以被分为哪些类型。数据通常可以被分为量化数据和非可量化的数据。

量化数据很好理解，比如圆周率的值、一个人的收入，或者银行的利率，这指的就是可以用数字来表示的数据了。

非可量化的数据可以是图片、文字，或者声音等等。当然，很多非量化的数据也可以通过编码的方式将其量化，比如，在统计时用到的姓名、性别数据，都可以做到没有信息损失的量化。

但还有一些数据很难量化，一定要量化就会有信息损失。举个极端的例子，一幅书法作品，你一听就知道很难被量化，即便强行量化也会损失掉大部分信息。不过不用担心，这类不适合量化的数据不是我们研究的重点，我们课程这一模块最重要的任务，是教会你如何使用统计的方法进行归纳推理。所以基于这个学习目的，在接下来的课程里，我们不妨假定所有的数据都是可以量化的，这样有利于我们采用统计学的工具处理和展示数据。

*变量是什么

讲到量化这个概念，我想再扩展一点，来讲讲什么叫做“变量”，了解了这个概念，你就可以更进一步理解，我们在分析数据时具体是在分析什么。

变量这个概念，我们在数学中也经常使用，比如在方程式中，x和y就是一对变量。不过统计学中变量的概念，和数学上会略有不同。在数学上，变量是针对常数而言的，强调变化；在统计学上，变量强调个体的某个特征，它们可以被理解为个体的一个量化属性，或者一个侧面。比如身高就是一个变量，体重也是一个变量。很多变量凑在一起，就形成了对一类事物的描述。而归纳推理要做的，就是要找到一个变量的规律，或者不同变量之间的关系。

当我们使用归纳推理时，通常都是围绕着个体的不同变量展开的，而不是直接研究一个事物非常笼统概括的属性。

比如有人要问上海和成都哪座城市更好，这个问题就太笼统了，无法回答。我们只能把它们的一些变量拿出来做对比，比如它们的人均GDP、它们的房价、它们的平均工资，还有当地人受教育程度等等。今天很多争论产生的原因，都是因为不当对比所致。比如一定要强行对比四川和上海，不同人就一定会有不同的看法，大家都觉得自己有理，但其实都是拿着对自己有利的论据做对比。

有人可能会问，如果我们把事物的每一个变量都量化了，设置权重加权平均不就好了？单从数据对比的角度来说，最理想的状态肯定是选定一组固定的变量，再设置权重加权平均，得出一个对比后的确切结论。但这通常要专业的研究机构才能做到，比如那些专门统计大学排名的机构。但是这在现实生活的讨论中很难实现，因为对每个人来说，每个变量该有多少权重是不一样的，自然就会受到主观因素的影响。

因此我给你的建议是，要明确自己进行归纳推理、分析问题的目标是什么。不是为了拿出结论证明自己，或者跟人争吵，而是要利用这些结论，更好地指导你自己的工作生活。这也正是我们这门课最希望带给你的收获。

*数据的重要性

讲到这里，我还想更进一步带你搞清楚数据的重要性，或者说为什么掌握数据分析这个方法能够让我们更好地了解世界，了解自己。

数据的重要性在于它是所有归纳方法的基础。通过历史数据、大范围数据的分析，我们可以了解自己所处的位置、周围的情况，甚至可以更好地了解自身，以及了解自己问题的所在。

听到了解自己，你可能会觉得，我难道还不了解我自己么？难道通过数据统计对我的评价，会比我自己的更准确吗？事实还真是如此。十多年前，英国就有一项针对Facebook用户的分析，表明如果一个人时常使用Facebook，Facebook对ta的了解要超过ta的亲朋好友；而Facebook对重度用户的了解程度，甚至超过了ta本人。就像今天你使用短视频APP，多点开几个同一类型的视频之后，APP就会识别到你的“喜好”，经常给你推荐这一类型的视频。

再举一个我在《硅谷来信》第三季中提过的例子。美国之前做过一个针对大学生的调查，采访了4800多名美国大学生，询问他们是否相信自己能在30岁以前就变得富有。结果是，在这些同学中，超过80%的人都认为自己至少有一半的可能性能做到；甚至有超过20%的人几乎肯定自己能做到；只有不到20%的人认为，自己没有机会或者只有很小的机会实现30岁前变得富有。

我把具体的调查数据放在了文稿区，你可以看一看。

那真实的情况是怎样的呢？如果以拥有百万资产作为富有的标准，美国只有5%的人做到了这一点。如果把富有的标准降低到收入在美国前四分之一，有25%的家庭符合这个标准，但是这个阶层人群的年龄中位数差不多快要六十岁，也不符合调查限定的“在30岁之前”。

当然，年轻人的乐观心态都值得肯定，但是他们显然不够了解社会，也不够了解自己。

意识到自我认知和现实之间的差距，也许很残忍，但我相信每一位对自己有更高要求的人，都需要具备直面现实的勇气。这也正是我带你学习归纳推理的原因，并不一定是希望你今后从事这方面的工作，而是希望你能够掌握归纳推理这样一种思维，不但看得懂各种数据分析，知道哪些结论可信，也能因此对世界有更好的了解。

*使用数据的四个步骤

听到这里，你已经明确了数据的定义，知道了要利用变量来量化数据，以及数据在统计中的重要性。最后，我们来讲讲如何利用数据进行归纳推理，换句话说，今天人们常说的数据方法包括什么内容。总的来说，数据方法可以分为四个步骤，这一讲我先给你一个总体的介绍，梳理路径，在接下来的课程里，我会对每个步骤具体该怎么做进行详细讲解。

第一步，先收集我们所需要的数据。

第二步，通过处理和挖掘数据，寻找规律。

第三步，通过挖掘不同维度数据之间的相关性，看看能否通过某些已知的或者容易获取的数据，去了解未知的或者难以获取的数据。比如，天文学家会通过远方恒星亮度的变化，了解是否有行星围绕着这颗恒星运转。因为在太空中发光的恒星是容易观测到的，属于容易获取的数据；不发光的行星则属于未知的、不容易被观测到的数据。但是恒星和行星之间有联系，天文学家就能通过这些联系，通过恒星亮度的变化，来预测行星的运动。

第四步，在数据分析的基础上，建立一个和观察数据相符合的数学模型。比如，牛顿等人通过对作用力和加速度的研究，建立起一个简单的数学模型——牛顿第二定律，来描述力和加速度的关系。以后大家想了解力和加速度，就不需要再做实验了，可以直接套用公式。通常认为，数据分析的最高境界，就是找到这种规律，并建立起相应的数学模型。

总结：

OK，这一讲的内容就到这里，简单总结一下：

首先，我们明确了统计学中对数据的定义，数据是对特定对象的定性或定量的描述。数据经过处理和分析，就变成了信息。开始数据分析前，你先要从变量下手，确定好需要做对比的变量都有哪些，而不是从整体上、笼统地就开始了。最后，我们还总体了解了使用数据方法的四个步骤。