新版FRM备考资料下载
  • 考纲对比
  • 学习计划
  • 思维导图
  • 复习资料
  • 历年真题
  • 词典及公式

从北京再次出现重大疫情谈相关关系和因果关系

北京青年报报道,6月14日,北京新增36例新冠肺炎确诊病例,事发地:北京新发地蔬菜市场,北京四天以来已累计报告79例,丰台区、大兴区、西城区、海淀区、房山区、朝阳区、东城区、石景山区等区已经报告病例,丰台副区长被免职。

6月14日0—24时,31个省(自治区、直辖市)和新疆生产建设兵团报告新增确诊病例49例,其中境外输入病例10例(四川4例,重庆2例,陕西2例,上海1例,福建1例),本土病例39例(北京36例,河北3例)。

疫情仿佛已有卷土重来之势,新发地病毒基因测序来自欧洲方向。

围绕新冠肺炎的源头一直是个未解之谜,各国也互相指责对方,没有确切的证据是没人会信服的。

新冠肺炎疫情爆发后,我们都听说了引起这次疫情的起源地是武汉市的华南海鲜批发市场,因为开始时有着多个病例和该市场都有直接关系,他们有的是市场中的商贩,有的是去该市场购买过货物,因此一般认为是由华南海鲜批发市场中的野生动物传染给人。

可是。。。

后来发现居住在武昌某小区的陈姓患者被认为是确诊的第1例新冠肺炎患者,然而他却并没有去过武汉华南海鲜批发市场,因此新冠病毒的*早传染源应该并非来自于这家市场。

后来疫情在全国爆发,各地对有武汉旅居史的人开始一律进行检测隔离。

随着中国疫情得到初步控制,欧洲疫情又开始爆发,又有专家说疫情源头在意大利,之后又有源头在澳洲的传言。

关于这个源头的传言沸沸扬扬传了几个月,直到全球疫情爆发,大家都开始自顾不暇,找出源头成了科学家的事情了,大家都在想着如何控制疫情的进一步传播。

到底源头是哪里,至今没有定论,关于如何控制,依然需要倍加关注。

即使国内各地都在想方设法搞经济,很多地方除了外出乘坐公共交通,大部分时间已经摘下口罩,但疫情防控依然不能松懈,这不,北京这一波仿佛就在提醒大家:别大意!

北京人民已经深切得感受到了。

相关关系和因果关系

图片源于网络,侵删

随着生活中越来越多的新事物出现,我们慢慢的都不再追求因果,转而去寻找相关。

就像疫情,讨论源头对我们大众来说几乎没啥意义,还不如勤洗手、戴口罩阻断传播来源来的实在,因为口罩对于预防新冠肺炎已经经受了大量的考验:戴口罩的人越多,疫情就控制的越好。

谣言的另一面:错把相关关系当做因果关系

有些谣言是空穴来风,我们要三思而行,比如疫情期间的板蓝根热、双黄连热;比如*近关于北京疫情的谣传;这些谣传很容易就会被拆穿,只不过我们需要的是和造谣者比速度。

谣言的另一面:错把相关关系当做因果关系

图片源于网络,侵删

有些谣言则是有理有据,但更多的是理据不分,让人们误认为相关关系是因果关系。

下面就举几个例子谈谈几种假的因果关系。

1.相关是偶然的

比如萧敬腾所到的城市,常常用下雨欢迎他的到来,而萧敬腾也被冠上了"雨神“的称号,如果计算萧敬腾的到达和下雨的相关系数,相比是*的高。但我们都清楚,这*纯属偶然。

2.第三方的影响

统计显示,游泳死亡人数和冰糕售出量之间呈正相关关系。那我们可以得出吃雪糕会增加游泳溺水的风险吗?显然不是,它们都是受了夏天气温升高所致。

3.只是原因之一

吸烟的人很多都患上了肺癌,不吸烟的人患上肺癌相对较少。如果作出“吸烟一定会导致患上肺癌'这样的推断,一定是不严谨的,因为我们都知道:导致肺癌的原因有很多,比如空气污染、遗传、其他不良的生活习惯,吸烟只是其中的一个原因。

吸烟

图片源于网络,侵删

再次强调:因果关系≠相关关系

因果关系,是指一个变量的存在一定会导致另一个变量的产生,变量之间存在先后顺序。

而相关性是统计学上的一个概念,是指一个变量变化的同时,另一个因素也会伴随发生变化,但不能确定一个变量变化是不是另一个变量变化的原因。比如天气冷和下雪通常一起发生,说明两者有很强的相关性,但不能肯定是谁导致了谁,所以不确定两者是够有因果关系。

为何我们会有这样的错觉

1.思维惯性

我们的快速思维模式使我们直接将其归于任何我们能在*时间想起来的因果关系,因此,这经常导致我们做出错误的决定。

与常识相反,经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的理解。

很多时候,这种认知捷径只是给了我们一种自己已经理解的错觉,但实际上,我们因此完全陷入了理解误区之中。

就像采样是我们无法处理全部数据时的捷径一样,这种找因果关系的方法也是我们大脑用来避免辛苦思考的捷径,所以我们选择了捷径,选择了这种快速的思维模式。

2.数据的不足

在小数据时代,很难证明由直觉而来的因果联系是错误的,所以我们这种思维模式很容易让我们相信传言,因为你无法证明人家是错的呀,人家也是有证据的。就像之前我们讲的假设检验思维一样:要想证明我是错的,*证明你是对的。你没有足够的样本数据,就无法在大概率下证明你是对的,所以你就不能拒绝别人的说法。

3.对因果关系的执迷

几千年来,探讨事物之间的因果关系是理、工、农、医、文几乎所有科学研究的重要目的。相关性和因果性是哲学问题,哲学家、数学家、统计学家、物理学家、医学家、经济学家大都将寻找自身研究领域中的因果关系当做一生的追求。

古希腊哲学家说:“我宁肯找到一个因果关系的说明,不愿获得一个波斯王位。”千百年,虽然哲学家思辩方式已深入人心,老百姓还是相信事出有因,宗教人士宣传因果报应。

大数据时代:相关关系的困境

1.一方面相关关系大放异彩

现在,情况不一样了,大数据之间的相关关系,将经常会用来证明直觉的因果联系是错误的:我们只是相关,并不是因果关系。

但这并不妨碍大数据时代下对于社会的认知,比如,如果没有大数据和统计技术,某宝某东某多多就不会知道它们所卖的产品是哪些人在购买,购买人群的年龄和他们收入水平之间的关系,如果没有产品销量的变化和买家之间的共性进行相关性分析,也就不会实现广告的*化投放,销售额的持续增长。

销售额

图片源于网络,侵删

大数据来了,相关性的凸显,使我们看到了以前不曾注意的联系,掌握了以前很难理解的复杂系统。通过相关性的研究,可以帮助企业赚钱,帮助政府决策就够了,不要讲究“为什么”,至于因果关系就让科学家们慢慢琢磨去吧。

2.另一方面要重点关注伪相关

比如研究表明:经济增长和老鼠繁殖速度呈正相关,但我们并不能说老鼠的繁殖促进了经济的增长,更有可能的原因是经济增长导致老鼠的增长。

所以说在社会实践领域,大数据分析不仅仅是数据本身的问题,不仅仅是数据采集、数据清洗、数据整合、模型分析,更需要统计学的参与及相关行业专家事先对相关变量进行一定的逻辑筛选,不然只能是”GarbageInGarbageOut“。

关系三兄弟:相关关系、因果关系、回归关系

在研究相关关系和因果关系方面,统计学做出了巨大贡献。统计学提出了相关系数,通过计算相关系数判断事物之间的相关关系,对相关系数进行统计检验,若通过检验,证明事物之间的相关程度高,便可以进一步做回归分析。

在计算相关系数时,首先要通过理论研究和定性分析筛选变量,对有内在联系的数据做相关分析。与大数据思维不同,统计学认为公鸡叫与太阳升、蛙鸣与下雨,它们之间没有内在联系,即无因果关系,属于虚假相关,尽管相关系数可能很高,也没有做回归分析的必要了。

在回归分析中,设xi为自变量,设yi为因变量,统计学的研究几乎穷尽了因果关系的所有可能。对一因一果的现象,可以建立一元回归模型;对多因一果的现象,可以建立多元回归模型;对一因多果的现象,可以建立路径分析等模型(二叉树及蒙卡模拟就是代表);对多因多果的现象,可以建立联立方程等模型。

显然,回归模型比相关系数进了一步,它可以解释数据之间作用机制和作用的大小。但回归模型即使通过了各种统计检验,也可能只在一定程度上说明事物之间的因果关系。模型的自变量不一定是原因,因变量不一定是结果。

Xi与yi之间的因果关系是否成立,还要由统计学所应用领域的专家来判断,如经济学家、管理学家、生物学家、医学家等,并大量的实践得到检验。统计模型只能说包含真正因果关系的可能性较大,而真值在哪里?上帝知道。

大数据时代:相关关系取代因果关系

大数据可理解为大而复杂的数据,具有异母体、噪音累积、虚假相关、内生性、时变性等,我们几乎被数据包围。在这种数据环境下,寻找数据之间因果关系*困难,也有观点认为在大数据时代,探索因果关系几乎不可能,因而因果关系消失了,相关关系替代了因果关系。

但我们也应看到,在大数据环境下,做相关性的研究也*困难,几十万个样本规模,几十万个维度,甚至更多,怎么计算相关系数?如果不用相关系数,用什么方法?

相关关系是比因果关系更宽泛的概念,事物之间有相关关系不一定存在因果关系,有因果关系必定有相关关系。相关分析是因果分析的基础,因果分析是相关分析的深化。大数据的相关关系不仅没有替代因果关系,反而给因果关系的研究提供了更广泛的发展空间。

医疗大数据、药物研发大数据、基因大数据给*医疗、药物研究等领域带来一切变革,但仅靠相关关系很难找到病因,无法对症下药,药物的研发也很难针对各种病症,当然也不需要建立起因果模型后再实践。

阿司匹林是治疗感冒的药,后来人们发现这种药对预防心脑血管疾病有疗效,经过大量临床,发现阿司匹林对预防心脑血管疾病疗效显着,有相关关系。而后,对阿司匹林进行药理分析,才发现阿司匹林中含有治疗心脑血管疾病的药物成分,建立了因果关系。

类似的还有伟哥的发现,本来是用来试验治疗心绞痛的药物,虽然实验以失败告终,但是药物引起的副作用——增加其它某地的血流量,却被参加实验的病人敏锐地觉察到了,于是,和治疗心绞痛毫不相关的“伟哥”就这么诞生了。

早在疫情爆发初始,就有*专家预言:这次疫情不同以往,一旦控制不好*有可能演变成一场漫长的拉锯战。

不管病毒的来源是长相丑陋的蝙蝠还是稍显可爱的穿山甲,不管是来自遥远的澳洲还是床铺所在的米国,对于我们普通人来说仅仅是个饭后谈资,在疫情远未结束的情况下,做好自己的防护措施,做好*一道防线,不传播家人朋友和同事,就是我们对相关关系和因果关系*的诠释。

我不知道病毒来自哪里,但我已经带好口罩。

想要了解更多关于FRM咨询,扫描下方二维码关注“FRM之家”公众号FRM之家