库拉索芦荟 - 芦荟汇聚地!

辛普森悖论

什么是辛普森悖论?

辛普森悖论是指研究两种变量之间的相关性,分别进行分组研究时占优势的一方,在总体分析时却没有占优势。是辛普森在1951年的论文中正式阐述的,之后这一现象就用他的名字命名为辛普森悖论。之所以会出现这种情况,是因为往往一个情境会有很多的影响因素,并不是单一的一个因素,同时会有很多潜在因素影响着,导致优势并不能靠单纯的相累得到,这并不反映真实的情况。一、量与质并不对等俗话说量变引起质变,但有时候其实量与质并不是等价的,有些情景的真实情况并不是靠单纯地相加相累就可以反映出来。但很多人往往都愿意相信自己看到的,因为量往往能更加直观地感受和量测到,用数量来评定很多事情的好坏,这显然并不科学。二、从辛普森悖论可以受到一些启发辛普森悖论留给我们很多的启发,有些事情并没有我们想得那么的简单,还是要从实际情况出发,实事求是。世界上有很多需要我们去探索解决的问题,就如同这质与量的谜题一样,找到方法对我们解决生活中的难题会有很大的帮助。最后对我们的人生也有很好的启发,并不是所有的事情都一定会有明显的回报,简单的叠加并不一定引起质的变化,有些时候我们需要正确看待事情的结果,找到更好的解决方法。辛普森悖论的意义很重大,它教我们学会看待问题的另一种方法,学会从另一个角度看问题,为我们解决生活中的问题提供了一种独特的思考方式。同时它也是一种重要的科学理论,为我们一些难以解释的问题提供了论据,是一种对人类生活有很大帮助的,影响非常的深远和广泛的理论。

辛普森悖论是什么?为什么会这样?

辛普森悖论是指研究两种变量之间的相关性,分别进行分组研究时占优势的一方,在总体分析时却没有占优势。是辛普森在1951年的论文中正式阐述的,之后这一现象就用他的名字命名为辛普森悖论。之所以会出现这种情况,是因为往往一个情境会有很多的影响因素,并不是单一的一个因素,同时会有很多潜在因素影响着,导致优势并不能靠单纯的相累得到,这并不反映真实的情况。一、量与质并不对等俗话说量变引起质变,但有时候其实量与质并不是等价的,有些情景的真实情况并不是靠单纯地相加相累就可以反映出来。但很多人往往都愿意相信自己看到的,因为量往往能更加直观地感受和量测到,用数量来评定很多事情的好坏,这显然并不科学。二、从辛普森悖论可以受到一些启发辛普森悖论留给我们很多的启发,有些事情并没有我们想得那么的简单,还是要从实际情况出发,实事求是。世界上有很多需要我们去探索解决的问题,就如同这质与量的谜题一样,找到方法对我们解决生活中的难题会有很大的帮助。最后对我们的人生也有很好的启发,并不是所有的事情都一定会有明显的回报,简单的叠加并不一定引起质的变化,有些时候我们需要正确看待事情的结果,找到更好的解决方法。辛普森悖论的意义很重大,它教我们学会看待问题的另一种方法,学会从另一个角度看问题,为我们解决生活中的问题提供了一种独特的思考方式。同时它也是一种重要的科学理论,为我们一些难以解释的问题提供了论据,是一种对人类生活有很大帮助的,影响非常的深远和广泛的理论。

【科普】辛普森悖论

先来做一个选择题。 统计两个班级的数学成绩,二班的整体及格率高于一班,那么则有: A:二班男生及格率高于一班男生及格率 B:二班女生及格率高于一班女生及格率 C:AB两种情况必定都成立 D: AB两种情况必定至少有一种情况成立 E.:AB两种可以都不成立 请先仔细思考几分钟,然后再继续往下阅读。 9 8 7 6 5 4 3 2 1 0 我们先看一组比较虚拟示例的数据。 一班的及格率是: 二班的及格率是: 二班的的整体及格率明显高于一班。 再分开男女单独比。 一班的男生及格率和女生及格率都比二班高,但为什么一班整体及格率却比二班低? 我们把数据画到坐标图上,如下所示。 横向表示总人数,竖向表示及格人数。图中黑色表示一班,红色表示二班,实心点表示 (x,y)=(男生及格人数,男生总人数) 这样的坐标点,空心表示女生的坐标点。很明显,斜线的倾斜度就是及格率,越是竖直斜率越高及格率也就越高,越是水平斜率越低及格率也就越低。 从图中可以看到,一班男生及格率(斜率)高于二班男生,一班女生及格率(斜率)也高于二班女生。 但班级的整体及格率是什么? (x,y)=(男生及格,男生总数)+(女生及格,女生总数) ,如下图中实线所示,班级整体及格率就是实线的斜率,即 (男生及格+女生及格)/(男生总数+女生总数) 。 图中的两条女生虚线已经被平移到男生虚线之后,和班级整体的实线形成了三角形关系。 两条斜率大的斜线,连接成三角形的第三条边(实线)斜率未必就大 。 从这个例子我们知道,从一组数据统计得到的概率并不能决定数据内部某个类别的概率情况。因为整体概率往往是很多子因素概率综合作用的结果。就像下图,实线的最后斜率和每段虚线的斜率并不一致。 辛普森悖论 (Simpson's Paradox)就是指两组数据中分别统计得到的信息,可能与合并之后统计的信息相反。这个理论由英国统计学家E.H.辛普森(E.H.Simpson)提出。 这个理论提醒我们看待问题要更加深入,不要轻易被整体数据所迷惑。比如高考某院校的全国整体录取率很高,但是对于某个省或某个专业来说可能就会很低。比如某个球员的射门命中率很高,但有可能是他罚点球比较多造成的。 这时候你可以回头看一下顶部那张给猫和人试用药品的图片了。 分数是个很怪异的数字,分数的表面只是一个比例,但每个分数的背后都隐藏着一个分母总数。我们不能从及格率60%这个数字上看出背后有多少学生,更看不出其中有多少男女。 很小的时候数学老师就告诉我们非同名数不能相加。但是忘了告诉我们 非同分母的分数也不能任意相加 。比如说有人欠你1/3颗芝麻和2/3个西瓜,然后他只给你一粒芝麻,这是不行的。 分数所能表达的信息是残缺的。就像把整本《三国演义》概括成一句话“天下大势,分久必合合久必分”,你从这句话中体会不到谁是曹操谁是刘备关羽张飞诸葛亮。 END·